論文の概要: Stay Alive with Many Options: A Reinforcement Learning Approach for
Autonomous Navigation
- arxiv url: http://arxiv.org/abs/2102.00168v1
- Date: Sat, 30 Jan 2021 06:55:35 GMT
- ステータス: 処理完了
- システム内更新日: 2021-02-02 16:21:00.633712
- Title: Stay Alive with Many Options: A Reinforcement Learning Approach for
Autonomous Navigation
- Title(参考訳): 多くのオプションで待機する: 自律的なナビゲーションのための強化学習アプローチ
- Authors: Ambedkar Dukkipati, Rajarshi Banerjee, Ranga Shaarad Ayyagari, Dhaval
Parmar Udaybhai
- Abstract要約: 我々は、階層的な政策を使わずに、このようなスキルを逐次学習するための代替手法を導入する。
構築したシミュレーション3次元ナビゲーション環境において,本手法の有効性を実証する。
- 参考スコア(独自算出の注目度): 5.811502603310248
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Hierarchical reinforcement learning approaches learn policies based on
hierarchical decision structures. However, training such methods in practice
may lead to poor generalization, with either sub-policies executing actions for
too few time steps or devolving into a single policy altogether. In our work,
we introduce an alternative approach to sequentially learn such skills without
using an overarching hierarchical policy, in the context of environments in
which an objective of the agent is to prolong the episode for as long as
possible, or in other words `stay alive'. We demonstrate the utility of our
approach in a simulated 3D navigation environment which we have built. We show
that our method outperforms prior methods such as Soft Actor Critic and Soft
Option Critic on our environment, as well as the Atari River Raid environment.
- Abstract(参考訳): 階層的強化学習アプローチは階層的決定構造に基づいてポリシーを学ぶ。
しかし、実際にはそのような方法の訓練は、あまりに少数の時間ステップでアクションを実行するサブポリシーまたは単一のポリシーに完全に移行して、悪い一般化につながる可能性があります。
本研究では,エージェントの目的が可能な限り長期化する環境や,あるいは言い換えれば「生き続ける」環境において,階層的な政策を使わずに,このようなスキルを逐次学習するための代替手法を導入する。
構築したシミュレーション3次元ナビゲーション環境において,本手法の有効性を実証する。
本手法は,我々の環境やatari river raid環境において,ソフトアクタ批判やソフトオプション批判といった従来の手法よりも優れていることを示す。
関連論文リスト
- Language-Conditioned Semantic Search-Based Policy for Robotic
Manipulation Tasks [2.1332830068386217]
言語条件のセマンティックサーチに基づくオンラインサーチベースのポリシーを作成する手法を提案する。
提案手法は,CALVINベンチマークのベースライン性能を超越し,ゼロショット適応性能が向上する。
論文 参考訳(メタデータ) (2023-12-10T16:17:00Z) - Constructing a Good Behavior Basis for Transfer using Generalized Policy
Updates [63.58053355357644]
そこで我々は,優れた政策集合を学習する問題を考察し,組み合わせることで,目に見えない多種多様な強化学習タスクを解くことができることを示した。
理論的には、独立したポリシーのセットと呼ぶ、特定の多様なポリシーのセットにアクセスできることによって、ハイレベルなパフォーマンスを即時に達成できることが示される。
論文 参考訳(メタデータ) (2021-12-30T12:20:46Z) - Unsupervised Reinforcement Learning in Multiple Environments [37.5349071806395]
複数の環境のクラスにおける教師なし強化学習の課題に対処する。
本稿では,クラス間のインタラクションを通じて導入対象を最適化するために,ポリシー勾配アルゴリズムである$alpha$MEPOLを提案する。
事前学習した探索戦略から,強化学習が大きなメリットがあることが示唆された。
論文 参考訳(メタデータ) (2021-12-16T09:54:37Z) - Goal-Conditioned Reinforcement Learning with Imagined Subgoals [89.67840168694259]
我々は、複雑なタスクの学習を容易にするために、想像上のサブゴールをポリシー学習に組み込むことを提案する。
想像上のサブゴールは、政策と批判を同時に訓練する独立したハイレベルな政策によって予測される。
複雑なロボットナビゲーションと操作タスクに対する我々のアプローチを評価し、既存の手法よりも大きなマージンで優れていることを示す。
論文 参考訳(メタデータ) (2021-07-01T15:30:59Z) - Deep Reinforcement Learning amidst Lifelong Non-Stationarity [67.24635298387624]
政治以外のRLアルゴリズムは、寿命の長い非定常性に対処できることを示す。
提案手法は潜在変数モデルを用いて,現在および過去の経験から環境表現を学習する。
また, 生涯の非定常性を示すシミュレーション環境もいくつか導入し, 環境変化を考慮しないアプローチを著しく上回っていることを実証的に確認した。
論文 参考訳(メタデータ) (2020-06-18T17:34:50Z) - Non-Stationary Off-Policy Optimization [50.41335279896062]
本研究では,時間的空間的帯域幅の非政治最適化の新たな課題について検討する。
オフライン学習フェーズでは、ログ化されたデータをカテゴリの潜在状態に分割し、各状態に対してほぼ最適のサブポリシーを学ぶ。
オンラインデプロイメントの段階では、学習したサブ政治をそのパフォーマンスに基づいて順応的に切り替える。
論文 参考訳(メタデータ) (2020-06-15T09:16:09Z) - Guided Uncertainty-Aware Policy Optimization: Combining Learning and
Model-Based Strategies for Sample-Efficient Policy Learning [75.56839075060819]
従来のロボットのアプローチは、環境の正確なモデル、タスクの実行方法の詳細な説明、現在の状態を追跡するための堅牢な認識システムに依存している。
強化学習アプローチは、タスクを記述するための報酬信号だけで、生の感覚入力から直接操作することができるが、非常にサンプル非効率で脆弱である。
本研究では,ロボットの知覚・運動パイプラインにおける不正確さを克服できる一般的な手法を得るために,モデルに基づく手法の強みと学習に基づく手法の柔軟性を組み合わせる。
論文 参考訳(メタデータ) (2020-05-21T19:47:05Z) - Reward-Conditioned Policies [100.64167842905069]
模倣学習には、ほぼ最適の専門家データが必要である。
実演なしで指導的学習を通じて効果的な政策を学べるか?
政策探索の原則的手法として,このようなアプローチを導出する方法を示す。
論文 参考訳(メタデータ) (2019-12-31T18:07:43Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。