論文の概要: Learning for Visual Navigation by Imagining the Success
- arxiv url: http://arxiv.org/abs/2103.00446v1
- Date: Sun, 28 Feb 2021 10:25:46 GMT
- ステータス: 処理完了
- システム内更新日: 2021-03-04 23:02:02.394587
- Title: Learning for Visual Navigation by Imagining the Success
- Title(参考訳): 成功を想像した視覚ナビゲーションの学習
- Authors: Mahdi Kazemi Moghaddam, Ehsan Abbasnejad, Qi Wu, Javen Shi and Anton
Van Den Hengel
- Abstract要約: 我々は,成功(下位)ゴーナル状態の潜在表現を想像することを提案する。
ForeSITは、成功につながる将来の状態の繰り返しの潜在表現を想像するように訓練されています。
ForeSITをオンポリシーでトレーニングし、RL目標に統合するための効率的な学習アルゴリズムを開発しています。
- 参考スコア(独自算出の注目度): 66.99810227193196
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Visual navigation is often cast as a reinforcement learning (RL) problem.
Current methods typically result in a suboptimal policy that learns general
obstacle avoidance and search behaviours. For example, in the target-object
navigation setting, the policies learnt by traditional methods often fail to
complete the task, even when the target is clearly within reach from a human
perspective. In order to address this issue, we propose to learn to imagine a
latent representation of the successful (sub-)goal state. To do so, we have
developed a module which we call Foresight Imagination (ForeSIT). ForeSIT is
trained to imagine the recurrent latent representation of a future state that
leads to success, e.g. either a sub-goal state that is important to reach
before the target, or the goal state itself. By conditioning the policy on the
generated imagination during training, our agent learns how to use this
imagination to achieve its goal robustly. Our agent is able to imagine what the
(sub-)goal state may look like (in the latent space) and can learn to navigate
towards that state. We develop an efficient learning algorithm to train ForeSIT
in an on-policy manner and integrate it into our RL objective. The integration
is not trivial due to the constantly evolving state representation shared
between both the imagination and the policy. We, empirically, observe that our
method outperforms the state-of-the-art methods by a large margin in the
commonly accepted benchmark AI2THOR environment. Our method can be readily
integrated or added to other model-free RL navigation frameworks.
- Abstract(参考訳): 視覚ナビゲーションはしばしば強化学習(RL)問題として扱われる。
現在の方法は通常、一般的な障害回避と探索行動を学ぶ準最適ポリシーとなる。
例えば、ターゲットオブジェクトナビゲーション設定では、従来の方法によって学習されたポリシーは、ターゲットが人間の視点から明確に到達できる範囲にある場合でも、タスクを完了できないことが多い。
この問題に対処するために,我々は,成功した(サブ)ゴール状態の潜在表現を想像することを提案する。
そのために、私たちはForeSIT(Foresight Imagination)と呼ばれるモジュールを開発しました。
ForeSITは、成功につながる将来の状態の繰り返し潜在表現を想像するように訓練されている。
ターゲットの前に到達することが重要なサブゴール状態、またはゴール状態自体のいずれか。
トレーニング中に生成されたイマジネーションにポリシーを条件付けすることで、エージェントは、このイマジネーションを使って目標をしっかりと達成する方法を学ぶ。
我々のエージェントは、(サブ)ゴール状態が(潜在空間で)どのように見えるかを想像することができ、その状態に向かって進むことを学べます。
ForeSITをオンポリシーでトレーニングし、RL目標に統合するための効率的な学習アルゴリズムを開発しています。
統合は、イマジネーションとポリシーの両方で共有される状態表現が絶えず進化しているため、簡単ではない。
我々は,一般的に受け入れられているベンチマークAI2THOR環境において,我々の手法が最先端の手法よりもはるかに優れていることを実証的に観察した。
このメソッドは、他のモデルフリーのRLナビゲーションフレームワークに簡単に統合または追加できます。
関連論文リスト
- Empowering Embodied Visual Tracking with Visual Foundation Models and Offline RL [19.757030674041037]
身体的視覚追跡は、エンボディードエージェントにとって不可欠で挑戦的なスキルである。
既存の手法では、非効率なトレーニングや一般化の欠如に悩まされている。
視覚基盤モデルとオフライン強化学習を組み合わせた新しいフレームワークを提案する。
論文 参考訳(メタデータ) (2024-04-15T15:12:53Z) - Zero-Shot Object Goal Visual Navigation With Class-Independent Relationship Network [3.0820097046465285]
ゼロショット(Zero-shot)とは、エージェントが探すべきターゲットがトレーニングフェーズ中にトレーニングされないことを意味する。
本研究では,学習中の目標特徴とナビゲーション能力の結合の問題に対処するために,クラス独立関係ネットワーク(CIRN)を提案する。
本手法は、ゼロショット目標視覚ナビゲーションタスクにおける最先端のアプローチよりも優れている。
論文 参考訳(メタデータ) (2023-10-15T16:42:14Z) - Bisimulation Makes Analogies in Goal-Conditioned Reinforcement Learning [71.52722621691365]
リッチな観測から汎用的な目標条件エージェントを構築することは、実世界の問題を解決するための強化学習(RL)の鍵となる。
目的条件ビシミュレーションと呼ばれる新しい状態抽象化法を提案する。
この抽象概念の計量形式を用いてこの表現を学習し、シミュレーション操作タスクにおける新しい目標に一般化する能力を示す。
論文 参考訳(メタデータ) (2022-04-27T17:00:11Z) - Zero Experience Required: Plug & Play Modular Transfer Learning for
Semantic Visual Navigation [97.17517060585875]
新たなモジュール移動学習モデルを用いて視覚ナビゲーションに統一的な手法を提案する。
我々のモデルは、1つのソースタスクから経験を効果的に活用し、複数のターゲットタスクに適用することができる。
我々のアプローチはより速く学習し、より良く一般化し、大きなマージンでSoTAモデルを上回っます。
論文 参考訳(メタデータ) (2022-02-05T00:07:21Z) - Goal-Conditioned Reinforcement Learning with Imagined Subgoals [89.67840168694259]
我々は、複雑なタスクの学習を容易にするために、想像上のサブゴールをポリシー学習に組み込むことを提案する。
想像上のサブゴールは、政策と批判を同時に訓練する独立したハイレベルな政策によって予測される。
複雑なロボットナビゲーションと操作タスクに対する我々のアプローチを評価し、既存の手法よりも大きなマージンで優れていることを示す。
論文 参考訳(メタデータ) (2021-07-01T15:30:59Z) - ViNG: Learning Open-World Navigation with Visual Goals [82.84193221280216]
視覚的目標達成のための学習に基づくナビゲーションシステムを提案する。
提案手法は,我々がvingと呼ぶシステムが,目標条件強化学習のための提案手法を上回っていることを示す。
我々は、ラストマイル配送や倉庫検査など、現実の多くのアプリケーションでViNGを実演する。
論文 参考訳(メタデータ) (2020-12-17T18:22:32Z) - Improving Target-driven Visual Navigation with Attention on 3D Spatial
Relationships [52.72020203771489]
3次元屋内シーンにおける深部強化学習(DRL)を用いた目標駆動型視覚ナビゲーションについて検討した。
提案手法は視覚特徴と3次元空間表現を組み合わせてナビゲーションポリシーを学習する。
AI2-THORで実施した我々の実験は、SRとSPLの指標において、モデルがベースラインを上回っていることを示している。
論文 参考訳(メタデータ) (2020-04-29T08:46:38Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。