論文の概要: Pushing it out of the Way: Interactive Visual Navigation
- arxiv url: http://arxiv.org/abs/2104.14040v1
- Date: Wed, 28 Apr 2021 22:46:41 GMT
- ステータス: 処理完了
- システム内更新日: 2021-04-30 13:08:05.902232
- Title: Pushing it out of the Way: Interactive Visual Navigation
- Title(参考訳): 邪魔にならないようにする:インタラクティブなビジュアルナビゲーション
- Authors: Kuo-Hao Zeng, Luca Weihs, Ali Farhadi, Roozbeh Mottaghi
- Abstract要約: エージェントが目標に合わせてより効率的にナビゲートするために環境を変更することを学ぶインタラクティブナビゲーションの問題を研究します。
エージェントの行動によって引き起こされる環境の変化を明示的に予測するために,neural interaction engine(nie)を導入する。
計画中の変更をモデル化することで、エージェントがナビゲーション能力を大幅に改善できることが分かりました。
- 参考スコア(独自算出の注目度): 62.296686176988125
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: We have observed significant progress in visual navigation for embodied
agents. A common assumption in studying visual navigation is that the
environments are static; this is a limiting assumption. Intelligent navigation
may involve interacting with the environment beyond just moving
forward/backward and turning left/right. Sometimes, the best way to navigate is
to push something out of the way. In this paper, we study the problem of
interactive navigation where agents learn to change the environment to navigate
more efficiently to their goals. To this end, we introduce the Neural
Interaction Engine (NIE) to explicitly predict the change in the environment
caused by the agent's actions. By modeling the changes while planning, we find
that agents exhibit significant improvements in their navigational
capabilities. More specifically, we consider two downstream tasks in the
physics-enabled, visually rich, AI2-THOR environment: (1) reaching a target
while the path to the target is blocked (2) moving an object to a target
location by pushing it. For both tasks, agents equipped with an NIE
significantly outperform agents without the understanding of the effect of the
actions indicating the benefits of our approach.
- Abstract(参考訳): 我々は,具体化エージェントの視覚的ナビゲーションの著しい進歩を観察した。
視覚ナビゲーションの研究における一般的な仮定は、環境が静的であることである。
インテリジェントなナビゲーションは、前進/後退と左右旋回以外の環境との相互作用を伴う可能性がある。
時には、ナビゲートする最良の方法は、何かを道から押し出すことです。
本稿では,エージェントがより効率的に移動するための環境変更を学習するインタラクティブナビゲーションの課題について検討する。
この目的のために,ニューラル・インタラクション・エンジン(nie)を導入し,エージェントの行動による環境の変化を明示的に予測する。
計画中の変更をモデル化することにより,エージェントのナビゲーション能力が大幅に向上することがわかった。
具体的には,(1)目標への経路が塞がれながら目標に到達し,(2)目標地点に物体を移動させる,という2つの課題を物理対応型で視覚的にリッチなAI2-THOR環境において検討する。
いずれのタスクにおいても,NIEを装着したエージェントは,アプローチのメリットを示すアクションの効果を理解せずに,エージェントよりも優れていた。
関連論文リスト
- ETPNav: Evolving Topological Planning for Vision-Language Navigation in
Continuous Environments [56.194988818341976]
視覚言語ナビゲーションは、エージェントが環境中をナビゲートするための指示に従う必要があるタスクである。
本研究では,1)環境を抽象化し,長距離航法計画を生成する能力,2)連続環境における障害物回避制御能力の2つの重要なスキルに焦点を当てたETPNavを提案する。
ETPNavは、R2R-CEとRxR-CEデータセットの先行技術よりも10%以上、20%改善されている。
論文 参考訳(メタデータ) (2023-04-06T13:07:17Z) - Emergence of Maps in the Memories of Blind Navigation Agents [68.41901534985575]
動物ナビゲーション研究は、生物が環境の空間的表現(地図)を構築、維持する、という仮説を定めている。
私たちはマシン、具体的には人工知能(AI)ナビゲーションエージェントが、暗黙の(あるいは「メンタル」な)マップを構築しているかどうか尋ねる。
動物ナビゲーションとは異なり、エージェントの知覚システムを司法的に設計し、学習パラダイムを制御して代替ナビゲーション機構を無効化することができる。
論文 参考訳(メタデータ) (2023-01-30T20:09:39Z) - What do navigation agents learn about their environment? [39.74076893981299]
本稿では、ポイントゴールナビゲーションエージェントとオブジェクトゴールナビゲーションエージェントのための、エンボディード・アグエント(iSEE)の解釈可能性システムについて紹介する。
これらのエージェントが生成する動的表現をiSEEを用いて探索し,エージェントや環境に関する情報を提示する。
論文 参考訳(メタデータ) (2022-06-17T01:33:43Z) - Diagnosing Vision-and-Language Navigation: What Really Matters [61.72935815656582]
視覚言語ナビゲーション(VLN)は、エージェントが自然言語の指示に従って視覚環境をナビゲートするマルチモーダルタスクである。
近年の研究では、室内および屋外のVLNタスクのパフォーマンス改善が鈍化している。
本研究では,ナビゲーション中のエージェントの焦点を明らかにするための一連の診断実験を行う。
論文 参考訳(メタデータ) (2021-03-30T17:59:07Z) - Active Visual Information Gathering for Vision-Language Navigation [115.40768457718325]
視覚言語ナビゲーション(VLN)は、エージェントがフォトリアリスティックな環境の中でナビゲーションの指示を行うためのタスクである。
VLNの重要な課題の1つは、曖昧な指示による不確実性を緩和し、環境の観察を不十分にすることで、堅牢なナビゲーションを行う方法である。
この研究は、人間のナビゲーション行動からインスピレーションを得て、よりインテリジェントなVLNポリシーのためのアクティブな情報収集能力を持つエージェントを提供する。
論文 参考訳(メタデータ) (2020-07-15T23:54:20Z) - Improving Target-driven Visual Navigation with Attention on 3D Spatial
Relationships [52.72020203771489]
3次元屋内シーンにおける深部強化学習(DRL)を用いた目標駆動型視覚ナビゲーションについて検討した。
提案手法は視覚特徴と3次元空間表現を組み合わせてナビゲーションポリシーを学習する。
AI2-THORで実施した我々の実験は、SRとSPLの指標において、モデルがベースラインを上回っていることを示している。
論文 参考訳(メタデータ) (2020-04-29T08:46:38Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。