論文の概要: ETPNav: Evolving Topological Planning for Vision-Language Navigation in
Continuous Environments
- arxiv url: http://arxiv.org/abs/2304.03047v3
- Date: Mon, 22 Jan 2024 04:57:32 GMT
- ステータス: 処理完了
- システム内更新日: 2024-01-23 22:02:58.792364
- Title: ETPNav: Evolving Topological Planning for Vision-Language Navigation in
Continuous Environments
- Title(参考訳): ETPNav: 連続環境における視覚言語ナビゲーションのためのトポロジ計画
- Authors: Dong An, Hanqing Wang, Wenguan Wang, Zun Wang, Yan Huang, Keji He,
Liang Wang
- Abstract要約: 視覚言語ナビゲーションは、エージェントが環境中をナビゲートするための指示に従う必要があるタスクである。
本研究では,1)環境を抽象化し,長距離航法計画を生成する能力,2)連続環境における障害物回避制御能力の2つの重要なスキルに焦点を当てたETPNavを提案する。
ETPNavは、R2R-CEとRxR-CEデータセットの先行技術よりも10%以上、20%改善されている。
- 参考スコア(独自算出の注目度): 56.194988818341976
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Vision-language navigation is a task that requires an agent to follow
instructions to navigate in environments. It becomes increasingly crucial in
the field of embodied AI, with potential applications in autonomous navigation,
search and rescue, and human-robot interaction. In this paper, we propose to
address a more practical yet challenging counterpart setting - vision-language
navigation in continuous environments (VLN-CE). To develop a robust VLN-CE
agent, we propose a new navigation framework, ETPNav, which focuses on two
critical skills: 1) the capability to abstract environments and generate
long-range navigation plans, and 2) the ability of obstacle-avoiding control in
continuous environments. ETPNav performs online topological mapping of
environments by self-organizing predicted waypoints along a traversed path,
without prior environmental experience. It privileges the agent to break down
the navigation procedure into high-level planning and low-level control.
Concurrently, ETPNav utilizes a transformer-based cross-modal planner to
generate navigation plans based on topological maps and instructions. The plan
is then performed through an obstacle-avoiding controller that leverages a
trial-and-error heuristic to prevent navigation from getting stuck in
obstacles. Experimental results demonstrate the effectiveness of the proposed
method. ETPNav yields more than 10% and 20% improvements over prior
state-of-the-art on R2R-CE and RxR-CE datasets, respectively. Our code is
available at https://github.com/MarSaKi/ETPNav.
- Abstract(参考訳): 視覚言語ナビゲーションは、エージェントが環境中をナビゲートするための指示に従う必要があるタスクである。
自律的なナビゲーション、探索と救助、人間とロボットの相互作用など、AIの具体化の分野ではますます重要になっている。
本稿では,より実用的で挑戦的な,連続環境における視覚言語ナビゲーション(vln-ce)を提案する。
堅牢なVLN-CEエージェントを開発するために,2つの重要なスキルに焦点を当てた新しいナビゲーションフレームワーク ETPNav を提案する。
1)環境を抽象化し、長距離航法計画を作成する能力
2) 連続環境における障害物回避制御の能力
ETPNavは、事前の環境経験のない経路に沿って予測された経路を自己組織化することで、環境のオンライントポロジカルマッピングを行う。
エージェントは、ナビゲーション手順を高レベルな計画と低レベルな制御に分解する権限がある。
同時にetpnavはトランスフォーマティブベースのクロスモーダルプランナーを使用して、トポロジカルマップと命令に基づいたナビゲーションプランを生成する。
計画は障害物回避コントローラで実行され、試行錯誤のヒューリスティックを利用してナビゲーションが障害物にぶつからないようにする。
実験の結果,提案手法の有効性が示された。
ETPNavは、それぞれR2R-CEデータセットとRxR-CEデータセットの先行技術よりも10%以上、20%改善されている。
私たちのコードはhttps://github.com/marsaki/etpnavで利用可能です。
関連論文リスト
- Hierarchical end-to-end autonomous navigation through few-shot waypoint detection [0.0]
人間のナビゲーションはランドマークと行動の関連によって促進される。
現在の自律ナビゲーション方式は、正確な位置決め装置とアルゴリズム、および環境から収集されたセンサーデータの広範なストリームに依存している。
本研究では,移動ロボットがこれまで知られていなかった環境をナビゲートできる階層型メタ学習手法を提案する。
論文 参考訳(メタデータ) (2024-09-23T00:03:39Z) - IN-Sight: Interactive Navigation through Sight [20.184155117341497]
IN-Sightは自己監督型パスプランニングの新しいアプローチである。
可逆性のスコアを計算し、セマンティックマップに組み込む。
障害物を正確に回避するために、IN-Sightはローカルプランナーを使用している。
論文 参考訳(メタデータ) (2024-08-01T07:27:54Z) - TOP-Nav: Legged Navigation Integrating Terrain, Obstacle and Proprioception Estimation [5.484041860401147]
TOP-Navは、包括的パスプランナーとTerran認識、Obstacle回避、クローズループプロプライオセプションを統合した、新しい脚付きナビゲーションフレームワークである。
そこで,TOP-Navは,従来の知識の分布を超えた地形や乱れをロボットが扱えるように,オープンワールドナビゲーションを実現する。
論文 参考訳(メタデータ) (2024-04-23T17:42:45Z) - NavCoT: Boosting LLM-Based Vision-and-Language Navigation via Learning
Disentangled Reasoning [101.56342075720588]
Embodied AIの重要な研究課題であるVision-and-Language Navigation (VLN)は、自然言語の指示に従って複雑な3D環境をナビゲートするために、エンボディエージェントを必要とする。
近年の研究では、ナビゲーションの推論精度と解釈可能性を改善することにより、VLNにおける大きな言語モデル(LLM)の有望な能力を強調している。
本稿では,自己誘導型ナビゲーション決定を実現するために,パラメータ効率の高いドメイン内トレーニングを実現する,Navigational Chain-of-Thought (NavCoT) という新しい戦略を提案する。
論文 参考訳(メタデータ) (2024-03-12T07:27:02Z) - CorNav: Autonomous Agent with Self-Corrected Planning for Zero-Shot Vision-and-Language Navigation [73.78984332354636]
CorNavは視覚・言語ナビゲーションのための新しいゼロショットフレームワークである。
将来の計画の見直しや行動調整のための環境フィードバックが組み込まれている。
ゼロショットマルチタスク設定ですべてのベースラインを一貫して上回る。
論文 参考訳(メタデータ) (2023-06-17T11:44:04Z) - Pushing it out of the Way: Interactive Visual Navigation [62.296686176988125]
エージェントが目標に合わせてより効率的にナビゲートするために環境を変更することを学ぶインタラクティブナビゲーションの問題を研究します。
エージェントの行動によって引き起こされる環境の変化を明示的に予測するために,neural interaction engine(nie)を導入する。
計画中の変更をモデル化することで、エージェントがナビゲーション能力を大幅に改善できることが分かりました。
論文 参考訳(メタデータ) (2021-04-28T22:46:41Z) - Topological Planning with Transformers for Vision-and-Language
Navigation [31.64229792521241]
トポロジカルマップを用いた視覚・言語ナビゲーション(VLN)のモジュール化手法を提案する。
自然言語指導とトポロジカルマップが与えられた場合,マップ内のナビゲーション計画を予測するために注意機構を利用する。
実験では,従来のエンドツーエンドアプローチを上回り,解釈可能なナビゲーションプランを生成し,バックトラックなどのインテリジェントな行動を示す。
論文 参考訳(メタデータ) (2020-12-09T20:02:03Z) - Active Visual Information Gathering for Vision-Language Navigation [115.40768457718325]
視覚言語ナビゲーション(VLN)は、エージェントがフォトリアリスティックな環境の中でナビゲーションの指示を行うためのタスクである。
VLNの重要な課題の1つは、曖昧な指示による不確実性を緩和し、環境の観察を不十分にすることで、堅牢なナビゲーションを行う方法である。
この研究は、人間のナビゲーション行動からインスピレーションを得て、よりインテリジェントなVLNポリシーのためのアクティブな情報収集能力を持つエージェントを提供する。
論文 参考訳(メタデータ) (2020-07-15T23:54:20Z) - Environment-agnostic Multitask Learning for Natural Language Grounded
Navigation [88.69873520186017]
本稿では,視覚言語ナビゲーション(VLN)タスクと対話履歴からのナビゲーション(NDH)タスクをシームレスにトレーニングできるマルチタスクナビゲーションモデルを提案する。
実験により、環境に依存しないマルチタスク学習は、目に見える環境と目に見えない環境の間のパフォーマンスギャップを著しく減少させることが示された。
論文 参考訳(メタデータ) (2020-03-01T09:06:31Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。