論文の概要: ETPNav: Evolving Topological Planning for Vision-Language Navigation in
Continuous Environments
- arxiv url: http://arxiv.org/abs/2304.03047v3
- Date: Mon, 22 Jan 2024 04:57:32 GMT
- ステータス: 処理完了
- システム内更新日: 2024-01-23 22:02:58.792364
- Title: ETPNav: Evolving Topological Planning for Vision-Language Navigation in
Continuous Environments
- Title(参考訳): ETPNav: 連続環境における視覚言語ナビゲーションのためのトポロジ計画
- Authors: Dong An, Hanqing Wang, Wenguan Wang, Zun Wang, Yan Huang, Keji He,
Liang Wang
- Abstract要約: 視覚言語ナビゲーションは、エージェントが環境中をナビゲートするための指示に従う必要があるタスクである。
本研究では,1)環境を抽象化し,長距離航法計画を生成する能力,2)連続環境における障害物回避制御能力の2つの重要なスキルに焦点を当てたETPNavを提案する。
ETPNavは、R2R-CEとRxR-CEデータセットの先行技術よりも10%以上、20%改善されている。
- 参考スコア(独自算出の注目度): 56.194988818341976
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Vision-language navigation is a task that requires an agent to follow
instructions to navigate in environments. It becomes increasingly crucial in
the field of embodied AI, with potential applications in autonomous navigation,
search and rescue, and human-robot interaction. In this paper, we propose to
address a more practical yet challenging counterpart setting - vision-language
navigation in continuous environments (VLN-CE). To develop a robust VLN-CE
agent, we propose a new navigation framework, ETPNav, which focuses on two
critical skills: 1) the capability to abstract environments and generate
long-range navigation plans, and 2) the ability of obstacle-avoiding control in
continuous environments. ETPNav performs online topological mapping of
environments by self-organizing predicted waypoints along a traversed path,
without prior environmental experience. It privileges the agent to break down
the navigation procedure into high-level planning and low-level control.
Concurrently, ETPNav utilizes a transformer-based cross-modal planner to
generate navigation plans based on topological maps and instructions. The plan
is then performed through an obstacle-avoiding controller that leverages a
trial-and-error heuristic to prevent navigation from getting stuck in
obstacles. Experimental results demonstrate the effectiveness of the proposed
method. ETPNav yields more than 10% and 20% improvements over prior
state-of-the-art on R2R-CE and RxR-CE datasets, respectively. Our code is
available at https://github.com/MarSaKi/ETPNav.
- Abstract(参考訳): 視覚言語ナビゲーションは、エージェントが環境中をナビゲートするための指示に従う必要があるタスクである。
自律的なナビゲーション、探索と救助、人間とロボットの相互作用など、AIの具体化の分野ではますます重要になっている。
本稿では,より実用的で挑戦的な,連続環境における視覚言語ナビゲーション(vln-ce)を提案する。
堅牢なVLN-CEエージェントを開発するために,2つの重要なスキルに焦点を当てた新しいナビゲーションフレームワーク ETPNav を提案する。
1)環境を抽象化し、長距離航法計画を作成する能力
2) 連続環境における障害物回避制御の能力
ETPNavは、事前の環境経験のない経路に沿って予測された経路を自己組織化することで、環境のオンライントポロジカルマッピングを行う。
エージェントは、ナビゲーション手順を高レベルな計画と低レベルな制御に分解する権限がある。
同時にetpnavはトランスフォーマティブベースのクロスモーダルプランナーを使用して、トポロジカルマップと命令に基づいたナビゲーションプランを生成する。
計画は障害物回避コントローラで実行され、試行錯誤のヒューリスティックを利用してナビゲーションが障害物にぶつからないようにする。
実験の結果,提案手法の有効性が示された。
ETPNavは、それぞれR2R-CEデータセットとRxR-CEデータセットの先行技術よりも10%以上、20%改善されている。
私たちのコードはhttps://github.com/marsaki/etpnavで利用可能です。
関連論文リスト
- NavCoT: Boosting LLM-Based Vision-and-Language Navigation via Learning
Disentangled Reasoning [101.56342075720588]
Embodied AIの重要な研究課題であるVision-and-Language Navigation (VLN)は、自然言語の指示に従って複雑な3D環境をナビゲートするために、エンボディエージェントを必要とする。
近年の研究では、ナビゲーションの推論精度と解釈可能性を改善することにより、VLNにおける大きな言語モデル(LLM)の有望な能力を強調している。
本稿では,自己誘導型ナビゲーション決定を実現するために,パラメータ効率の高いドメイン内トレーニングを実現する,Navigational Chain-of-Thought (NavCoT) という新しい戦略を提案する。
論文 参考訳(メタデータ) (2024-03-12T07:27:02Z) - SayNav: Grounding Large Language Models for Dynamic Planning to
Navigation in New Environments [15.025010860725338]
我々は,Large Language Models (LLMs) からの人間の知識を活用し,複雑なナビゲーションタスクへの効率的な一般化を行う新しいアプローチであるSayNavを提案する。
SayNavは、探索された環境の3Dシーングラフを漸進的に構築する、新しい接地メカニズムを使用している。
我々は,多目的ナビゲーションタスクのSayNavを評価する。
論文 参考訳(メタデータ) (2023-09-08T02:24:37Z) - CorNav: Autonomous Agent with Self-Corrected Planning for Zero-Shot Vision-and-Language Navigation [73.78984332354636]
CorNavは視覚・言語ナビゲーションのための新しいゼロショットフレームワークである。
将来の計画の見直しや行動調整のための環境フィードバックが組み込まれている。
ゼロショットマルチタスク設定ですべてのベースラインを一貫して上回る。
論文 参考訳(メタデータ) (2023-06-17T11:44:04Z) - Pushing it out of the Way: Interactive Visual Navigation [62.296686176988125]
エージェントが目標に合わせてより効率的にナビゲートするために環境を変更することを学ぶインタラクティブナビゲーションの問題を研究します。
エージェントの行動によって引き起こされる環境の変化を明示的に予測するために,neural interaction engine(nie)を導入する。
計画中の変更をモデル化することで、エージェントがナビゲーション能力を大幅に改善できることが分かりました。
論文 参考訳(メタデータ) (2021-04-28T22:46:41Z) - Topological Planning with Transformers for Vision-and-Language
Navigation [31.64229792521241]
トポロジカルマップを用いた視覚・言語ナビゲーション(VLN)のモジュール化手法を提案する。
自然言語指導とトポロジカルマップが与えられた場合,マップ内のナビゲーション計画を予測するために注意機構を利用する。
実験では,従来のエンドツーエンドアプローチを上回り,解釈可能なナビゲーションプランを生成し,バックトラックなどのインテリジェントな行動を示す。
論文 参考訳(メタデータ) (2020-12-09T20:02:03Z) - Learning Synthetic to Real Transfer for Localization and Navigational
Tasks [7.019683407682642]
ナビゲーションは、コンピュータビジョン、ロボット工学、制御の概念を組み合わせて、複数の分野のクロスロードにある。
この研究は、実世界への移動をできる限り少ない努力で行うことができるナビゲーションパイプラインをシミュレーションで作成することを目的としていた。
ナビゲーションパイプラインを設計するには、環境、ローカライゼーション、ナビゲーション、計画の4つの大きな課題が発生する。
論文 参考訳(メタデータ) (2020-11-20T08:37:03Z) - Active Visual Information Gathering for Vision-Language Navigation [115.40768457718325]
視覚言語ナビゲーション(VLN)は、エージェントがフォトリアリスティックな環境の中でナビゲーションの指示を行うためのタスクである。
VLNの重要な課題の1つは、曖昧な指示による不確実性を緩和し、環境の観察を不十分にすることで、堅牢なナビゲーションを行う方法である。
この研究は、人間のナビゲーション行動からインスピレーションを得て、よりインテリジェントなVLNポリシーのためのアクティブな情報収集能力を持つエージェントを提供する。
論文 参考訳(メタデータ) (2020-07-15T23:54:20Z) - Environment-agnostic Multitask Learning for Natural Language Grounded
Navigation [88.69873520186017]
本稿では,視覚言語ナビゲーション(VLN)タスクと対話履歴からのナビゲーション(NDH)タスクをシームレスにトレーニングできるマルチタスクナビゲーションモデルを提案する。
実験により、環境に依存しないマルチタスク学習は、目に見える環境と目に見えない環境の間のパフォーマンスギャップを著しく減少させることが示された。
論文 参考訳(メタデータ) (2020-03-01T09:06:31Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。