Fugu-MT 論文翻訳(概要): ETPNav: Evolving Topological Planning for Vision-Language Navigation in Continuous Environments

論文の概要: ETPNav: Evolving Topological Planning for Vision-Language Navigation in Continuous Environments

arxiv url: http://arxiv.org/abs/2304.03047v3
Date: Mon, 22 Jan 2024 04:57:32 GMT
ステータス: 翻訳完了
システム内更新日: 2024-01-23 22:02:58.792364
Title: ETPNav: Evolving Topological Planning for Vision-Language Navigation in Continuous Environments
Title（参考訳）: ETPNav: 連続環境における視覚言語ナビゲーションのためのトポロジ計画
Authors: Dong An, Hanqing Wang, Wenguan Wang, Zun Wang, Yan Huang, Keji He, Liang Wang
Abstract要約: 視覚言語ナビゲーションは、エージェントが環境中をナビゲートするための指示に従う必要があるタスクである。本研究では,1)環境を抽象化し,長距離航法計画を生成する能力,2)連続環境における障害物回避制御能力の2つの重要なスキルに焦点を当てたETPNavを提案する。 ETPNavは、R2R-CEとRxR-CEデータセットの先行技術よりも10%以上、20%改善されている。
参考スコア（独自算出の注目度）: 56.194988818341976
License: http://creativecommons.org/licenses/by/4.0/
Abstract: Vision-language navigation is a task that requires an agent to follow instructions to navigate in environments. It becomes increasingly crucial in the field of embodied AI, with potential applications in autonomous navigation, search and rescue, and human-robot interaction. In this paper, we propose to address a more practical yet challenging counterpart setting - vision-language navigation in continuous environments (VLN-CE). To develop a robust VLN-CE agent, we propose a new navigation framework, ETPNav, which focuses on two critical skills: 1) the capability to abstract environments and generate long-range navigation plans, and 2) the ability of obstacle-avoiding control in continuous environments. ETPNav performs online topological mapping of environments by self-organizing predicted waypoints along a traversed path, without prior environmental experience. It privileges the agent to break down the navigation procedure into high-level planning and low-level control. Concurrently, ETPNav utilizes a transformer-based cross-modal planner to generate navigation plans based on topological maps and instructions. The plan is then performed through an obstacle-avoiding controller that leverages a trial-and-error heuristic to prevent navigation from getting stuck in obstacles. Experimental results demonstrate the effectiveness of the proposed method. ETPNav yields more than 10% and 20% improvements over prior state-of-the-art on R2R-CE and RxR-CE datasets, respectively. Our code is available at https://github.com/MarSaKi/ETPNav.
Abstract（参考訳）: 視覚言語ナビゲーションは、エージェントが環境中をナビゲートするための指示に従う必要があるタスクである。自律的なナビゲーション、探索と救助、人間とロボットの相互作用など、AIの具体化の分野ではますます重要になっている。本稿では,より実用的で挑戦的な,連続環境における視覚言語ナビゲーション(vln-ce)を提案する。堅牢なVLN-CEエージェントを開発するために,2つの重要なスキルに焦点を当てた新しいナビゲーションフレームワーク ETPNav を提案する。 1)環境を抽象化し、長距離航法計画を作成する能力 2) 連続環境における障害物回避制御の能力 ETPNavは、事前の環境経験のない経路に沿って予測された経路を自己組織化することで、環境のオンライントポロジカルマッピングを行う。エージェントは、ナビゲーション手順を高レベルな計画と低レベルな制御に分解する権限がある。同時にetpnavはトランスフォーマティブベースのクロスモーダルプランナーを使用して、トポロジカルマップと命令に基づいたナビゲーションプランを生成する。計画は障害物回避コントローラで実行され、試行錯誤のヒューリスティックを利用してナビゲーションが障害物にぶつからないようにする。実験の結果,提案手法の有効性が示された。 ETPNavは、それぞれR2R-CEデータセットとRxR-CEデータセットの先行技術よりも10%以上、20%改善されている。私たちのコードはhttps://github.com/marsaki/etpnavで利用可能です。

関連論文リスト

General-Purpose Robotic Navigation via LVLM-Orchestrated Perception, Reasoning, and Acting [9.157222032441531]
Agentic Robotic Navigation Architecture (ARNA)は、LVLMベースのエージェントに知覚、推論、ナビゲーションツールのライブラリを装備する汎用ナビゲーションフレームワークである。実行時に、エージェントは自律的にタスク固有のナビゲーションを定義し、実行し、ロボットモジュールを反復的にクエリし、マルチモーダル入力を推論し、適切なナビゲーションアクションを選択する。 ARNAは最先端のパフォーマンスを達成し、手作りの計画や固定された入力表現、既存の地図に頼ることなく、効果的な探索、ナビゲーション、具体化された質問応答を実証する。
論文参考訳（メタデータ） (2025-06-20T20:06:14Z)
Hierarchical Reinforcement Learning for Safe Mapless Navigation with Congestion Estimation [7.339743259039457]
本稿では,階層的強化学習(HRL)を利用した安全な地図レスナビゲーションフレームワークを提案する。その結果,HRLに基づくナビゲーションフレームワークは静的シナリオと動的シナリオの両方で優れていることがわかった。本研究では,物理的な検証実験を行うために,TurtleBot3ロボット上にHRLベースのナビゲーションフレームワークを実装した。
論文参考訳（メタデータ） (2025-03-15T08:03:50Z)
Navigation World Models [68.58459393846461]
本稿では,過去の観測とナビゲーション行動に基づいて,将来の視覚観測を予測できる制御可能な映像生成モデルを提案する。慣れ親しんだ環境では、NWMはナビゲーションの軌道をシミュレートし、目的を達成するかどうかを評価することで計画することができる。実験は、スクラッチからの軌道計画や、外部ポリシーからサンプリングされた軌道のランク付けにおいて、その効果を実証する。
論文参考訳（メタデータ） (2024-12-04T18:59:45Z)
Hierarchical end-to-end autonomous navigation through few-shot waypoint detection [0.0]
人間のナビゲーションはランドマークと行動の関連によって促進される。現在の自律ナビゲーション方式は、正確な位置決め装置とアルゴリズム、および環境から収集されたセンサーデータの広範なストリームに依存している。本研究では,移動ロボットがこれまで知られていなかった環境をナビゲートできる階層型メタ学習手法を提案する。
論文参考訳（メタデータ） (2024-09-23T00:03:39Z)
IN-Sight: Interactive Navigation through Sight [20.184155117341497]
IN-Sightは自己監督型パスプランニングの新しいアプローチである。可逆性のスコアを計算し、セマンティックマップに組み込む。障害物を正確に回避するために、IN-Sightはローカルプランナーを使用している。
論文参考訳（メタデータ） (2024-08-01T07:27:54Z)
TOP-Nav: Legged Navigation Integrating Terrain, Obstacle and Proprioception Estimation [5.484041860401147]
TOP-Navは、包括的パスプランナーとTerran認識、Obstacle回避、クローズループプロプライオセプションを統合した、新しい脚付きナビゲーションフレームワークである。そこで,TOP-Navは,従来の知識の分布を超えた地形や乱れをロボットが扱えるように,オープンワールドナビゲーションを実現する。
論文参考訳（メタデータ） (2024-04-23T17:42:45Z)
NavCoT: Boosting LLM-Based Vision-and-Language Navigation via Learning Disentangled Reasoning [101.56342075720588]
Embodied AIの重要な研究課題であるVision-and-Language Navigation (VLN)は、自然言語の指示に従って複雑な3D環境をナビゲートするために、エンボディエージェントを必要とする。近年の研究では、ナビゲーションの推論精度と解釈可能性を改善することにより、VLNにおける大きな言語モデル(LLM)の有望な能力を強調している。本稿では,自己誘導型ナビゲーション決定を実現するために,パラメータ効率の高いドメイン内トレーニングを実現する,Navigational Chain-of-Thought (NavCoT) という新しい戦略を提案する。
論文参考訳（メタデータ） (2024-03-12T07:27:02Z)
CorNav: Autonomous Agent with Self-Corrected Planning for Zero-Shot Vision-and-Language Navigation [73.78984332354636]
CorNavは視覚・言語ナビゲーションのための新しいゼロショットフレームワークである。将来の計画の見直しや行動調整のための環境フィードバックが組み込まれている。ゼロショットマルチタスク設定ですべてのベースラインを一貫して上回る。
論文参考訳（メタデータ） (2023-06-17T11:44:04Z)
Pushing it out of the Way: Interactive Visual Navigation [62.296686176988125]
エージェントが目標に合わせてより効率的にナビゲートするために環境を変更することを学ぶインタラクティブナビゲーションの問題を研究します。エージェントの行動によって引き起こされる環境の変化を明示的に予測するために,neural interaction engine(nie)を導入する。計画中の変更をモデル化することで、エージェントがナビゲーション能力を大幅に改善できることが分かりました。
論文参考訳（メタデータ） (2021-04-28T22:46:41Z)
Topological Planning with Transformers for Vision-and-Language Navigation [31.64229792521241]
トポロジカルマップを用いた視覚・言語ナビゲーション(VLN)のモジュール化手法を提案する。自然言語指導とトポロジカルマップが与えられた場合,マップ内のナビゲーション計画を予測するために注意機構を利用する。実験では,従来のエンドツーエンドアプローチを上回り,解釈可能なナビゲーションプランを生成し,バックトラックなどのインテリジェントな行動を示す。
論文参考訳（メタデータ） (2020-12-09T20:02:03Z)
Active Visual Information Gathering for Vision-Language Navigation [115.40768457718325]
視覚言語ナビゲーション(VLN)は、エージェントがフォトリアリスティックな環境の中でナビゲーションの指示を行うためのタスクである。 VLNの重要な課題の1つは、曖昧な指示による不確実性を緩和し、環境の観察を不十分にすることで、堅牢なナビゲーションを行う方法である。この研究は、人間のナビゲーション行動からインスピレーションを得て、よりインテリジェントなVLNポリシーのためのアクティブな情報収集能力を持つエージェントを提供する。
論文参考訳（メタデータ） (2020-07-15T23:54:20Z)
Environment-agnostic Multitask Learning for Natural Language Grounded Navigation [88.69873520186017]
本稿では,視覚言語ナビゲーション(VLN)タスクと対話履歴からのナビゲーション(NDH)タスクをシームレスにトレーニングできるマルチタスクナビゲーションモデルを提案する。実験により、環境に依存しないマルチタスク学習は、目に見える環境と目に見えない環境の間のパフォーマンスギャップを著しく減少させることが示された。
論文参考訳（メタデータ） (2020-03-01T09:06:31Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。