論文の概要: Affordances-Oriented Planning using Foundation Models for Continuous Vision-Language Navigation
- arxiv url: http://arxiv.org/abs/2407.05890v1
- Date: Mon, 8 Jul 2024 12:52:46 GMT
- ステータス: 処理完了
- システム内更新日: 2024-07-09 15:50:25.630382
- Title: Affordances-Oriented Planning using Foundation Models for Continuous Vision-Language Navigation
- Title(参考訳): 連続視覚言語ナビゲーションのための基礎モデルを用いた順応型計画法
- Authors: Jiaqi Chen, Bingqian Lin, Xinmin Liu, Xiaodan Liang, Kwan-Yee K. Wong,
- Abstract要約: LLMベースのエージェントは視覚言語ナビゲーション(VLN)タスクにおいて印象的なゼロショット性能を示した。
本稿では,連続VLNタスクのための新しいアベイランス指向計画フレームワークであるAO-Plannerを提案する。
本手法は,LLMと3次元世界との効果的な接続を確立し,世界座標を直接予測することの難しさを回避する。
- 参考スコア(独自算出の注目度): 62.76017573929462
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: LLM-based agents have demonstrated impressive zero-shot performance in the vision-language navigation (VLN) task. However, these zero-shot methods focus only on solving high-level task planning by selecting nodes in predefined navigation graphs for movements, overlooking low-level control in realistic navigation scenarios. To bridge this gap, we propose AO-Planner, a novel affordances-oriented planning framework for continuous VLN task. Our AO-Planner integrates various foundation models to achieve affordances-oriented motion planning and action decision-making, both performed in a zero-shot manner. Specifically, we employ a visual affordances prompting (VAP) approach, where visible ground is segmented utilizing SAM to provide navigational affordances, based on which the LLM selects potential next waypoints and generates low-level path planning towards selected waypoints. We further introduce a high-level agent, PathAgent, to identify the most probable pixel-based path and convert it into 3D coordinates to fulfill low-level motion. Experimental results on the challenging R2R-CE benchmark demonstrate that AO-Planner achieves state-of-the-art zero-shot performance (5.5% improvement in SPL). Our method establishes an effective connection between LLM and 3D world to circumvent the difficulty of directly predicting world coordinates, presenting novel prospects for employing foundation models in low-level motion control.
- Abstract(参考訳): LLMベースのエージェントは視覚言語ナビゲーション(VLN)タスクにおいて印象的なゼロショット性能を示した。
しかし、これらのゼロショット手法は、現実的なナビゲーションシナリオにおける低レベル制御を見越して、移動のための事前に定義されたナビゲーショングラフのノードを選択することによって、高レベルタスク計画の解決にのみ焦点をあてている。
このギャップを埋めるために、我々は連続VLNタスクのための新しい余裕指向の計画フレームワークであるAO-Plannerを提案する。
我々のAO-Plannerは、様々な基礎モデルを統合して、アベイランス指向のモーションプランニングとアクション意思決定を実現し、どちらもゼロショット方式で実行します。
具体的には、視覚的アプライアンスプロンプト(VAP)アプローチを用いて、SAMを用いて視界をセグメンテーションし、航法的アプライアンスを提供し、LLMが潜在的次の経路ポイントを選択し、選択した経路ポイントに向けた低レベルパスプランニングを生成する。
さらに,高レベルエージェントであるPathAgentを導入して,最も期待できるピクセルベースのパスを特定し,低レベル動作を実現するために3D座標に変換する。
挑戦的なR2R-CEベンチマークの実験結果は、AO-Plannerが最先端のゼロショット性能(SPLは5.5%改善)を達成したことを示している。
提案手法は,LLMと3次元世界との効果的な接続を確立し,世界座標を直接予測することの難しさを回避し,低レベルモーションコントロールに基礎モデルを採用する新たな可能性を示す。
関連論文リスト
- SG-Nav: Online 3D Scene Graph Prompting for LLM-based Zero-shot Object Navigation [83.4599149936183]
既存のゼロショットオブジェクトナビゲーション手法は、空間的に閉じたオブジェクトのテキストでLCMをプロンプトする。
本稿では,3次元シーングラフを用いて観察されたシーンを表現することを提案する。
我々は,MP3D,HM3D,RoboTHOR環境において,SG-Navが従来のゼロショット法を10%以上のSRで上回る大規模な実験を行った。
論文 参考訳(メタデータ) (2024-10-10T17:57:19Z) - PRET: Planning with Directed Fidelity Trajectory for Vision and Language Navigation [30.710806048991923]
視覚と言語ナビゲーションは、エージェントが自然言語の指示に従ってナビゲートする必要があるタスクである。
近年の手法では、各ステップで構築されたトポロジーマップのサブゴールを予測し、長期的な行動計画を可能にする。
本稿では,指示と指向性軌道のアライメントを考慮し,ナビゲーション計画を容易にする方法を提案する。
論文 参考訳(メタデータ) (2024-07-16T08:22:18Z) - Embodied AI in Mobile Robots: Coverage Path Planning with Large Language Models [6.860460230412773]
移動体エージェントのためのLLM方式の経路計画フレームワークを提案する。
提案する多層アーキテクチャは,経路計画段階におけるLPMを用いて,移動エージェントの低レベルアクチュエータと統合する。
本実験により,LLMの2次元平面推論能力と完全カバレッジパス計画タスクを改善することができることが示された。
論文 参考訳(メタデータ) (2024-07-02T12:38:46Z) - NavCoT: Boosting LLM-Based Vision-and-Language Navigation via Learning
Disentangled Reasoning [101.56342075720588]
Embodied AIの重要な研究課題であるVision-and-Language Navigation (VLN)は、自然言語の指示に従って複雑な3D環境をナビゲートするために、エンボディエージェントを必要とする。
近年の研究では、ナビゲーションの推論精度と解釈可能性を改善することにより、VLNにおける大きな言語モデル(LLM)の有望な能力を強調している。
本稿では,自己誘導型ナビゲーション決定を実現するために,パラメータ効率の高いドメイン内トレーニングを実現する,Navigational Chain-of-Thought (NavCoT) という新しい戦略を提案する。
論文 参考訳(メタデータ) (2024-03-12T07:27:02Z) - VoroNav: Voronoi-based Zero-shot Object Navigation with Large Language
Model [28.79971953667143]
VoroNavは、リアルタイムで構築されたセマンティックマップから探索経路と計画ノードを抽出する意味探索フレームワークである。
トポロジカルおよびセマンティック情報を活用することで、VoroNavは大きな言語モデルで容易に解釈できるパスとイメージのテキストベースの記述を設計する。
論文 参考訳(メタデータ) (2024-01-05T08:05:07Z) - OccNeRF: Advancing 3D Occupancy Prediction in LiDAR-Free Environments [77.0399450848749]
本稿では,OccNeRF法を用いて,3次元監視なしで占有ネットワークを訓練する手法を提案する。
我々は、再構成された占有領域をパラメータ化し、サンプリング戦略を再編成し、カメラの無限知覚範囲に合わせる。
意味的占有予測のために,事前学習した開語彙2Dセグメンテーションモデルの出力をフィルタリングし,プロンプトを洗練するためのいくつかの戦略を設計する。
論文 参考訳(メタデータ) (2023-12-14T18:58:52Z) - Can an Embodied Agent Find Your "Cat-shaped Mug"? LLM-Guided Exploration
for Zero-Shot Object Navigation [58.3480730643517]
言語駆動型ゼロショットオブジェクトゴールナビゲーション(L-ZSON)のための新しいアルゴリズムLGXを提案する。
このアプローチでは、このタスクにLarge Language Models(LLM)を使用します。
現状のゼロショットオブジェクトナビゲーションをRoboTHOR上で実現し,現在のベースラインよりも27%以上の成功率(SR)向上を実現した。
論文 参考訳(メタデータ) (2023-03-06T20:19:19Z) - 1st Place Solutions for RxR-Habitat Vision-and-Language Navigation
Competition (CVPR 2022) [28.5740809300599]
連続環境における視覚・言語ナビゲーション(VLN-CE)問題に対するモジュール型計画・制御手法を提案する。
提案モデルは,候補経路予測器(CWP),履歴拡張プランナー,試行制御器の3つのモジュールから構成される。
我々のモデルは2022年のRxR-Habitatコンペティションで優勝し、NDTWおよびSRメトリクスの既存手法に比べて48%と90%の相対的な改善があった。
論文 参考訳(メタデータ) (2022-06-23T10:36:53Z) - Bridging the Gap Between Learning in Discrete and Continuous
Environments for Vision-and-Language Navigation [41.334731014665316]
ヴィジュアル・アンド・ランゲージ・ナビゲーション(VLN)における既存の作業のほとんどは、離散的または連続的な環境に焦点を当てている。
ナビゲーション中に候補となるウェイポイントの集合を生成するための予測器を提案する。
予測された経路点を持つ連続環境を航行するエージェントは,低レベル動作を使用するエージェントよりも有意に優れた性能を示す。
論文 参考訳(メタデータ) (2022-03-05T14:56:14Z) - SOON: Scenario Oriented Object Navigation with Graph-based Exploration [102.74649829684617]
人間のように3Dエンボディ環境のどこからでも言語ガイドされたターゲットに向かって移動する能力は、インテリジェントロボットの「聖杯」目標の1つです。
ほとんどのビジュアルナビゲーションベンチマークは、ステップバイステップの詳細な命令セットに導かれ、固定された出発点から目標に向かって移動することに焦点を当てている。
このアプローチは、人間だけが物体とその周囲がどのように見えるかを説明する現実世界の問題から逸脱し、ロボットにどこからでも航行を依頼する。
論文 参考訳(メタデータ) (2021-03-31T15:01:04Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。