論文の概要: One Agent to Guide Them All: Empowering MLLMs for Vision-and-Language Navigation via Explicit World Representation
- arxiv url: http://arxiv.org/abs/2602.15400v1
- Date: Tue, 17 Feb 2026 07:13:48 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-03-23 08:17:41.507358
- Title: One Agent to Guide Them All: Empowering MLLMs for Vision-and-Language Navigation via Explicit World Representation
- Title(参考訳): 視覚・言語ナビゲーションにおけるMLLMの活用 : 明示的世界表現による一エージェント
- Authors: Zerui Li, Hongpei Zheng, Fangguo Zhao, Aidan Chan, Jian Zhou, Sihao Lin, Shijie Li, Qi Wu,
- Abstract要約: ナビゲート可能なエージェントは、高いレベルの意味的指示と正確な空間知覚の両方を理解する必要がある。
本稿では,低レベルの空間状態推定と高レベルのセマンティックプランニングを分離する疎結合設計を提案する。
我々はシミュレートされた環境と実世界の環境の両方で包括的な実験を行う。
- 参考スコア(独自算出の注目度): 18.529673835965745
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: A navigable agent needs to understand both high-level semantic instructions and precise spatial perceptions. Building navigation agents centered on Multimodal Large Language Models (MLLMs) demonstrates a promising solution due to their powerful generalization ability. However, the current tightly coupled design dramatically limits system performance. In this work, we propose a decoupled design that separates low-level spatial state estimation from high-level semantic planning. Unlike previous methods that rely on predefined, oversimplified textual maps, we introduce an interactive metric world representation that maintains rich and consistent information, allowing MLLMs to interact with and reason on it for decision-making. Furthermore, counterfactual reasoning is introduced to further elicit MLLMs' capacity, while the metric world representation ensures the physical validity of the produced actions. We conduct comprehensive experiments in both simulated and real-world environments. Our method establishes a new zero-shot state-of-the-art, achieving 48.8\% Success Rate (SR) in R2R-CE and 42.2\% in RxR-CE benchmarks. Furthermore, to validate the versatility of our metric representation, we demonstrate zero-shot sim-to-real transfer across diverse embodiments, including a wheeled TurtleBot 4 and a custom-built aerial drone. These real-world deployments verify that our decoupled framework serves as a robust, domain-invariant interface for embodied Vision-and-Language navigation.
- Abstract(参考訳): ナビゲート可能なエージェントは、高いレベルの意味的指示と正確な空間知覚の両方を理解する必要がある。
MLLM(Multimodal Large Language Models)を中心としたナビゲーションエージェントの構築は,その強力な一般化能力から,有望なソリューションであることを示す。
しかし、現在の密結合設計はシステム性能を劇的に制限している。
本研究では,低レベル空間状態推定と高レベルセマンティックプランニングを分離した疎結合設計を提案する。
事前定義された、過度に単純化されたテキストマップに依存する従来の方法とは異なり、リッチで一貫した情報を維持するインタラクティブな計量世界表現を導入し、MLLMがそれと対話し、意思決定のための推論を可能にする。
さらに、MLLMのキャパシティをさらに引き出すために反事実推論を導入し、計量世界表現は生成されたアクションの物理的妥当性を保証する。
我々はシミュレートされた環境と実世界の環境の両方で包括的な実験を行う。
R2R-CEでは48.8 %成功率(SR)、RxR-CEベンチマークでは42.2 %を達成した。
さらに、我々のメートル法表現の汎用性を検証するために、車輪付きタートルボット4やカスタム飛行ドローンなど、多様な実施形態をまたいだゼロショットのシミュレートを実証した。
これらの現実世界のデプロイメントは、分離されたフレームワークが、視覚とランゲージのナビゲーションを具体化する堅牢でドメイン不変のインターフェースとして機能していることを確認します。
関連論文リスト
- AgentVLN: Towards Agentic Vision-and-Language Navigation [78.739525400071]
VLN (Vision-and-Language Navigation) は、複雑な自然言語命令を、見えない環境での長距離ナビゲーションに接地するために、エンボディエージェントを必要とする。
本稿では,エッジコンピューティングプラットフォーム上に展開可能な,新規かつ効率的なナビゲーションフレームワークであるAgentVLNを提案する。
論文 参考訳(メタデータ) (2026-03-18T12:43:47Z) - Fast-SmartWay: Panoramic-Free End-to-End Zero-Shot Vision-and-Language Navigation [16.632191523127865]
Fast-SmartWayは、パノラマビューやウェイポイント予測不要なエンドツーエンドのゼロショットVLN-CEフレームワークである。
提案手法では,3つの正面RGB-D画像と自然言語命令を組み合わせるだけで,MLLMが直接行動を予測することができる。
論文 参考訳(メタデータ) (2025-11-02T13:21:54Z) - Breaking Down and Building Up: Mixture of Skill-Based Vision-and-Language Navigation Agents [43.5771856761934]
VLN(Vision-and-Language Navigation)は、自然言語命令を解釈し、複雑な3D環境をナビゲートするエージェントにとって大きな課題となる。
トランスフォーマーベースのVLNエージェントに構造化されたスキルベースの推論を導入するモジュラーフレームワークであるSkillNavを提案する。
論文 参考訳(メタデータ) (2025-08-11T05:50:30Z) - Think Hierarchically, Act Dynamically: Hierarchical Multi-modal Fusion and Reasoning for Vision-and-Language Navigation [11.23342183103283]
Vision-and-Language Navigation (VLN)は、エンボディエージェントが自然言語の指示に従い、現実の環境でターゲットの場所に到達することを可能にすることを目的としている。
本稿では,視覚的観察,言語指導,ナビゲーション履歴の推論能力を高めるため,MFRA(Multi-level Fusion and Reasoning Architecture)を提案する。
論文 参考訳(メタデータ) (2025-04-23T08:41:27Z) - Exploring Spatial Representation to Enhance LLM Reasoning in Aerial Vision-Language Navigation [11.267956604072845]
ALN(Aerial Vision-and-Language Navigation)は、無人航空機(Unmanned Aerial Vehicles、UAV)が自然言語の指示や視覚的手がかりを通じて屋外の環境を航行できるようにする新しいタスクである。
本稿では,大規模言語モデル(LLM)をアクション予測のエージェントとして活用する,空飛ぶVLNタスクのためのトレーニングフリーゼロショットフレームワークを提案する。
論文 参考訳(メタデータ) (2024-10-11T03:54:48Z) - Pink: Unveiling the Power of Referential Comprehension for Multi-modal
LLMs [49.88461345825586]
本稿では,MLLMの微細な画像理解能力を高めるための新しい枠組みを提案する。
本稿では,既存のデータセットのアノテーションを活用して,命令チューニングデータセットを低コストで構築する手法を提案する。
本研究では,Qwen-VLよりも5.2%精度が向上し,Kosmos-2の精度が24.7%向上したことを示す。
論文 参考訳(メタデータ) (2023-10-01T05:53:15Z) - Can an Embodied Agent Find Your "Cat-shaped Mug"? LLM-Guided Exploration
for Zero-Shot Object Navigation [58.3480730643517]
言語駆動型ゼロショットオブジェクトゴールナビゲーション(L-ZSON)のための新しいアルゴリズムLGXを提案する。
このアプローチでは、このタスクにLarge Language Models(LLM)を使用します。
現状のゼロショットオブジェクトナビゲーションをRoboTHOR上で実現し,現在のベースラインよりも27%以上の成功率(SR)向上を実現した。
論文 参考訳(メタデータ) (2023-03-06T20:19:19Z) - Think Global, Act Local: Dual-scale Graph Transformer for
Vision-and-Language Navigation [87.03299519917019]
本稿では,2次元グラフ変換器 (DUET) を提案する。
我々は,グローバルな行動空間における効率的な探索を可能にするために,トポロジカルマップをオンザフライで構築する。
提案手法であるDUETは、目標指向の視覚・言語ナビゲーションベンチマークにおいて最先端の手法を著しく上回っている。
論文 参考訳(メタデータ) (2022-02-23T19:06:53Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。