論文の概要: City Navigation in the Wild: Exploring Emergent Navigation from Web-Scale Knowledge in MLLMs
- arxiv url: http://arxiv.org/abs/2512.15933v1
- Date: Wed, 17 Dec 2025 19:59:31 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-12-19 18:10:31.805605
- Title: City Navigation in the Wild: Exploring Emergent Navigation from Web-Scale Knowledge in MLLMs
- Title(参考訳): 野生の都市ナビゲーション:MLLMにおけるWebスケール知識からの創発的ナビゲーション
- Authors: Dwip Dalal, Utkarsh Mishra, Narendra Ahuja, Nebojsa Jojic,
- Abstract要約: Taskは、知識集約的な現実世界環境におけるMLLMのシーケンシャルな意思決定能力を評価するように設計されている。
このタスクを,4つの多様なグローバル都市を対象とするベンチマークであるCityNavで運用する。
エージェントは、50以上の意思決定ポイントを順次ナビゲートするために、視覚入力と内部マルチモーダル推論のみに依存する必要がある。
本稿では,明示的な認知地図を探索することにより,エージェントの内部的推論を明示的に根拠とするVerbalization of Path (VoP)を提案する。
- 参考スコア(独自算出の注目度): 13.863236619171174
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Leveraging multimodal large language models (MLLMs) to develop embodied agents offers significant promise for addressing complex real-world tasks. However, current evaluation benchmarks remain predominantly language-centric or heavily reliant on simulated environments, rarely probing the nuanced, knowledge-intensive reasoning essential for practical, real-world scenarios. To bridge this critical gap, we introduce the task of Sparsely Grounded Visual Navigation, explicitly designed to evaluate the sequential decision-making abilities of MLLMs in challenging, knowledge-intensive real-world environments. We operationalize this task with CityNav, a comprehensive benchmark encompassing four diverse global cities, specifically constructed to assess raw MLLM-driven agents in city navigation. Agents are required to rely solely on visual inputs and internal multimodal reasoning to sequentially navigate 50+ decision points without additional environmental annotations or specialized architectural modifications. Crucially, agents must autonomously achieve localization through interpreting city-specific cues and recognizing landmarks, perform spatial reasoning, and strategically plan and execute routes to their destinations. Through extensive evaluations, we demonstrate that current state-of-the-art MLLMs and standard reasoning techniques (e.g., Chain-of-Thought, Reflection) significantly underperform in this challenging setting. To address this, we propose Verbalization of Path (VoP), which explicitly grounds the agent's internal reasoning by probing an explicit cognitive map (key landmarks and directions toward the destination) from the MLLMs, substantially enhancing navigation success. Project Webpage: https://dwipddalal.github.io/AgentNav/
- Abstract(参考訳): マルチモーダル・大規模言語モデル(MLLM)を活用してエンボディエージェントを開発することは、複雑な現実世界のタスクに対処するための重要な約束である。
しかし、現在の評価ベンチマークは、言語中心またはシミュレーション環境に大きく依存しているままであり、現実のシナリオに不可欠な、曖昧で知識集約的な推論はまれである。
この重要なギャップを埋めるために,我々は,知識集約的な現実世界環境におけるMLLMの逐次的意思決定能力を評価するために,Sparsely Grounded Visual Navigationというタスクを導入する。
このタスクを,4つの多様なグローバル都市を対象とした総合的なベンチマークであるCityNavで運用する。
エージェントは、視覚的な入力と内部マルチモーダル推論にのみ依存して、追加の環境アノテーションや特別なアーキテクチャ変更なしに、50以上の意思決定ポイントを順次ナビゲートする必要がある。
重要なことは、エージェントは、都市固有の手がかりを解釈し、ランドマークを認識し、空間的推論を行い、目的地へのルートを戦略的に計画し実行することで、自律的にローカライゼーションを達成する必要がある。
本研究では,現状のMLLMと標準推論技術(例えばChain-of-Thought, Reflection)が,この難易度設定において著しく性能が劣っていることを示す。
そこで本稿では,MLLM から明確な認知地図 (キーランドマークと目的地方向) を探索することにより,エージェントの内部推論を明示的に根拠とする Verbalization of Path (VoP) を提案する。
プロジェクトWebページ: https://dwipddalal.github.io/AgentNav/
関連論文リスト
- Navigating Motion Agents in Dynamic and Cluttered Environments through LLM Reasoning [69.5875073447454]
本稿では,大規模言語モデル(LLM)によって強化された動作エージェントを,動的・乱雑な環境における自律的なナビゲーションに向けて前進させる。
トレーニング不要なフレームワークは、マルチエージェント調整、クローズドループ計画、動的障害物回避を、リトレーニングや微調整なしでサポートしています。
論文 参考訳(メタデータ) (2025-03-10T13:39:09Z) - Mem2Ego: Empowering Vision-Language Models with Global-to-Ego Memory for Long-Horizon Embodied Navigation [35.71602601385161]
本稿では,視覚言語モデル(VLM)に基づくナビゲーションフレームワークを提案する。
提案手法は,長期タスクにおける空間的推論と意思決定を促進する。
実験の結果,提案手法は従来のオブジェクトナビゲーションタスクの手法を超越していることがわかった。
論文 参考訳(メタデータ) (2025-02-20T04:41:40Z) - TopV-Nav: Unlocking the Top-View Spatial Reasoning Potential of MLLM for Zero-shot Object Navigation [52.422619828854984]
MLLMをベースとしたTopV-Navを提案する。
MLLMの空間推論能力をトップビューで完全に解き放つために,適応型視覚プロンプト生成法(AVPG)を提案する。
論文 参考訳(メタデータ) (2024-11-25T14:27:55Z) - Exploring Spatial Representation to Enhance LLM Reasoning in Aerial Vision-Language Navigation [11.267956604072845]
ALN(Aerial Vision-and-Language Navigation)は、無人航空機(Unmanned Aerial Vehicles、UAV)が自然言語の指示や視覚的手がかりを通じて屋外の環境を航行できるようにする新しいタスクである。
本稿では,大規模言語モデル(LLM)をアクション予測のエージェントとして活用する,空飛ぶVLNタスクのためのトレーニングフリーゼロショットフレームワークを提案する。
論文 参考訳(メタデータ) (2024-10-11T03:54:48Z) - Perceive, Reflect, and Plan: Designing LLM Agent for Goal-Directed City Navigation without Instructions [19.03156236107806]
本稿では,その知覚,反映,計画能力に特徴付けられる新しいエージェントワークフローを提案する。
LLaVA-7Bは都市のナビゲーションに十分な精度でランドマークの方向と距離を把握できるように微調整できる。
論文 参考訳(メタデータ) (2024-08-08T02:28:43Z) - VELMA: Verbalization Embodiment of LLM Agents for Vision and Language
Navigation in Street View [81.58612867186633]
視覚と言語ナビゲーション(VLN)は、視覚的および自然言語の理解と空間的および時間的推論能力を必要とする。
VELMAは,2つのコンテキスト内例のみを用いて,ストリートビューでのナビゲーション指示に従うことができることを示す。
数千の例でLLMエージェントをさらに微調整し、従来の2つのデータセットのタスク完了に対する25%-30%の相対的な改善を実現した。
論文 参考訳(メタデータ) (2023-07-12T11:08:24Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。