論文の概要: VLingNav: Embodied Navigation with Adaptive Reasoning and Visual-Assisted Linguistic Memory
- arxiv url: http://arxiv.org/abs/2601.08665v1
- Date: Tue, 13 Jan 2026 15:43:43 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-01-14 18:27:19.264098
- Title: VLingNav: Embodied Navigation with Adaptive Reasoning and Visual-Assisted Linguistic Memory
- Title(参考訳): VLingNav: 適応推論と視覚支援言語記憶を備えた身体的ナビゲーション
- Authors: Shaoan Wang, Yuanfei Luo, Xingyu Chen, Aocheng Luo, Dongyue Li, Chang Liu, Sheng Chen, Yangang Zhang, Junzhi Yu,
- Abstract要約: VLAモデルは、認識と計画を統合することで、航法を具現化する有望な可能性を示してきた。
既存のVLAモデルは、観察から行動へのリアクティブマッピングに直接依存している。
VLingNav(VLAモデル)を提案する。
- 参考スコア(独自算出の注目度): 43.2995099083993
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: VLA models have shown promising potential in embodied navigation by unifying perception and planning while inheriting the strong generalization abilities of large VLMs. However, most existing VLA models rely on reactive mappings directly from observations to actions, lacking the explicit reasoning capabilities and persistent memory required for complex, long-horizon navigation tasks. To address these challenges, we propose VLingNav, a VLA model for embodied navigation grounded in linguistic-driven cognition. First, inspired by the dual-process theory of human cognition, we introduce an adaptive chain-of-thought mechanism, which dynamically triggers explicit reasoning only when necessary, enabling the agent to fluidly switch between fast, intuitive execution and slow, deliberate planning. Second, to handle long-horizon spatial dependencies, we develop a visual-assisted linguistic memory module that constructs a persistent, cross-modal semantic memory, enabling the agent to recall past observations to prevent repetitive exploration and infer movement trends for dynamic environments. For the training recipe, we construct Nav-AdaCoT-2.9M, the largest embodied navigation dataset with reasoning annotations to date, enriched with adaptive CoT annotations that induce a reasoning paradigm capable of adjusting both when to think and what to think about. Moreover, we incorporate an online expert-guided reinforcement learning stage, enabling the model to surpass pure imitation learning and to acquire more robust, self-explored navigation behaviors. Extensive experiments demonstrate that VLingNav achieves state-of-the-art performance across a wide range of embodied navigation benchmarks. Notably, VLingNav transfers to real-world robotic platforms in a zero-shot manner, executing various navigation tasks and demonstrating strong cross-domain and cross-task generalization.
- Abstract(参考訳): VLAモデルは、大きなVLMの強い一般化能力を継承しながら、認識と計画を統合することで、航法を具現化する有望な可能性を示してきた。
しかしながら、既存のVLAモデルは、観測から行動への直接的なリアクティブマッピングに依存しており、複雑な長距離ナビゲーションタスクに必要な明確な推論能力と永続メモリが欠如している。
これらの課題に対処するために,言語駆動認知に基づくナビゲーションのVLAモデルであるVLingNavを提案する。
まず、人間の認知の二重プロセス理論に触発され、適応的連鎖機構を導入し、必要に応じて明示的な推論を動的に引き起こし、エージェントが高速で直感的な実行と遅い、意図的な計画の間を流動的に切り替えることを可能にする。
第2に,長時間の空間依存性を扱うために,視覚支援型言語記憶モジュールを開発した。このモジュールは永続的・横断的なセマンティックメモリを構築することで,エージェントが過去の観測を思い出し,反復的な探索を防止し,動的環境における動きの傾向を推測することを可能にする。
トレーニングレシピでは,現在までの推論アノテーションを備えた最大の実施済みナビゲーションデータセットであるNav-AdaCoT-2.9Mを構築し,いつ,何を考えるべきかを調整可能な推論パラダイムを誘導する適応CoTアノテーションを具備する。
さらに、オンライン専門家による強化学習を取り入れ、モデルが純粋な模倣学習を超越し、より堅牢で自己探索的なナビゲーション行動を得ることを可能にする。
広範な実験により、VLingNavは幅広い実施されたナビゲーションベンチマークで最先端のパフォーマンスを実現している。
特に、VLingNavは、ゼロショットで現実世界のロボットプラットフォームに移行し、さまざまなナビゲーションタスクを実行し、強力なクロスドメインとクロスタスクの一般化を示す。
関連論文リスト
- EvolveNav: Empowering LLM-Based Vision-Language Navigation via Self-Improving Embodied Reasoning [145.32076310071434]
EvolveNavは,適応的かつ一般化可能なナビゲーション推論を実現するための,新しい具体的推論パラダイムである。
EvolveNav は,(1) 形式化された CoT 監督ファインチューニング,(2) モデルが自己富化 CoT ラベルとして独自の推論出力で反復的に訓練され,監督の多様性を高めるために,モデルのナビゲーション推論能力を最初に活性化し,同時に推論速度を向上させるための形式化された CoT ラベルを用いてモデルを訓練する。
論文 参考訳(メタデータ) (2025-06-02T11:28:32Z) - Cog-GA: A Large Language Models-based Generative Agent for Vision-Language Navigation in Continuous Environments [19.818370526976974]
VLN-CE(Vision Language Navigation in Continuous Environments)は、AIのフロンティアである。
本稿では,VLN-CEタスクに適した大規模言語モデル(LLM)に基づく生成エージェントであるCog-GAを紹介する。
Cog-GAは、人間のような認知過程をエミュレートするための二重戦略を採用している。
論文 参考訳(メタデータ) (2024-09-04T08:30:03Z) - NavCoT: Boosting LLM-Based Vision-and-Language Navigation via Learning Disentangled Reasoning [97.88246428240872]
Embodied AIの重要な研究課題であるVision-and-Language Navigation (VLN)は、自然言語の指示に従って複雑な3D環境をナビゲートするために、エンボディエージェントを必要とする。
近年の研究では、ナビゲーションの推論精度と解釈可能性を改善することにより、VLNにおける大きな言語モデル(LLM)の有望な能力を強調している。
本稿では,自己誘導型ナビゲーション決定を実現するために,パラメータ効率の高いドメイン内トレーニングを実現する,Navigational Chain-of-Thought (NavCoT) という新しい戦略を提案する。
論文 参考訳(メタデータ) (2024-03-12T07:27:02Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。