論文の概要: FantasyVLN: Unified Multimodal Chain-of-Thought Reasoning for Vision-Language Navigation
- arxiv url: http://arxiv.org/abs/2601.13976v2
- Date: Fri, 23 Jan 2026 08:44:34 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-01-26 14:27:27.315778
- Title: FantasyVLN: Unified Multimodal Chain-of-Thought Reasoning for Vision-Language Navigation
- Title(参考訳): FantasyVLN:視覚言語ナビゲーションのための統合マルチモーダル・チェーン・オブ・ソート推論
- Authors: Jing Zuo, Lingzhou Mu, Fan Jiang, Chengcheng Ma, Mu Xu, Yonggang Qi,
- Abstract要約: VLN(Vision-and-Language Navigation)は、マルチモーダル命令と視覚空間コンテキストを協調的に理解するために、エンボディエージェントを必要とする。
最近の研究は、解釈可能性と長期計画を改善するために、CoT(Chain-of-Thought)推論の可能性を示している。
明示的なトークンオーバーヘッドを伴わずにCoT推論の利点を保った暗黙的推論フレームワークであるFantasyVLNを提案する。
- 参考スコア(独自算出の注目度): 11.18316873483782
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Achieving human-level performance in Vision-and-Language Navigation (VLN) requires an embodied agent to jointly understand multimodal instructions and visual-spatial context while reasoning over long action sequences. Recent works, such as NavCoT and NavGPT-2, demonstrate the potential of Chain-of-Thought (CoT) reasoning for improving interpretability and long-horizon planning. Moreover, multimodal extensions like OctoNav-R1 and CoT-VLA further validate CoT as a promising pathway toward human-like navigation reasoning. However, existing approaches face critical drawbacks: purely textual CoTs lack spatial grounding and easily overfit to sparse annotated reasoning steps, while multimodal CoTs incur severe token inflation by generating imagined visual observations, making real-time navigation impractical. In this work, we propose FantasyVLN, a unified implicit reasoning framework that preserves the benefits of CoT reasoning without explicit token overhead. Specifically, imagined visual tokens are encoded into a compact latent space using a pretrained Visual AutoRegressor (VAR) during CoT reasoning training, and the model jointly learns from textual, visual, and multimodal CoT modes under a unified multi-CoT strategy. At inference, our model performs direct instruction-to-action mapping while still enjoying reasoning-aware representations. Extensive experiments on LH-VLN show that our approach achieves reasoning-aware yet real-time navigation, improving success rates and efficiency while reducing inference latency by an order of magnitude compared to explicit CoT methods.
- Abstract(参考訳): VLN(Vision-and-Language Navigation)における人間レベルのパフォーマンスを達成するには、長いアクションシーケンスを推論しながら、マルチモーダル命令と視覚空間コンテキストを協調的に理解する必要がある。
NavCoTやNavGPT-2といった最近の研究は、解釈可能性や長期計画を改善するために、CoT(Chain-of-Thought)の可能性を実証している。
さらに、OctoNav-R1やCoT-VLAのようなマルチモーダル拡張は、CoTを人間のようなナビゲーション推論への有望な経路として検証する。
しかし、既存のアプローチは重大な欠点に直面している: 純粋にテキストCoTは空間的根拠がなく、注釈付き推論ステップを疎結合に過度に扱える一方で、マルチモーダルCoTは想像上の視覚的観察を生成して深刻なトークンインフレーションを引き起こし、リアルタイムナビゲーションを非現実的なものにする。
本稿では,CoT推論の利点を明示的なトークンオーバーヘッドなしに維持する,統一的な暗黙的推論フレームワークであるFantasyVLNを提案する。
具体的には、CoT推論トレーニング中に事前訓練されたVisual AutoRegressor(VAR)を使用して、仮想トークンをコンパクトな潜在空間に符号化し、マルチCoT戦略の下でテキストモード、ビジュアルモード、マルチモーダルモードから共同で学習する。
推論において,本モデルは推論対応表現を楽しみながら直接命令対アクションマッピングを行う。
LH-VLNの大規模な実験により,提案手法は推論を意識したリアルタイムナビゲーションを実現し,成功率と効率を向上させるとともに,明示的なCoT法に比べて推論遅延を桁違いに低減することを示した。
関連論文リスト
- \ extsc{NaVIDA}: Vision-Language Navigation with Inverse Dynamics Augmentation [50.027425808733994]
textscNaVIDAは、ポリシー学習とアクショングラウンドの視覚力学と適応実行を結合した統合VLNフレームワークである。
textscNaVIDAは、チャンクベースの逆ダイナミクスによるトレーニングを強化し、視覚変化と対応するアクションの因果関係を学習する。
実験の結果,textscNaVIDAはパラメータが少ない最先端の手法に比べてナビゲーション性能が優れていることがわかった。
論文 参考訳(メタデータ) (2026-01-26T06:16:17Z) - VLingNav: Embodied Navigation with Adaptive Reasoning and Visual-Assisted Linguistic Memory [43.2995099083993]
VLAモデルは、認識と計画を統合することで、航法を具現化する有望な可能性を示してきた。
既存のVLAモデルは、観察から行動へのリアクティブマッピングに直接依存している。
VLingNav(VLAモデル)を提案する。
論文 参考訳(メタデータ) (2026-01-13T15:43:43Z) - Deep But Reliable: Advancing Multi-turn Reasoning for Thinking with Images [53.373427633330515]
DRIMは,マルチモーダルCoTの画像について考える際に,深層かつ信頼性の高いマルチターン推論を可能にするモデルである。
高精細画像データセットに基づいて,高精細かつ検証可能な視覚的問合せ対を構築する。
SFTの段階では,ツールトラジェクトリをコールドスタートデータとして収集し,マルチターン推論パターンを導出する。
RLの段階では、冗長性を考慮したポリシー最適化を導入し、自己反射的推論パターンを開発するためのモデルにインセンティブを与える。
論文 参考訳(メタデータ) (2025-12-19T07:44:43Z) - Reasoning Within the Mind: Dynamic Multimodal Interleaving in Latent Space [46.05748768260013]
テスト時間動的マルチモーダル遅延推論フレームワークを提案する。
信頼誘導の潜在ポリシー勾配最適化を、詳細な推論のために潜在シンクトークンに採用する。
7つのマルチモーダル推論ベンチマークと様々なモデルアーキテクチャによる実験により、DMLRは推論性能と知覚性能を大幅に改善することが示された。
論文 参考訳(メタデータ) (2025-12-14T10:07:45Z) - Revisiting the Necessity of Lengthy Chain-of-Thought in Vision-centric Reasoning Generalization [55.6995787502694]
本研究では,異なる言語パターン(CoT)設計が,一般化可能な視覚的推論能力の獲得にどのように影響するかを検討する。
代表的なCoTフォーマットであるLanguage CoT, Grounding CoT, Visual CoTを比較した。
実験の結果,視覚的および長時間のCoTは収束を主に加速するが,最終的な性能天井は持ち上げないことがわかった。
論文 参考訳(メタデータ) (2025-11-27T16:19:34Z) - CoT4AD: A Vision-Language-Action Model with Explicit Chain-of-Thought Reasoning for Autonomous Driving [10.836513600206118]
我々は、視覚言語モデル(VLM)における数値推論と因果推論の両方を強化するために、自律運転のためのチェーン・オブ・ソート(CoT)推論を提案する。
CoT4ADは視覚的な観察と言語命令を統合し、セマンティック推論、シーン理解、軌道計画を実行する。
nuScenesやBench2Driveなど、実世界のベンチマークとシミュレーションベンチマークの両方の実験は、CoT4ADがオープンループとクローズループの両方で最先端のパフォーマンスを達成することを実証している。
論文 参考訳(メタデータ) (2025-11-27T15:13:13Z) - EvolveNav: Empowering LLM-Based Vision-Language Navigation via Self-Improving Embodied Reasoning [145.32076310071434]
EvolveNavは,適応的かつ一般化可能なナビゲーション推論を実現するための,新しい具体的推論パラダイムである。
EvolveNav は,(1) 形式化された CoT 監督ファインチューニング,(2) モデルが自己富化 CoT ラベルとして独自の推論出力で反復的に訓練され,監督の多様性を高めるために,モデルのナビゲーション推論能力を最初に活性化し,同時に推論速度を向上させるための形式化された CoT ラベルを用いてモデルを訓練する。
論文 参考訳(メタデータ) (2025-06-02T11:28:32Z) - Visual Chain of Thought: Bridging Logical Gaps with Multimodal
Infillings [61.04460792203266]
本稿では, 逐次データ内の論理的ギャップを埋めるために, 視覚言語による接地を促進させる, チェーン・オブ・シントを利用する新しい手法であるVCoTを紹介する。
本手法は,下流タスクの論理的ギャップを低減するために,一貫した情報と新しい情報を加える合成マルチモーダル埋め込みを生成するために視覚誘導を用いる。
論文 参考訳(メタデータ) (2023-05-03T17:58:29Z) - BEVBert: Multimodal Map Pre-training for Language-guided Navigation [75.23388288113817]
視覚・言語ナビゲーション(VLN)における空間認識型マップベース事前学習パラダイムを提案する。
我々は,グローバルなトポロジカルマップにおけるナビゲーション依存性をモデル化しながら,不完全な観測を明示的に集約し,重複を取り除くための局所距離マップを構築した。
ハイブリッドマップをベースとして,マルチモーダルマップ表現を学習するための事前学習フレームワークを考案し,空間認識型クロスモーダル推論を強化し,言語誘導ナビゲーションの目標を導出する。
論文 参考訳(メタデータ) (2022-12-08T16:27:54Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。