論文の概要: SEDualVLN: A Spatially-Enhanced Dual-System for Vision-Language Navigation
- arxiv url: http://arxiv.org/abs/2605.17249v1
- Date: Sun, 17 May 2026 04:12:56 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-05-19 17:57:47.806335
- Title: SEDualVLN: A Spatially-Enhanced Dual-System for Vision-Language Navigation
- Title(参考訳): SedualVLN:視覚言語ナビゲーションのための空間拡張型デュアルシステム
- Authors: Jingzhi Huang, Junkai Huang, Wenxuan Song, Haoyang Yang, Hailong Huang, Haoang Li, Yi Wang,
- Abstract要約: SEDualVLNは空間的に拡張されたデュアルシステムビジョンランゲージナビゲーションフレームワークである。
System 1は、グローバルな空間認識とローカルな空間認識の両方で拡張されたVLMモデルであり、アクション生成に使用される。
System 2は一般的なMLLMとマッピングモジュールを統合し、MLLMはリアルタイム3Dマップのトップダウンビューを活用することで、経路ポイントを計画する。
- 参考スコア(独自算出の注目度): 19.9336847486232
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Vision-Language Navigation (VLN) approaches have currently followed two primary paradigms: the end-to-end Vision-Language Model (VLM) policy fine-tuned on navigation trajectories to directly predict actions, and the zero-shot modular pipeline integrating pre-trained Multimodal Large Language Model (MLLM) for training-free generalization to unseen environments. However, end-to-end methods struggle with long-horizon navigation and lack dynamic reasoning, whereas zero-shot methods are constrained by limited spatial grounding for reliable planning and also require substantial reasoning time. To bridge this gap, we introduce SEDualVLN, a spatially-enhanced dual-system VLN framework. System 1 is a VLM model enhanced with both global and local spatial awareness, used for action generation. System 2 integrates a general MLLM with a mapping module, wherein the MLLM plans waypoints by leveraging top-down views of the real-time 3D map alongside streams of rendered path images. Both systems leverage different forms of spatial enhancement to cultivate the agent's sense of direction in VLN tasks. Ultimately, they cooperate to complete the navigation task through a fast-slow coordinated approach. SEDualVLN achieves state-of-the-art performance on VLN-CE benchmarks, and further ablation studies demonstrate the effectiveness of each system and module.
- Abstract(参考訳): 現在、VLN(Vision-Language Navigation)アプローチは2つの主要なパラダイムに従っている。ナビゲーショントラジェクトリを微調整してアクションを直接予測するVLM(End-to-end Vision-Language Model)ポリシーと、事前訓練されたマルチモーダル大言語モデル(MLLM)を統合したゼロショットモジュールパイプラインである。
しかし、エンド・ツー・エンドの手法は長距離航法と動的推論の欠如に苦しむ一方、ゼロショット法は信頼性の高い計画のための空間的接地によって制約され、かなりの推論時間も必要である。
このギャップを埋めるために、空間的に拡張されたデュアルシステムVLNフレームワークであるSEDualVLNを導入する。
System 1は、グローバルな空間認識とローカルな空間認識の両方で拡張されたVLMモデルであり、アクション生成に使用される。
System 2は一般的なMLLMをマッピングモジュールと統合し、MLLMはレンダリングされたパス画像のストリームと並行してリアルタイム3Dマップのトップダウンビューを活用することで、経路ポイントを計画する。
どちらのシステムも、VLNタスクにおけるエージェントの方向感覚を育むために、異なる形態の空間拡張を利用する。
最終的に、彼らは速いスローの協調アプローチでナビゲーションタスクを完成させるために協力します。
SEDualVLNはVLN-CEベンチマークの最先端性能を達成し、さらなるアブレーション研究により各システムとモジュールの有効性が示された。
関連論文リスト
- DIAL: Decoupling Intent and Action via Latent World Modeling for End-to-End VLA [72.9197085473598]
DIALはハイレベルな意思決定と低レベルなモーター実行を、差別化可能な潜在意図ボトルネックを通じてブリッジするフレームワークである。
VLMベースのSystem-2は、VLMのネイティブな特徴空間内で、潜伏した視覚的フォレストによって潜伏世界モデリングを行う。
軽量のSystem-1ポリシーでは、この予測された意図と現在の観測結果を正確にロボットの動作にデコードする。
論文 参考訳(メタデータ) (2026-03-31T15:02:27Z) - AgentVLN: Towards Agentic Vision-and-Language Navigation [78.739525400071]
VLN (Vision-and-Language Navigation) は、複雑な自然言語命令を、見えない環境での長距離ナビゲーションに接地するために、エンボディエージェントを必要とする。
本稿では,エッジコンピューティングプラットフォーム上に展開可能な,新規かつ効率的なナビゲーションフレームワークであるAgentVLNを提案する。
論文 参考訳(メタデータ) (2026-03-18T12:43:47Z) - Ground Slow, Move Fast: A Dual-System Foundation Model for Generalizable Vision-and-Language Navigation [45.54638103934175]
本稿では,高レベル推論と低レベル動作実行を統合した視覚言語ナビゲーションシステムであるDualVLNを提案する。
System 1は、System 2の明示的なピクセル目標と潜在機能の両方を活用して、スムーズで正確な軌跡を生成することで、"高速に動く"。
システムは全てのVLNベンチマークや実世界の実験で先行手法よりも優れており、堅牢な長期計画とリアルタイム適応性を示している。
論文 参考訳(メタデータ) (2025-12-09T02:29:36Z) - Fast-SmartWay: Panoramic-Free End-to-End Zero-Shot Vision-and-Language Navigation [16.632191523127865]
Fast-SmartWayは、パノラマビューやウェイポイント予測不要なエンドツーエンドのゼロショットVLN-CEフレームワークである。
提案手法では,3つの正面RGB-D画像と自然言語命令を組み合わせるだけで,MLLMが直接行動を予測することができる。
論文 参考訳(メタデータ) (2025-11-02T13:21:54Z) - Following Route Instructions using Large Vision-Language Models: A Comparison between Low-level and Panoramic Action Spaces [2.2406151150434894]
VLN(Vision-and-Language Navigation)は、自律型ロボットが自然言語の指示に従うことで、未知の環境をナビゲートすることを可能にする。
現行のVLNシステムはナビゲーション用に特別に設計され最適化されたモデルに依存しており、市販のLVLMの可能性を未調査のまま残している。
本稿では,市販のLVLMがVLNタスクを効果的にサポートできるのか,低レベルおよびパノラマ動作パラダイムの両方をサポートすることができるのかを検討する。
論文 参考訳(メタデータ) (2025-08-04T21:45:21Z) - VLN-R1: Vision-Language Navigation via Reinforcement Fine-Tuning [77.34267241692706]
Vision-Language Navigation(VLN)は、エージェントが自然言語命令を使用して現実世界の環境をナビゲートする必要がある、AIの実施における中核的な課題である。
本稿では、LVLM(Large Vision-Language Models)を利用して、エゴセントリックな動画ストリームを連続的なナビゲーションアクションに変換するエンドツーエンドフレームワークであるVLN-R1を提案する。
論文 参考訳(メタデータ) (2025-06-20T17:59:59Z) - BEVBert: Multimodal Map Pre-training for Language-guided Navigation [75.23388288113817]
視覚・言語ナビゲーション(VLN)における空間認識型マップベース事前学習パラダイムを提案する。
我々は,グローバルなトポロジカルマップにおけるナビゲーション依存性をモデル化しながら,不完全な観測を明示的に集約し,重複を取り除くための局所距離マップを構築した。
ハイブリッドマップをベースとして,マルチモーダルマップ表現を学習するための事前学習フレームワークを考案し,空間認識型クロスモーダル推論を強化し,言語誘導ナビゲーションの目標を導出する。
論文 参考訳(メタデータ) (2022-12-08T16:27:54Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。