論文の概要: Spatial-VLN: Zero-Shot Vision-and-Language Navigation With Explicit Spatial Perception and Exploration
- arxiv url: http://arxiv.org/abs/2601.12766v1
- Date: Mon, 19 Jan 2026 06:53:02 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-01-21 22:47:22.783032
- Title: Spatial-VLN: Zero-Shot Vision-and-Language Navigation With Explicit Spatial Perception and Exploration
- Title(参考訳): 空間VLN:空間知覚と探索によるゼロショット視覚・言語ナビゲーション
- Authors: Lu Yue, Yue Fan, Shiwei Lian, Yu Zhao, Jiaxin Yu, Liang Xie, Feitian Zhang,
- Abstract要約: 大規模言語モデル(LLM)を利用した視覚・言語ナビゲーション(VLN)エージェントは、一般化が優れているが、空間認識が不十分である。
本稿では,これらの課題を克服するための知覚誘導探索フレームワークであるSpatial-VLNを提案する。
- 参考スコア(独自算出の注目度): 16.651645602449577
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Zero-shot Vision-and-Language Navigation (VLN) agents leveraging Large Language Models (LLMs) excel in generalization but suffer from insufficient spatial perception. Focusing on complex continuous environments, we categorize key perceptual bottlenecks into three spatial challenges: door interaction,multi-room navigation, and ambiguous instruction execution, where existing methods consistently suffer high failure rates. We present Spatial-VLN, a perception-guided exploration framework designed to overcome these challenges. The framework consists of two main modules. The Spatial Perception Enhancement (SPE) module integrates panoramic filtering with specialized door and region experts to produce spatially coherent, cross-view consistent perceptual representations. Building on this foundation, our Explored Multi-expert Reasoning (EMR) module uses parallel LLM experts to address waypoint-level semantics and region-level spatial transitions. When discrepancies arise between expert predictions, a query-and-explore mechanism is activated, prompting the agent to actively probe critical areas and resolve perceptual ambiguities. Experiments on VLN-CE demonstrate that Spatial VLN achieves state-of-the-art performance using only low-cost LLMs. Furthermore, to validate real-world applicability, we introduce a value-based waypoint sampling strategy that effectively bridges the Sim2Real gap. Extensive real-world evaluations confirm that our framework delivers superior generalization and robustness in complex environments. Our codes and videos are available at https://yueluhhxx.github.io/Spatial-VLN-web/.
- Abstract(参考訳): Zero-shot Vision-and-Language Navigation (VLN) エージェントは,Large Language Models (LLMs) を駆使して汎用化が進んでいるが,空間認識が不十分である。
複雑な連続環境に焦点をあて、重要な知覚的ボトルネックをドアインタラクション、マルチルームナビゲーション、曖昧な命令実行という3つの空間的課題に分類する。
本稿では,これらの課題を克服するための知覚誘導探索フレームワークであるSpatial-VLNを提案する。
フレームワークは2つの主要なモジュールで構成される。
空間知覚増強(SPE)モジュールは、パノラマフィルタリングを専門のドアや地域の専門家と統合し、空間的に一貫性があり、一貫した知覚表現を生成する。
この基礎の上に構築したExplored Multi-expert Reasoning (EMR)モジュールは、並列LLMの専門家を用いて、ウェイポイントレベルのセマンティクスと地域レベルの空間遷移に対処する。
専門家の予測に相違が生じると、クエリ・アンド・エクスロア・メカニズムが活性化され、エージェントは重要な領域を積極的に探索し、知覚の曖昧さを解決する。
VLN-CEの実験により、空間VLNは低コストのLLMのみを用いて最先端の性能を達成することを示した。
さらに,実世界の応用性を検証するために,Sim2Realギャップを効果的に橋渡しする価値ベースの経路点サンプリング戦略を導入する。
我々のフレームワークが複雑な環境において優れた一般化と堅牢性をもたらすことを確認する。
私たちのコードとビデオはhttps://yueluhhxx.github.io/Spatial-VLN-web/で公開されています。
関連論文リスト
- SpatialNav: Leveraging Spatial Scene Graphs for Zero-Shot Vision-and-Language Navigation [48.17712857341527]
エージェント中心の空間マップ,コンパス対応の視覚表現,効率的なナビゲーションのためのリモートオブジェクトローカライゼーション戦略を統合したゼロショットビジョン・アンド・ランゲージナビゲーション(VLN)エージェントを提案する。
離散的および連続的な環境での実験では、SpatialNavは既存のゼロショットエージェントを著しく上回り、最先端の学習手法とのギャップをはっきりと狭めている。
論文 参考訳(メタデータ) (2026-01-11T08:39:19Z) - City Navigation in the Wild: Exploring Emergent Navigation from Web-Scale Knowledge in MLLMs [13.863236619171174]
Taskは、知識集約的な現実世界環境におけるMLLMのシーケンシャルな意思決定能力を評価するように設計されている。
このタスクを,4つの多様なグローバル都市を対象とするベンチマークであるCityNavで運用する。
エージェントは、50以上の意思決定ポイントを順次ナビゲートするために、視覚入力と内部マルチモーダル推論のみに依存する必要がある。
本稿では,明示的な認知地図を探索することにより,エージェントの内部的推論を明示的に根拠とするVerbalization of Path (VoP)を提案する。
論文 参考訳(メタデータ) (2025-12-17T19:59:31Z) - SkyMoE: A Vision-Language Foundation Model for Enhancing Geospatial Interpretation with Mixture of Experts [15.606672242024423]
マルチモーダル・マルチタスクリモートセンシングのための視覚言語モデルSkyMoEを提案する。
SkyMoEは、タスクと粒度を認識したルーティング命令を生成する適応ルータを使用している。
21の公開データセットの実験では、SkyMoEがタスク間で最先端のパフォーマンスを達成することが示されている。
論文 参考訳(メタデータ) (2025-12-02T08:17:16Z) - SpatialScore: Towards Unified Evaluation for Multimodal Spatial Understanding [64.15606979785355]
マルチモーダル大規模言語モデル(MLLM)は,質問応答タスクにおいて顕著な成功を収めているが,空間的理解能力は乏しい。
既存のMLLMは3次元空間認識と理解能力を持っているか?
論文 参考訳(メタデータ) (2025-05-22T17:59:03Z) - Crossing the Reward Bridge: Expanding RL with Verifiable Rewards Across Diverse Domains [92.36624674516553]
検証可能な報酬付き強化学習(RLVR)は、大規模言語モデル(LLM)の数学的推論と符号化性能の向上に成功している。
本稿では,医学,化学,心理学,経済学,教育など,さまざまな現実世界領域におけるRLVRの有効性と拡張性について検討する。
我々は,2値検証による制限を克服するために,ソフトなモデルに基づく報酬信号を生成する生成的スコアリング手法を利用する。
論文 参考訳(メタデータ) (2025-03-31T08:22:49Z) - Sparkle: Mastering Basic Spatial Capabilities in Vision Language Models Elicits Generalization to Spatial Reasoning [36.588008658084895]
視覚言語モデル(VLM)は多くのタスクでうまく機能するが、しばしば空間的推論では失敗する。
評価の結果, 現状のVLMでは, 複合空間問題に対する不正確な答えが得られていることがわかった。
VLMにおける2次元空間推論は,基本空間能力のみに基づいて訓練することで向上する。
論文 参考訳(メタデータ) (2024-10-21T16:26:09Z) - SpatialRGPT: Grounded Spatial Reasoning in Vision Language Models [68.13636352687257]
VLMの空間知覚と推論能力を高めるために空間領域GPT(SpatialRGPT)を導入する。
推測中、ユーザが指定した領域の提案が提供されると、SpatialRGPTは相対的な方向と距離を正確に知覚できる。
本研究では,空間的推論タスクにおける局所的プロンプトと非局所的プロンプトの双方において,空間的RGPTにより性能が著しく向上することを示す。
論文 参考訳(メタデータ) (2024-06-03T17:59:06Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。