論文の概要: DreamNav: A Trajectory-Based Imaginative Framework for Zero-Shot Vision-and-Language Navigation
- arxiv url: http://arxiv.org/abs/2509.11197v1
- Date: Sun, 14 Sep 2025 09:54:20 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-09-16 17:26:22.971188
- Title: DreamNav: A Trajectory-Based Imaginative Framework for Zero-Shot Vision-and-Language Navigation
- Title(参考訳): DreamNav: ゼロショットビジョンとランゲージナビゲーションのためのトラジェクトリベースのImaginativeフレームワーク
- Authors: Yunheng Wang, Yuetong Fang, Taowen Wang, Yixiao Feng, Yawen Tan, Shuning Zhang, Peiran Liu, Yiding Ji, Renjing Xu,
- Abstract要約: VLN-CE(Vision-and-Language Navigation in Continuous Environments)は、言語指導を現実世界の知覚と制御に結びつけている。
本稿では,(1)知覚コストの低減に向け,EgoView Correctorが視点を整合させ,自我中心の知覚を安定させる,(2)目標予測が指示セマンティクスとの整合性を高めるためのグローバルな軌道計画が好まれる,(3)予測と長期計画が可能となる,Imagination Predictorを提案する,という3つの側面について述べる。
- 参考スコア(独自算出の注目度): 17.00613677919529
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Vision-and-Language Navigation in Continuous Environments (VLN-CE), which links language instructions to perception and control in the real world, is a core capability of embodied robots. Recently, large-scale pretrained foundation models have been leveraged as shared priors for perception, reasoning, and action, enabling zero-shot VLN without task-specific training. However, existing zero-shot VLN methods depend on costly perception and passive scene understanding, collapsing control to point-level choices. As a result, they are expensive to deploy, misaligned in action semantics, and short-sighted in planning. To address these issues, we present DreamNav that focuses on the following three aspects: (1) for reducing sensory cost, our EgoView Corrector aligns viewpoints and stabilizes egocentric perception; (2) instead of point-level actions, our Trajectory Predictor favors global trajectory-level planning to better align with instruction semantics; and (3) to enable anticipatory and long-horizon planning, we propose an Imagination Predictor to endow the agent with proactive thinking capability. On VLN-CE and real-world tests, DreamNav sets a new zero-shot state-of-the-art (SOTA), outperforming the strongest egocentric baseline with extra information by up to 7.49\% and 18.15\% in terms of SR and SPL metrics. To our knowledge, this is the first zero-shot VLN method to unify trajectory-level planning and active imagination while using only egocentric inputs.
- Abstract(参考訳): VLN-CE(Vision-and-Language Navigation in Continuous Environments, VLN-CE)は、言語指導を現実世界の知覚と制御に結びつけるロボットの中核的な能力である。
近年、大規模な事前訓練基礎モデルが知覚、推論、行動の共有先として活用され、タスク固有のトレーニングなしでゼロショットVLNが実現されている。
しかし、既存のゼロショットVLN法は、コストのかかる知覚と受動的シーン理解、点レベルの選択に対する制御の崩壊に依存している。
結果として、デプロイやアクションセマンティクスのミスアライメント、計画の短期化といったコストがかかる。
これらの課題に対処するために,我々は,(1)センサコストの削減,(EgoView Corrector)視点の整合化,(EgoView Corrector)自我中心の認識の安定化,(2)視点レベルの行動の代わりに,(Trajectory Predictor)指示セマンティクスとの整合性向上のためのグローバルな軌跡レベルの計画,(3)予測と長期計画の実現を目的としたImagination Predictor(Imagination Predictor)を提案する。
VLN-CEと実世界のテストでは、DreamNavは新しいゼロショットステート・オブ・ザ・アート(SOTA)をセットし、SRとSPLの指標で最大7.49\%と18.15\%の余分な情報で最強のエゴセントリックベースラインを上回った。
我々の知る限り、これはエゴセントリックな入力のみを使用しながら軌道レベルの計画とアクティブな想像力を統一する最初のゼロショットVLN法である。
関連論文リスト
- VLN-R1: Vision-Language Navigation via Reinforcement Fine-Tuning [77.34267241692706]
Vision-Language Navigation(VLN)は、エージェントが自然言語命令を使用して現実世界の環境をナビゲートする必要がある、AIの実施における中核的な課題である。
本稿では、LVLM(Large Vision-Language Models)を利用して、エゴセントリックな動画ストリームを連続的なナビゲーションアクションに変換するエンドツーエンドフレームワークであるVLN-R1を提案する。
論文 参考訳(メタデータ) (2025-06-20T17:59:59Z) - SmartWay: Enhanced Waypoint Prediction and Backtracking for Zero-Shot Vision-and-Language Navigation [12.152477445938759]
連続環境におけるVLN(Vision-and-Language Navigation)は、制約のない3D空間をナビゲートしながら自然言語命令を解釈するエージェントを必要とする。
既存のVLN-CEフレームワークは、2段階のアプローチに依存している。
マルチモーダル大言語モデル(MLLM)に基づくナビゲータと拡張されたウェイポイント予測器を統合したゼロショットVLN-CEフレームワークを提案する。
論文 参考訳(メタデータ) (2025-03-13T05:32:57Z) - Affordances-Oriented Planning using Foundation Models for Continuous Vision-Language Navigation [64.84996994779443]
本稿では,連続視覚言語ナビゲーション(VLN)タスクのためのAffordances-Oriented Plannerを提案する。
我々のAO-Plannerは、様々な基礎モデルを統合して、アベイランス指向の低レベルな動き計画とハイレベルな意思決定を実現する。
挑戦的なR2R-CEデータセットとRxR-CEデータセットの実験は、AO-Plannerが最先端のゼロショットのパフォーマンスを達成したことを示している。
論文 参考訳(メタデータ) (2024-07-08T12:52:46Z) - NavCoT: Boosting LLM-Based Vision-and-Language Navigation via Learning Disentangled Reasoning [97.88246428240872]
Embodied AIの重要な研究課題であるVision-and-Language Navigation (VLN)は、自然言語の指示に従って複雑な3D環境をナビゲートするために、エンボディエージェントを必要とする。
近年の研究では、ナビゲーションの推論精度と解釈可能性を改善することにより、VLNにおける大きな言語モデル(LLM)の有望な能力を強調している。
本稿では,自己誘導型ナビゲーション決定を実現するために,パラメータ効率の高いドメイン内トレーニングを実現する,Navigational Chain-of-Thought (NavCoT) という新しい戦略を提案する。
論文 参考訳(メタデータ) (2024-03-12T07:27:02Z) - CorNav: Autonomous Agent with Self-Corrected Planning for Zero-Shot Vision-and-Language Navigation [73.78984332354636]
CorNavは視覚・言語ナビゲーションのための新しいゼロショットフレームワークである。
将来の計画の見直しや行動調整のための環境フィードバックが組み込まれている。
ゼロショットマルチタスク設定ですべてのベースラインを一貫して上回る。
論文 参考訳(メタデータ) (2023-06-17T11:44:04Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。