論文の概要: NavOne: One-Step Global Planning for Vision-Language Navigation on Top-Down Maps
- arxiv url: http://arxiv.org/abs/2605.06317v2
- Date: Fri, 08 May 2026 03:00:23 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-05-11 16:31:23.137977
- Title: NavOne: One-Step Global Planning for Vision-Language Navigation on Top-Down Maps
- Title(参考訳): NavOne:トップダウンマップ上での視覚言語ナビゲーションのためのワンステップグローバルプランニング
- Authors: Dijia Zhan, Jinyi Li, Chenxi Zheng, Shaoyu Huang, Yong Li, Jie Tang, Xuemiao Xu,
- Abstract要約: 構築したトップダウンマップ上での1ステップのグローバルパス計画問題としてナビゲーションを再構成したトップダウンVLNを提案する。
NavOneは、単一のエンドツーエンドのフォワードパスにおいて、マルチモーダルマップ上での高密度パス確率を直接予測する統合フレームワークである。
NavOneは、マップベースのVLNメソッドの最先端のパフォーマンスを実現し、既存のマップベースのベースラインの8倍、エゴセントリックなメソッドの80倍のステージスピードアップを実現している。
- 参考スコア(独自算出の注目度): 28.730617570877317
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Existing Vision-Language Navigation (VLN) methods typically adopt an egocentric, step-by-step paradigm, which struggles with error accumulation and limits efficiency. While recent approaches attempt to leverage pre-built environment maps, they often rely on incrementally updating memory graphs or scoring discrete path proposals, which restricts continuous spatial reasoning and creates discrete bottlenecks. We propose Top-Down VLN (TD-VLN), reformulating navigation as a one-step global path planning problem on pre-built top-down maps, supported by our newly constructed R2R-TopDown dataset. To solve this, we introduce NavOne, a unified framework that directly predicts dense path probabilities over multi-modal maps in a single end-to-end forward pass. NavOne features a Top-Down Map Fuser for joint multi-modal map representation, and extends Attention Residuals for spatial-aware depth mixing. Extensive experiments on R2R-TopDown show that NavOne achieves state-of-the-art performance among map-based VLN methods, with a planning-stage speedup of 8x over existing map-based baselines and 80x over egocentric methods, enabling highly efficient global navigation.
- Abstract(参考訳): 既存のVLN(Vision-Language Navigation)メソッドは一般的に、エラーの蓄積と効率の制限に苦労する、エゴセントリックでステップバイステップのパラダイムを採用する。
最近のアプローチでは、事前に構築された環境マップを活用しようとしているが、メモリグラフの漸進的な更新や、連続的な空間的推論を制限し、離散的なボトルネックを生み出す離散的なパス提案の収集に頼っていることが多い。
提案するTop-Down VLN(TD-VLN)は,新たに構築したR2R-TopDownデータセットによって支援された,事前構築されたトップダウンマップ上での1ステップのグローバルパス計画問題である。
この問題を解決するために、単一エンドツーエンドのフォワードパスにおいて、マルチモーダルマップ上での高密度パス確率を直接予測する統一フレームワークであるNavOneを紹介した。
NavOneは、共同マルチモーダルマップ表現のためのTop-Down Map Fuserを備え、空間認識深度混合のためのAttention Residualsを拡張している。
R2R-TopDownの大規模な実験によると、NavOneはマップベースのVLN手法の最先端性能を実現し、既存のマップベースのベースラインを8倍、エゴセントリックな手法を80倍高速化し、高度に効率的なグローバルナビゲーションを実現している。
関連論文リスト
- NaviFormer: A Deep Reinforcement Learning Transformer-like Model to Holistically Solve the Navigation Problem [53.70554593151033]
NaviFormerは、高レベル経路と低レベル軌道の両方を予測することによって、グローバルナビゲーション問題を解決する深層強化学習モデルである。
結果は,各サブプロブレムの制約や難易度を理解することができるため,NaviFormerの競合精度を示す。
計算速度が優れていることは、リアルタイムのミッションに適していることを証明している。
論文 参考訳(メタデータ) (2026-04-18T11:32:34Z) - Beyond Matching to Tiles: Bridging Unaligned Aerial and Satellite Views for Vision-Only UAV Navigation [51.286599397552756]
本稿では,UAVの絶対位置と近距離からの進路を共同で予測する視覚駆動型クロスビューナビゲーション手法であるBering-UAVを提案する。
我々はまた、クロスビューのローカライゼーションとナビゲーションを評価するベンチマークである Bearing-UAV-90k も提示する。
論文 参考訳(メタデータ) (2026-03-23T16:17:39Z) - FloorPlan-VLN: A New Paradigm for Floor Plan Guided Vision-Language Navigation [17.1490555684021]
既存の言語ナビゲーション(VLN)タスクは、エージェントが命令に従う必要がある。
本稿では,bfFloorPlan-VLNを提案する。bfFloorPlan-VLNは,構造的なフロアプランをグローバル空間先行として活用し,簡潔な指示だけでナビゲーションを可能にする新しいパラダイムである。
論文 参考訳(メタデータ) (2026-03-18T07:22:48Z) - ReasonNavi: Human-Inspired Global Map Reasoning for Zero-Shot Embodied Navigation [53.95797153529148]
身体的エージェントは、主に部分的な自我中心の観測に依存するため、効率的なナビゲーションに苦しむことが多い。
本稿では,マルチモーダル大規模言語モデル(MLLM)と決定論的プランナを結合することにより,この理由に基づくパラダイムを運用する,人間にインスパイアされたフレームワークであるReasonNaviを紹介する。
論文 参考訳(メタデータ) (2026-01-26T19:09:20Z) - DAgger Diffusion Navigation: DAgger Boosted Diffusion Policy for Vision-Language Navigation [73.80968452950854]
Vision-Language Navigation in Continuous Environments (VLN-CE) は、エージェントが自由形式の3D空間を通して自然言語の指示に従う必要がある。
既存のVLN-CEアプローチは通常、2段階のウェイポイント計画フレームワークを使用する。
本稿では,エンドツーエンド最適化VLN-CEポリシとしてDAgger Diffusion Navigation (DifNav)を提案する。
論文 参考訳(メタデータ) (2025-08-13T02:51:43Z) - BEVBert: Multimodal Map Pre-training for Language-guided Navigation [75.23388288113817]
視覚・言語ナビゲーション(VLN)における空間認識型マップベース事前学習パラダイムを提案する。
我々は,グローバルなトポロジカルマップにおけるナビゲーション依存性をモデル化しながら,不完全な観測を明示的に集約し,重複を取り除くための局所距離マップを構築した。
ハイブリッドマップをベースとして,マルチモーダルマップ表現を学習するための事前学習フレームワークを考案し,空間認識型クロスモーダル推論を強化し,言語誘導ナビゲーションの目標を導出する。
論文 参考訳(メタデータ) (2022-12-08T16:27:54Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。