Fugu-MT 論文翻訳(概要): NavOne: One-Step Global Planning for Vision-Language Navigation on Top-Down Maps

論文の概要: NavOne: One-Step Global Planning for Vision-Language Navigation on Top-Down Maps

arxiv url: http://arxiv.org/abs/2605.06317v2
Date: Fri, 08 May 2026 03:00:23 GMT
ステータス: 翻訳完了
システム内更新日: 2026-05-11 16:31:23.137977
Title: NavOne: One-Step Global Planning for Vision-Language Navigation on Top-Down Maps
Title（参考訳）: NavOne:トップダウンマップ上での視覚言語ナビゲーションのためのワンステップグローバルプランニング
Authors: Dijia Zhan, Jinyi Li, Chenxi Zheng, Shaoyu Huang, Yong Li, Jie Tang, Xuemiao Xu,
Abstract要約: 構築したトップダウンマップ上での1ステップのグローバルパス計画問題としてナビゲーションを再構成したトップダウンVLNを提案する。 NavOneは、単一のエンドツーエンドのフォワードパスにおいて、マルチモーダルマップ上での高密度パス確率を直接予測する統合フレームワークである。 NavOneは、マップベースのVLNメソッドの最先端のパフォーマンスを実現し、既存のマップベースのベースラインの8倍、エゴセントリックなメソッドの80倍のステージスピードアップを実現している。
参考スコア（独自算出の注目度）: 28.730617570877317
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: Existing Vision-Language Navigation (VLN) methods typically adopt an egocentric, step-by-step paradigm, which struggles with error accumulation and limits efficiency. While recent approaches attempt to leverage pre-built environment maps, they often rely on incrementally updating memory graphs or scoring discrete path proposals, which restricts continuous spatial reasoning and creates discrete bottlenecks. We propose Top-Down VLN (TD-VLN), reformulating navigation as a one-step global path planning problem on pre-built top-down maps, supported by our newly constructed R2R-TopDown dataset. To solve this, we introduce NavOne, a unified framework that directly predicts dense path probabilities over multi-modal maps in a single end-to-end forward pass. NavOne features a Top-Down Map Fuser for joint multi-modal map representation, and extends Attention Residuals for spatial-aware depth mixing. Extensive experiments on R2R-TopDown show that NavOne achieves state-of-the-art performance among map-based VLN methods, with a planning-stage speedup of 8x over existing map-based baselines and 80x over egocentric methods, enabling highly efficient global navigation.
Abstract（参考訳）: 既存のVLN(Vision-Language Navigation)メソッドは一般的に、エラーの蓄積と効率の制限に苦労する、エゴセントリックでステップバイステップのパラダイムを採用する。最近のアプローチでは、事前に構築された環境マップを活用しようとしているが、メモリグラフの漸進的な更新や、連続的な空間的推論を制限し、離散的なボトルネックを生み出す離散的なパス提案の収集に頼っていることが多い。提案するTop-Down VLN(TD-VLN)は,新たに構築したR2R-TopDownデータセットによって支援された,事前構築されたトップダウンマップ上での1ステップのグローバルパス計画問題である。この問題を解決するために、単一エンドツーエンドのフォワードパスにおいて、マルチモーダルマップ上での高密度パス確率を直接予測する統一フレームワークであるNavOneを紹介した。 NavOneは、共同マルチモーダルマップ表現のためのTop-Down Map Fuserを備え、空間認識深度混合のためのAttention Residualsを拡張している。 R2R-TopDownの大規模な実験によると、NavOneはマップベースのVLN手法の最先端性能を実現し、既存のマップベースのベースラインを8倍、エゴセントリックな手法を80倍高速化し、高度に効率的なグローバルナビゲーションを実現している。

論文の概要: NavOne: One-Step Global Planning for Vision-Language Navigation on Top-Down Maps

関連論文リスト