論文の概要: P$^{3}$Nav: End-to-End Perception, Prediction and Planning for Vision-and-Language Navigation
- arxiv url: http://arxiv.org/abs/2603.17459v1
- Date: Wed, 18 Mar 2026 08:04:53 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-03-21 18:33:56.943216
- Title: P$^{3}$Nav: End-to-End Perception, Prediction and Planning for Vision-and-Language Navigation
- Title(参考訳): P$^{3}$Nav:視覚・言語ナビゲーションのエンドツーエンド認識・予測・計画
- Authors: Tianfu Li, Wenbo Chen, Haoxuan Xu, Xinhu Zheng, Haoang Li,
- Abstract要約: Vision-and-Language Navigation (VLN)では、エージェントが言語命令によって指定されたターゲットへのパスを計画する必要がある。
P$3$Navは、知覚、予測、計画を統合する新しいエンドツーエンドフレームワークである。
私たちのP$3$Navは、REVERIE、R2R-CE、RxR-CEベンチマーク上で、最先端のパフォーマンスを実現しています。
- 参考スコア(独自算出の注目度): 13.099221563885806
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: In Vision-and-Language Navigation (VLN), an agent is required to plan a path to the target specified by the language instruction, using its visual observations. Consequently, prevailing VLN methods primarily focus on building powerful planners through visual-textual alignment. However, these approaches often bypass the imperative of comprehensive scene understanding prior to planning, leaving the agent with insufficient perception or prediction capabilities. Thus, we propose P$^{3}$Nav, a novel end-to-end framework integrating perception, prediction, and planning in a unified pipeline to strengthen the VLN agent's scene understanding and boost navigation success. Specifically, P$^{3}$Nav augments perception by extracting complementary cues from object-level and map-level perspectives. Subsequently, our P$^{3}$Nav predicts waypoints to model the agent's potential future states, endowing the agent with intrinsic awareness of candidate positions during navigation. Conditioned on these future waypoints, P$^{3}$Nav further forecasts semantic map cues, enabling proactive planning and reducing the strict reliance on purely historical context. Integrating these perceptual and predictive cues, a holistic planning module finally carries out the VLN tasks. Extensive experiments demonstrate that our P$^{3}$Nav achieves new state-of-the-art performance on the REVERIE, R2R-CE, and RxR-CE benchmarks.
- Abstract(参考訳): VLN(Vision-and-Language Navigation)では、エージェントがその視覚的観察を用いて、言語命令によって指定されたターゲットへの経路を計画する必要がある。
結果として、VLNの一般的な手法は、視覚とテキストのアライメントによる強力なプランナーの構築に重点を置いている。
しかし、これらのアプローチは計画に先立って総合的なシーン理解の衝動を回避し、エージェントには認識や予測能力が不足している。
そこで我々は,VLNエージェントのシーン理解を強化し,ナビゲーション成功を促進するために,認識,予測,計画を統合した新しいエンドツーエンドフレームワークであるP$^{3}$Navを提案する。
具体的には、P$^{3}$Navは、オブジェクトレベルとマップレベルの観点から補完的な手がかりを抽出することによって知覚を増強する。
その後、我々のP$^{3}$Navは、エージェントの潜在的な将来の状態をモデル化するためのウェイポイントを予測する。
P$^{3}$Navは、これらの将来の道程を条件に、意味マップのキューを更に予測し、プロアクティブな計画を可能にし、純粋に歴史的文脈への厳密な依存を減らす。
これらの知覚的および予測的キューを統合することで、全体計画モジュールが最終的にVLNタスクを実行する。
我々のP$^{3}$Navは、REVERIE、R2R-CE、RxR-CEベンチマークで新しい最先端性能を実現している。
関連論文リスト
- AgentVLN: Towards Agentic Vision-and-Language Navigation [78.739525400071]
VLN (Vision-and-Language Navigation) は、複雑な自然言語命令を、見えない環境での長距離ナビゲーションに接地するために、エンボディエージェントを必要とする。
本稿では,エッジコンピューティングプラットフォーム上に展開可能な,新規かつ効率的なナビゲーションフレームワークであるAgentVLNを提案する。
論文 参考訳(メタデータ) (2026-03-18T12:43:47Z) - NavForesee: A Unified Vision-Language World Model for Hierarchical Planning and Dual-Horizon Navigation Prediction [12.352236127154761]
本稿では,高レベル言語計画と予測的世界モデルイマジネーションを統合するビジョン・ランゲージ・モデル(VLM)について紹介する。
我々のアプローチでは、単一のVLMが同時に計画と予測の監視を行うことができる。
私たちの研究は、暗黙の時間的予測で明示的な言語計画を融合させ、よりインテリジェントで有能なエンボディエージェントの道を開く、という大きな可能性を浮き彫りにしています。
論文 参考訳(メタデータ) (2025-12-01T11:24:16Z) - DAgger Diffusion Navigation: DAgger Boosted Diffusion Policy for Vision-Language Navigation [73.80968452950854]
Vision-Language Navigation in Continuous Environments (VLN-CE) は、エージェントが自由形式の3D空間を通して自然言語の指示に従う必要がある。
既存のVLN-CEアプローチは通常、2段階のウェイポイント計画フレームワークを使用する。
本稿では,エンドツーエンド最適化VLN-CEポリシとしてDAgger Diffusion Navigation (DifNav)を提案する。
論文 参考訳(メタデータ) (2025-08-13T02:51:43Z) - PRET: Planning with Directed Fidelity Trajectory for Vision and Language Navigation [30.710806048991923]
視覚と言語ナビゲーションは、エージェントが自然言語の指示に従ってナビゲートする必要があるタスクである。
近年の手法では、各ステップで構築されたトポロジーマップのサブゴールを予測し、長期的な行動計画を可能にする。
本稿では,指示と指向性軌道のアライメントを考慮し,ナビゲーション計画を容易にする方法を提案する。
論文 参考訳(メタデータ) (2024-07-16T08:22:18Z) - Affordances-Oriented Planning using Foundation Models for Continuous Vision-Language Navigation [64.84996994779443]
本稿では,連続視覚言語ナビゲーション(VLN)タスクのためのAffordances-Oriented Plannerを提案する。
我々のAO-Plannerは、様々な基礎モデルを統合して、アベイランス指向の低レベルな動き計画とハイレベルな意思決定を実現する。
挑戦的なR2R-CEデータセットとRxR-CEデータセットの実験は、AO-Plannerが最先端のゼロショットのパフォーマンスを達成したことを示している。
論文 参考訳(メタデータ) (2024-07-08T12:52:46Z) - Improving Vision-and-Language Navigation by Generating Future-View Image
Semantics [96.8435716885159]
VLN(Vision-and-Language Navigation)は、自然言語命令に基づいてエージェントが環境をナビゲートする必要があるタスクである。
エージェントのドメイン内事前トレーニングにおける3つのプロキシタスクを提案する: Masked Panorama Modeling (MPM)、 Masked Trajectory Modeling (MTM)、Action Prediction with Image Generation (APIG)。
次に、VLNタスク上のエージェントを補助的損失で微調整し、エージェントが生成するビューセマンティクスと次のステップのグラウンド真実ビューセマンティクスとの差を最小限に抑える。
論文 参考訳(メタデータ) (2023-04-11T00:36:02Z) - BEVBert: Multimodal Map Pre-training for Language-guided Navigation [75.23388288113817]
視覚・言語ナビゲーション(VLN)における空間認識型マップベース事前学習パラダイムを提案する。
我々は,グローバルなトポロジカルマップにおけるナビゲーション依存性をモデル化しながら,不完全な観測を明示的に集約し,重複を取り除くための局所距離マップを構築した。
ハイブリッドマップをベースとして,マルチモーダルマップ表現を学習するための事前学習フレームワークを考案し,空間認識型クロスモーダル推論を強化し,言語誘導ナビゲーションの目標を導出する。
論文 参考訳(メタデータ) (2022-12-08T16:27:54Z) - Predicting Dense and Context-aware Cost Maps for Semantic Robot
Navigation [35.45993685414002]
本研究では,対象がセマンティックラベルで指定された未知環境における目標ナビゲーションの課題について検討する。
本稿では,意味的コンテキストを暗黙的に含む高コストマップを予測するために,ディープニューラルネットワークアーキテクチャとロス関数を提案する。
また、コストマップ予測のためのセマンティックなヒントを提供するために、アーキテクチャに中間レベルの視覚表現を融合する新しい方法を提案する。
論文 参考訳(メタデータ) (2022-10-17T11:43:19Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。