論文の概要: P2DNav: Panorama-to-Downview Reasoning for Zero-shot Vision-and-Language Navigation
- arxiv url: http://arxiv.org/abs/2605.19634v1
- Date: Tue, 19 May 2026 10:18:46 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-05-20 15:03:09.275774
- Title: P2DNav: Panorama-to-Downview Reasoning for Zero-shot Vision-and-Language Navigation
- Title(参考訳): P2DNav:Zero-shot Vision-and-Language Navigationのためのパノラマ・ツー・ダウンビュー推論
- Authors: Kai Sheng, Liuyi Wang, Haojie Dai, Jinlong Li, Yongrui Qin, Zongtao He, Chengju Liu, Qijun Chen,
- Abstract要約: P2DNavはゼロショット視覚言語ナビゲーションのための階層的なフレームワークである。
P2DNavはPanorama-to-Downview (P2D), Sliding-Window Dialogue Memory (SDM), Reflective Reorientation Mechanism (RRM)の3つのコアコンポーネントで構成されている。
- 参考スコア(独自算出の注目度): 30.45812977392826
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Vision-and-language navigation (VLN) requires an embodied agent to ground natural-language instructions into executable navigation actions in unseen environments. Existing zero-shot methods typically rely on additional waypoint prediction modules, which often entangle high-level directional reasoning with fine-grained local grounding, leading to error-prone and unstable decisions. In this paper, we propose P2DNav, a hierarchical framework for zero-shot vision-and-language navigation. P2DNav consists of three core components: Panorama-to-Downview (P2D), Sliding-Window Dialogue Memory (SDM), and Reflective Reorientation Mechanism (RRM). P2D explicitly decomposes navigation decision-making into two stages: panoramic direction selection and downview local grounding. It first selects the instruction-relevant direction from a 360° panorama, and then predicts a pixel-level target point from the downview RGB observation in that direction. In addition, SDM organizes navigation history as a multi-turn dialogue context and maintains recent visual observations within a sliding window to support long-horizon navigation. RRM further enables reflective reorientation by assessing the reliability of local grounding based on the downview observation and returning to panoramic direction selection when necessary. Experiments on the R2R-CE benchmark show that P2DNav achieves strong performance among zero-shot methods. In particular, compared with the state-of-the-art (SOTA) zero-shot waypoint-based and waypoint-free methods, P2DNav achieves SR gains of 146.6% and 58.9%, respectively, demonstrating the effectiveness of P2D, SDM, and RRM for zero-shot VLN. Code will be released for public use.
- Abstract(参考訳): VLN(Vision-and-Language Navigation)は、自然言語による指示を、目に見えない環境で実行可能なナビゲーションアクションに固定するために、エンボディエージェントを必要とする。
既存のゼロショット法は、通常追加のウェイポイント予測モジュールに依存しており、しばしば高レベルな方向推論をきめ細かな局所的な根拠と絡めて、エラーを起こし不安定な決定を下す。
本稿では,ゼロショット視覚・言語ナビゲーションのための階層型フレームワークであるP2DNavを提案する。
P2DNavはPanorama-to-Downview (P2D), Sliding-Window Dialogue Memory (SDM), Reflective Reorientation Mechanism (RRM)の3つのコアコンポーネントで構成されている。
P2Dは航法決定をパノラマ方向選択とダウンビュー局所接地という2つの段階に明確に分解する。
まず、360度パノラマから命令関連方向を選択し、その方向のダウンビューRGB観測から画素レベルの目標点を予測する。
さらに、SDMは、ナビゲーション履歴をマルチターン対話コンテキストとして整理し、スライディングウィンドウ内での最近の視覚的観察を維持し、長距離ナビゲーションをサポートする。
RRMは、ダウンビュー観測に基づいて局所グラウンドの信頼性を評価し、必要に応じてパノラマ方向選択に戻すことにより、反射的再配向を可能にする。
R2R-CEベンチマークの実験により、P2DNavはゼロショット法で強い性能を発揮することが示された。
特に、最先端(SOTA)のゼロショットウェイポイントベースとウェイポイントフリーの手法と比較して、P2DNavは、それぞれ146.6%と58.9%のSRゲインを達成し、ゼロショットVLNに対するP2D、SDM、RRMの有効性を実証している。
コードは一般公開される予定だ。
関連論文リスト
- DRIVE-Nav: Directional Reasoning, Inspection, and Verification for Efficient Open-Vocabulary Navigation [3.249609824556708]
DRIVE-Navは永続的な方向の探索を組織する構造化されたフレームワークである。
冗長なリビジョンを削減し、パス効率を向上させる。
HM3D-OVON、HM3Dv2、MP3Dの実験は、全体的な性能と一貫した効率向上を示す。
論文 参考訳(メタデータ) (2026-03-30T17:12:17Z) - DAgger Diffusion Navigation: DAgger Boosted Diffusion Policy for Vision-Language Navigation [73.80968452950854]
Vision-Language Navigation in Continuous Environments (VLN-CE) は、エージェントが自由形式の3D空間を通して自然言語の指示に従う必要がある。
既存のVLN-CEアプローチは通常、2段階のウェイポイント計画フレームワークを使用する。
本稿では,エンドツーエンド最適化VLN-CEポリシとしてDAgger Diffusion Navigation (DifNav)を提案する。
論文 参考訳(メタデータ) (2025-08-13T02:51:43Z) - SmartWay: Enhanced Waypoint Prediction and Backtracking for Zero-Shot Vision-and-Language Navigation [12.152477445938759]
連続環境におけるVLN(Vision-and-Language Navigation)は、制約のない3D空間をナビゲートしながら自然言語命令を解釈するエージェントを必要とする。
既存のVLN-CEフレームワークは、2段階のアプローチに依存している。
マルチモーダル大言語モデル(MLLM)に基づくナビゲータと拡張されたウェイポイント予測器を統合したゼロショットVLN-CEフレームワークを提案する。
論文 参考訳(メタデータ) (2025-03-13T05:32:57Z) - NavCoT: Boosting LLM-Based Vision-and-Language Navigation via Learning Disentangled Reasoning [97.88246428240872]
Embodied AIの重要な研究課題であるVision-and-Language Navigation (VLN)は、自然言語の指示に従って複雑な3D環境をナビゲートするために、エンボディエージェントを必要とする。
近年の研究では、ナビゲーションの推論精度と解釈可能性を改善することにより、VLNにおける大きな言語モデル(LLM)の有望な能力を強調している。
本稿では,自己誘導型ナビゲーション決定を実現するために,パラメータ効率の高いドメイン内トレーニングを実現する,Navigational Chain-of-Thought (NavCoT) という新しい戦略を提案する。
論文 参考訳(メタデータ) (2024-03-12T07:27:02Z) - LangNav: Language as a Perceptual Representation for Navigation [63.90602960822604]
視覚・言語ナビゲーション(VLN)における知覚表現としての言語の利用について検討する。
提案手法では,画像キャプションや物体検出に市販の視覚システムを用いて,エージェントのエゴセントリックなパノラマビューを各ステップで自然言語記述に変換する。
論文 参考訳(メタデータ) (2023-10-11T20:52:30Z) - ETPNav: Evolving Topological Planning for Vision-Language Navigation in
Continuous Environments [56.194988818341976]
視覚言語ナビゲーションは、エージェントが環境中をナビゲートするための指示に従う必要があるタスクである。
本研究では,1)環境を抽象化し,長距離航法計画を生成する能力,2)連続環境における障害物回避制御能力の2つの重要なスキルに焦点を当てたETPNavを提案する。
ETPNavは、R2R-CEとRxR-CEデータセットの先行技術よりも10%以上、20%改善されている。
論文 参考訳(メタデータ) (2023-04-06T13:07:17Z) - Reinforced Structured State-Evolution for Vision-Language Navigation [42.46176089721314]
ヴィジュアル・アンド・ランゲージ・ナビゲーション(VLN)タスクは、自然言語の指示に従って遠隔地へ移動するための実施エージェントを必要とする。
従来の手法は通常、シークエンスモデル(TransformerやLSTMなど)をナビゲータとして採用していた。
本稿では,VLNの環境レイアウトの手がかりを効果的に維持するために,構造化状態進化(SEvol)モデルを提案する。
論文 参考訳(メタデータ) (2022-04-20T07:51:20Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。