論文の概要: Dual-Anchoring: Addressing State Drift in Vision-Language Navigation
- arxiv url: http://arxiv.org/abs/2604.17473v1
- Date: Sun, 19 Apr 2026 15:03:38 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-04-21 21:52:52.543353
- Title: Dual-Anchoring: Addressing State Drift in Vision-Language Navigation
- Title(参考訳): Dual-Anchoring:ビジョンランゲージナビゲーションにおける状態ドリフトの対応
- Authors: Kangyi Wu, Pengna Li, Kailin Lyu, Lin Zhao, Qingrong He, Jinjun Wang, Jianyi Liu,
- Abstract要約: VLN(Vision-Language Navigation)は、自然言語の指示に従うことで、エージェントが3D環境をナビゲートする必要がある。
最近のビデオ大言語モデル(Video-LLMs)は、主にVLNが進歩しているが、長いシナリオではState Driftの影響を受けやすい。
本稿では,命令の進行と履歴表現を明示的にアンロックするデュアル・アンチョリング・フレームワークを提案する。
- 参考スコア(独自算出の注目度): 16.424156408535637
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Vision-Language Navigation(VLN) requires an agent to navigate through 3D environments by following natural language instructions. While recent Video Large Language Models(Video-LLMs) have largely advanced VLN, they remain highly susceptible to State Drift in long scenarios. In these cases, the agent's internal state drifts away from the true task execution state, leading to aimless wandering and failure to execute essential maneuvers in the instruction. We attribute this failure to two distinct cognitive deficits: Progress Drift, where the agent fails to distinguish completed sub-goals from remaining ones, and Memory Drift, where the agent's history representations degrade, making it lose track of visited landmarks. In this paper, we propose a Dual-Anchoring Framework that explicitly anchors the instruction progress and history representations. First, to address progress drift, we introduce Instruction Progress Anchoring, which supervises the agent to generate structured text tokens that delineate completed versus remaining sub-goals. Second, to mitigate memory drift, we propose Memory Landmark Anchoring, which utilizes a Landmark-Centric World Model to retrospectively predict object-centric embeddings extracted by the Segment Anything Model, compelling the agent to explicitly verify past observations and preserve distinct representations of visited landmarks. Facilitating this framework, we curate two extensive datasets: 3.6 million samples with explicit progress descriptions, and 937k grounded landmark data for retrospective verification. Extensive experiments in both simulation and real-world environments demonstrate the superiority of our method, achieving a 15.2% improvement in Success Rate and a remarkable 24.7% gain on long-horizon trajectories. To facilitate further research, we will release our code, data generation pipelines, and the collected datasets.
- Abstract(参考訳): Vision-Language Navigation(VLN)は、自然言語の指示に従うことによって3D環境をナビゲートするエージェントを必要とする。
最近のビデオ大言語モデル(Video-LLMs)はVLNがほとんど進歩しているが、長いシナリオではState Driftの影響を受けやすい。
このような場合、エージェントの内部状態は真のタスク実行状態から逸脱し、目的のないさまよりと命令で不可欠な操作を実行するのに失敗する。
エージェントが完了したサブゴールと残りのゴールを区別できないプログレッシブ・ドリフトと、エージェントの履歴表現が劣化し、訪問したランドマークが失われるメモリ・ドリフトである。
本稿では,命令の進行と履歴表現を明示的にアンロックするデュアルアンチョリングフレームワークを提案する。
まず、プログレスドリフトに対応するために、インストラクションプログレスアンコリングを導入します。
第2に、メモリドリフトを緩和するために、ランドマーク中心の世界モデルを用いて、セグメント・エキシング・モデルによって抽出されたオブジェクト中心の埋め込みを振り返って予測するメモリランドマークアンカリングを提案し、エージェントに過去の観測を明示的に検証し、訪問したランドマークの異なる表現を保存するように促す。
このフレームワークを実現するために、明確な進捗記述を持つ360万のサンプルと、レトロスペクティブ検証のためのランドマークデータである937kという、2つの広範なデータセットをキュレートしました。
シミュレーションと実環境の両方における大規模な実験は、我々の手法の優位性を証明し、成功率を15.2%改善し、長距離軌道で24.7%向上した。
さらなる研究を容易にするため、コード、データ生成パイプライン、収集したデータセットをリリースします。
関連論文リスト
- ProgressVLA: Progress-Guided Diffusion Policy for Vision-Language Robotic Manipulation [57.07494675832939]
ロボット操作のための既存の視覚言語アクション(VLA)モデルは、進歩意識を欠いている。
本研究では,textbf vla という新しいモデルを提案し,タスク進捗の推定と統合について検討する。
CALVINとLIBEROベンチマークの実験は、実世界のロボットの展開とともに、成功率の大幅な改善を一貫して示している。
論文 参考訳(メタデータ) (2026-03-29T12:38:11Z) - History-Enhanced Two-Stage Transformer for Aerial Vision-and-Language Navigation [64.51891404034164]
Aerial Vision-and-Language Navigation (AVLN) は、大規模都市環境でターゲットをローカライズするために無人航空機(UAV)のエージェントを必要とする。
既存のUAVエージェントは通常、これらの2つの側面のバランスに苦しむ単粒度フレームワークを採用する。
この研究は、粗いナビゲーションパイプラインを通じて2つの側面を統合するヒストリ強化2段階トランスフォーマー(HETT)フレームワークを提案する。
論文 参考訳(メタデータ) (2025-12-16T09:16:07Z) - Boosting Zero-Shot VLN via Abstract Obstacle Map-Based Waypoint Prediction with TopoGraph-and-VisitInfo-Aware Prompting [18.325003967982827]
視覚言語ナビゲーション (VLN) は、広範囲に応用されたエージェントの具体化のための重要なタスクとして登場した。
マルチモーダル大言語モデル(MLLM)と簡易かつ効果的なウェイポイント予測器を統合したゼロショットフレームワークを提案する。
R2R-CE と RxR-CE の実験結果から,本手法は最先端のゼロショット性能を実現し,成功率は 41% と 36% であった。
論文 参考訳(メタデータ) (2025-09-24T19:21:39Z) - Move to Understand a 3D Scene: Bridging Visual Grounding and Exploration for Efficient and Versatile Embodied Navigation [54.04601077224252]
身近なシーン理解には、視覚空間情報の理解だけでなく、3D物理世界における次の探索場所の決定も必要である。
アンダーラインテキストbf3D視覚言語学習は、エンボディエージェントが環境を効果的に探索し理解することを可能にする。
モデルの汎用性は、カテゴリ、言語記述、参照イメージなど、多様な入力モダリティを使ったナビゲーションを可能にする。
論文 参考訳(メタデータ) (2025-07-05T14:15:52Z) - Mind the Gap: Improving Success Rate of Vision-and-Language Navigation
by Revisiting Oracle Success Routes [25.944819618283613]
Vision-and-Language Navigation (VLN) は、指定された命令に従うことで、ターゲットの場所へナビゲートすることを目的としている。
VLNの長年無視されてきた問題に対処する最初の試みは、成功率(SR)とOracle成功率(OSR)のギャップを狭めることです。
論文 参考訳(メタデータ) (2023-08-07T01:43:25Z) - Navya3DSeg -- Navya 3D Semantic Segmentation Dataset & split generation
for autonomous vehicles [63.20765930558542]
3Dセマンティックデータは、障害物検出やエゴ-車両の局所化といった中核的な認識タスクに有用である。
そこで我々は,大規模生産段階の運用領域に対応する多様なラベル空間を持つ新しいデータセットであるNavala 3D(Navya3DSeg)を提案する。
ラベルのない23のラベル付きシーケンスと25の補足シーケンスが含まれており、ポイントクラウド上の自己教師付きおよび半教師付きセマンティックセマンティックセグメンテーションベンチマークを探索するために設計された。
論文 参考訳(メタデータ) (2023-02-16T13:41:19Z) - Sub-Instruction Aware Vision-and-Language Navigation [46.99329933894108]
視覚と言語のナビゲーションには、エージェントが自然言語の指示に従って実際の3D環境をナビゲートする必要がある。
視覚的および言語的シーケンスの粒度、および命令の完了によるエージェントのトレーサビリティに焦点を当てる。
本稿では,1つのサブインストラクションを各タイミングで選択・参加する効果的なサブインストラクション・アテンション・アテンションとシフトモジュールを提案する。
論文 参考訳(メタデータ) (2020-04-06T14:44:53Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。