論文の概要: STRIDER: Navigation via Instruction-Aligned Structural Decision Space Optimization
- arxiv url: http://arxiv.org/abs/2511.00033v1
- Date: Mon, 27 Oct 2025 04:37:21 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-11-05 16:37:26.526788
- Title: STRIDER: Navigation via Instruction-Aligned Structural Decision Space Optimization
- Title(参考訳): STRIDER: 指示適応型構造決定空間最適化によるナビゲーション
- Authors: Diqi He, Xuehao Gao, Hao Li, Junwei Han, Dingwen Zhang,
- Abstract要約: VLN-CEタスクでは、エージェントはシーン固有のトレーニングなしで自然言語命令を使用して3D環境をナビゲートする必要がある。
既存の方法は、構造化された意思決定の欠如と、以前の行動からのフィードバックの不十分な統合のために、堅牢なナビゲーションを達成できないことが多い。
STRIDERは,空間配置先と動的タスクフィードバックを統合し,エージェントの決定空間を体系的に最適化する新しいフレームワークである。
提案手法では,1)空間構造を介して行動空間を制約する構造的ウェイポイントジェネレータ,2)タスクの進行に応じて行動を調整するタスク調整レギュレータ,そしてナビゲーション全体を通して意味的アライメントを確保する。
- 参考スコア(独自算出の注目度): 73.98141357780032
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: The Zero-shot Vision-and-Language Navigation in Continuous Environments (VLN-CE) task requires agents to navigate previously unseen 3D environments using natural language instructions, without any scene-specific training. A critical challenge in this setting lies in ensuring agents' actions align with both spatial structure and task intent over long-horizon execution. Existing methods often fail to achieve robust navigation due to a lack of structured decision-making and insufficient integration of feedback from previous actions. To address these challenges, we propose STRIDER (Instruction-Aligned Structural Decision Space Optimization), a novel framework that systematically optimizes the agent's decision space by integrating spatial layout priors and dynamic task feedback. Our approach introduces two key innovations: 1) a Structured Waypoint Generator that constrains the action space through spatial structure, and 2) a Task-Alignment Regulator that adjusts behavior based on task progress, ensuring semantic alignment throughout navigation. Extensive experiments on the R2R-CE and RxR-CE benchmarks demonstrate that STRIDER significantly outperforms strong SOTA across key metrics; in particular, it improves Success Rate (SR) from 29% to 35%, a relative gain of 20.7%. Such results highlight the importance of spatially constrained decision-making and feedback-guided execution in improving navigation fidelity for zero-shot VLN-CE.
- Abstract(参考訳): Zero-shot Vision-and-Language Navigation in Continuous Environments (VLN-CE)タスクでは、エージェントは、シーン固有のトレーニングなしで、自然言語命令を使用して、これまで見られなかった3D環境をナビゲートする必要がある。
この設定における重要な課題は、エージェントの行動が長距離実行よりも空間構造とタスク意図の両方に一致することである。
既存の方法は、構造化された意思決定の欠如と、以前の行動からのフィードバックの不十分な統合のために、堅牢なナビゲーションを達成できないことが多い。
これらの課題に対処するため,STRIDER(Instruction-Aligned Structure Decision Space Optimization)を提案する。
このアプローチには2つの重要なイノベーションがあります。
1)空間構造を介して行動空間を制約する構造的ウェイポイント発生器
2)タスク進捗に基づいて動作を調整するタスクアライメントレギュレータ。
R2R-CEとRxR-CEのベンチマークによる大規模な実験では、STRIDERは主要な指標でSOTAを著しく上回り、特に成功率(SR)を29%から35%に改善し、20.7%の相対的な上昇を示した。
これらの結果は,ゼロショットVLN-CEにおけるナビゲーション忠実度向上における空間的制約付き意思決定とフィードバック誘導実行の重要性を強調した。
関連論文リスト
- GC-VLN: Instruction as Graph Constraints for Training-free Vision-and-Language Navigation [61.34589819350429]
視覚・言語ナビゲーション(VLN)のための学習自由フレームワークを提案する。
本フレームワークは,指示を明示的な空間的制約に分解することで,グラフ制約最適化としてナビゲーションガイダンスを定式化する。
我々のフレームワークは、新しい環境や命令セットに効果的に一般化することができ、より堅牢で自律的なナビゲーションフレームワークへの道を開くことができる。
論文 参考訳(メタデータ) (2025-09-12T17:59:58Z) - DAgger Diffusion Navigation: DAgger Boosted Diffusion Policy for Vision-Language Navigation [73.80968452950854]
Vision-Language Navigation in Continuous Environments (VLN-CE) は、エージェントが自由形式の3D空間を通して自然言語の指示に従う必要がある。
既存のVLN-CEアプローチは通常、2段階のウェイポイント計画フレームワークを使用する。
本稿では,エンドツーエンド最適化VLN-CEポリシとしてDAgger Diffusion Navigation (DifNav)を提案する。
論文 参考訳(メタデータ) (2025-08-13T02:51:43Z) - Breaking Down and Building Up: Mixture of Skill-Based Vision-and-Language Navigation Agents [43.5771856761934]
VLN(Vision-and-Language Navigation)は、自然言語命令を解釈し、複雑な3D環境をナビゲートするエージェントにとって大きな課題となる。
トランスフォーマーベースのVLNエージェントに構造化されたスキルベースの推論を導入するモジュラーフレームワークであるSkillNavを提案する。
論文 参考訳(メタデータ) (2025-08-11T05:50:30Z) - Generating Vision-Language Navigation Instructions Incorporated Fine-Grained Alignment Annotations [4.483463511271561]
Vision-Language Navigation (VLN)は、視覚認識と自然言語命令を統合することで、インテリジェントエージェントが環境をナビゲートすることを可能にする。
既存のデータセットは、主にグローバルな命令-軌道マッチング、サブインストラクションレベルとエンティティレベルのアライメントを無視している。
FCA-NIGは2段階の微粒なクロスモーダルアノテーションでナビゲーション命令を自動生成するフレームワークである。
論文 参考訳(メタデータ) (2025-06-10T08:36:51Z) - Cog-GA: A Large Language Models-based Generative Agent for Vision-Language Navigation in Continuous Environments [19.818370526976974]
VLN-CE(Vision Language Navigation in Continuous Environments)は、AIのフロンティアである。
本稿では,VLN-CEタスクに適した大規模言語モデル(LLM)に基づく生成エージェントであるCog-GAを紹介する。
Cog-GAは、人間のような認知過程をエミュレートするための二重戦略を採用している。
論文 参考訳(メタデータ) (2024-09-04T08:30:03Z) - NavCoT: Boosting LLM-Based Vision-and-Language Navigation via Learning Disentangled Reasoning [97.88246428240872]
Embodied AIの重要な研究課題であるVision-and-Language Navigation (VLN)は、自然言語の指示に従って複雑な3D環境をナビゲートするために、エンボディエージェントを必要とする。
近年の研究では、ナビゲーションの推論精度と解釈可能性を改善することにより、VLNにおける大きな言語モデル(LLM)の有望な能力を強調している。
本稿では,自己誘導型ナビゲーション決定を実現するために,パラメータ効率の高いドメイン内トレーニングを実現する,Navigational Chain-of-Thought (NavCoT) という新しい戦略を提案する。
論文 参考訳(メタデータ) (2024-03-12T07:27:02Z) - CorNav: Autonomous Agent with Self-Corrected Planning for Zero-Shot Vision-and-Language Navigation [73.78984332354636]
CorNavは視覚・言語ナビゲーションのための新しいゼロショットフレームワークである。
将来の計画の見直しや行動調整のための環境フィードバックが組み込まれている。
ゼロショットマルチタスク設定ですべてのベースラインを一貫して上回る。
論文 参考訳(メタデータ) (2023-06-17T11:44:04Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。