論文の概要: Trajectory-Diversity-Driven Robust Vision-and-Language Navigation
- arxiv url: http://arxiv.org/abs/2603.15370v1
- Date: Mon, 16 Mar 2026 14:46:54 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-03-17 18:28:58.502963
- Title: Trajectory-Diversity-Driven Robust Vision-and-Language Navigation
- Title(参考訳): トラジェクティブ・ダイバーシティ駆動型ロバスト・ビジョン・アンド・ランゲージナビゲーション
- Authors: Jiangyang Li, Cong Wan, SongLin Dong, Chenhao Ding, Qiang Wang, Zhiheng Ma, Yihong Gong,
- Abstract要約: VLN(Vision-and-Language Navigation)は、自然言語の指示に従い、エージェントがフォトリアリスティックな環境をナビゲートする必要がある。
目標指向ナビゲーションポリシを学習する強化学習フレームワークであるNavGRPOを提案する。
ベースラインよりも+14.89%のSPL向上を示し、目標指向のRLトレーニングがより堅牢なナビゲーションポリシーを構築することを確認した。
- 参考スコア(独自算出の注目度): 39.4949197412916
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Vision-and-Language Navigation (VLN) requires agents to navigate photo-realistic environments following natural language instructions. Current methods predominantly rely on imitation learning, which suffers from limited generalization and poor robustness to execution perturbations. We present NavGRPO, a reinforcement learning framework that learns goal-directed navigation policies through Group Relative Policy Optimization. By exploring diverse trajectories and optimizing via within-group performance comparisons, our method enables agents to distinguish effective strategies beyond expert paths without requiring additional value networks. Built on ScaleVLN, NavGRPO achieves superior robustness on R2R and REVERIE benchmarks with +3.0% and +1.71% SPL improvements in unseen environments. Under extreme early-stage perturbations, we demonstrate +14.89% SPL gain over the baseline, confirming that goal-directed RL training builds substantially more robust navigation policies. Code and models will be released.
- Abstract(参考訳): VLN(Vision-and-Language Navigation)は、自然言語の指示に従い、エージェントがフォトリアリスティックな環境をナビゲートする必要がある。
現在の手法は主に模倣学習に依存しており、それは限定的な一般化と実行摂動に対する頑健さに悩まされている。
グループ相対政策最適化を通じて目標指向ナビゲーションポリシーを学習する強化学習フレームワークであるNavGRPOを提案する。
多様なトラジェクトリを探索し,グループ内性能比較による最適化を行うことにより,エージェントは付加価値ネットワークを必要とせずに,専門家パスを超えた効果的な戦略を識別することができる。
ScaleVLN上に構築されたNavGRPOは、R2RとREVERIEベンチマークにおいて、見知らぬ環境で+3.0%と+1.71%のSPL改善を達成している。
極度の初期段階の摂動の下では、ベースラインを+14.89%のSPLが上回り、目標指向のRL訓練がより堅牢なナビゲーションポリシーを構築することを確認した。
コードとモデルはリリースされる。
関連論文リスト
- Learning to Retrieve Navigable Candidates for Efficient Vision-and-Language Navigation [15.242490558864626]
VLN(Vision-and-Language Navigation)は、エージェントが自然言語の指示に従い、これまで見えなかった環境をナビゲートする必要がある。
本稿では,基礎となる言語モデルの変更や微調整を行うことなく,VLNを改善するための検索拡張フレームワークを提案する。
論文 参考訳(メタデータ) (2026-02-17T17:00:11Z) - SeeNav-Agent: Enhancing Vision-Language Navigation with Visual Prompt and Step-Level Policy Optimization [32.785475974900244]
既存のVision-Language Navigation (VLN)エージェントは、しばしば認識エラー、推論エラー、計画エラーに悩まされる。
これらの制限に対処するため、SeeNav-Agentという新しいVLNエージェントフレームワークが提案されている。
Step Reward Group Policy Optimization (SRGPO) は、VLNエージェントのポストトレーニング用に設計されている。
論文 参考訳(メタデータ) (2025-12-02T10:40:46Z) - ActiveVLN: Towards Active Exploration via Multi-Turn RL in Vision-and-Language Navigation [57.399685080574756]
既存のMLLMベースのVLNメソッドは模倣学習(IL)に依存しており、ポストトレーニングにDAggerを使用することが多い。
マルチターンRLによるアクティブな探索を可能にするVLNフレームワークであるActiveVLNを提案する。
実験の結果,ActiveVLN は DAgger ベースと RL ベースのポストトレーニング手法と比較して,IL ベースラインよりも最大の性能向上を実現していることがわかった。
論文 参考訳(メタデータ) (2025-09-16T03:31:46Z) - DAgger Diffusion Navigation: DAgger Boosted Diffusion Policy for Vision-Language Navigation [73.80968452950854]
Vision-Language Navigation in Continuous Environments (VLN-CE) は、エージェントが自由形式の3D空間を通して自然言語の指示に従う必要がある。
既存のVLN-CEアプローチは通常、2段階のウェイポイント計画フレームワークを使用する。
本稿では,エンドツーエンド最適化VLN-CEポリシとしてDAgger Diffusion Navigation (DifNav)を提案する。
論文 参考訳(メタデータ) (2025-08-13T02:51:43Z) - VLN-R1: Vision-Language Navigation via Reinforcement Fine-Tuning [77.34267241692706]
Vision-Language Navigation(VLN)は、エージェントが自然言語命令を使用して現実世界の環境をナビゲートする必要がある、AIの実施における中核的な課題である。
本稿では、LVLM(Large Vision-Language Models)を利用して、エゴセントリックな動画ストリームを連続的なナビゲーションアクションに変換するエンドツーエンドフレームワークであるVLN-R1を提案する。
論文 参考訳(メタデータ) (2025-06-20T17:59:59Z) - NavCoT: Boosting LLM-Based Vision-and-Language Navigation via Learning Disentangled Reasoning [97.88246428240872]
Embodied AIの重要な研究課題であるVision-and-Language Navigation (VLN)は、自然言語の指示に従って複雑な3D環境をナビゲートするために、エンボディエージェントを必要とする。
近年の研究では、ナビゲーションの推論精度と解釈可能性を改善することにより、VLNにおける大きな言語モデル(LLM)の有望な能力を強調している。
本稿では,自己誘導型ナビゲーション決定を実現するために,パラメータ効率の高いドメイン内トレーニングを実現する,Navigational Chain-of-Thought (NavCoT) という新しい戦略を提案する。
論文 参考訳(メタデータ) (2024-03-12T07:27:02Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。