論文の概要: LongNav-R1: Horizon-Adaptive Multi-Turn RL for Long-Horizon VLA Navigation
- arxiv url: http://arxiv.org/abs/2602.12351v1
- Date: Thu, 12 Feb 2026 19:22:52 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-02-16 23:37:53.726271
- Title: LongNav-R1: Horizon-Adaptive Multi-Turn RL for Long-Horizon VLA Navigation
- Title(参考訳): LongNav-R1:Long-Horizon-Adaptive Multi-Turn RL for Long-Horizon VLA Navigation
- Authors: Yue Hu, Avery Xi, Qixin Xiao, Seth Isaacson, Henry X. Liu, Ram Vasudevan, Maani Ghaffari,
- Abstract要約: LongNav-R1はエンドツーエンドのマルチターン強化学習フレームワークである。
LongNav-R1は、ナビゲーション決定過程をVLAポリシーと実施環境との連続したマルチターン会話として再構成する。
- 参考スコア(独自算出の注目度): 20.927209769158395
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: This paper develops LongNav-R1, an end-to-end multi-turn reinforcement learning (RL) framework designed to optimize Visual-Language-Action (VLA) models for long-horizon navigation. Unlike existing single-turn paradigm, LongNav-R1 reformulates the navigation decision process as a continuous multi-turn conversation between the VLA policy and the embodied environment. This multi-turn RL framework offers two distinct advantages: i) it enables the agent to reason about the causal effects of historical interactions and sequential future outcomes; and ii) it allows the model to learn directly from online interactions, fostering diverse trajectory generation and avoiding the behavioral rigidity often imposed by human demonstrations. Furthermore, we introduce Horizon-Adaptive Policy Optimization. This mechanism explicitly accounts for varying horizon lengths during advantage estimation, facilitating accurate temporal credit assignment over extended sequences. Consequently, the agent develops diverse navigation behaviors and resists collapse during long-horizon tasks. Experiments on object navigation benchmarks validate the framework's efficacy: With 4,000 rollout trajectories, LongNav-R1 boosts the Qwen3-VL-2B success rate from 64.3% to 73.0%. These results demonstrate superior sample efficiency and significantly outperform state-of-the-art methods. The model's generalizability and robustness are further validated by its zero-shot performance in long-horizon real-world navigation settings. All source code will be open-sourced upon publication.
- Abstract(参考訳): 本稿では,LongNav-R1を開発した。LongNav-R1は,Long-Language-Action(VLA)モデルを長距離ナビゲーションに最適化するために設計された,エンドツーエンドのマルチターン強化学習(RL)フレームワークである。
既存のシングルターンパラダイムとは異なり、LongNav-R1はナビゲーション決定プロセスをVLAポリシーと実施環境の間の連続したマルチターンの会話として再構成する。
このマルチターンRLフレームワークには2つの利点がある。
一 エージェントが、歴史的相互作用及び逐次的将来の成果の因果効果を判断することができること。
二 モデルは、オンラインの相互作用から直接学習することができ、多様な軌道生成を育み、かつ、人間のデモンストレーションによってしばしば課される行動剛性を回避することができる。
さらに,Horizon-Adaptive Policy Optimizationを紹介する。
このメカニズムは、利点推定中に様々な水平線長を明示的に説明し、拡張シーケンスに対する正確な時間的クレジット割り当てを容易にする。
その結果、エージェントは多様なナビゲーションの振る舞いを発達させ、長時間の作業中に崩壊に抵抗する。
4000のロールアウト軌道により、LongNav-R1はQwen3-VL-2Bの成功率を64.3%から73.0%に向上させる。
これらの結果は, 試料効率が優れ, 最先端の手法よりも優れていた。
このモデルの一般化性と堅牢性は、長距離現実世界のナビゲーション設定におけるゼロショット性能によってさらに検証される。
すべてのソースコードは公開時にオープンソース化される。
関連論文リスト
- VLingNav: Embodied Navigation with Adaptive Reasoning and Visual-Assisted Linguistic Memory [43.2995099083993]
VLAモデルは、認識と計画を統合することで、航法を具現化する有望な可能性を示してきた。
既存のVLAモデルは、観察から行動へのリアクティブマッピングに直接依存している。
VLingNav(VLAモデル)を提案する。
論文 参考訳(メタデータ) (2026-01-13T15:43:43Z) - VLA-AN: An Efficient and Onboard Vision-Language-Action Framework for Aerial Navigation in Complex Environments [12.689250855332569]
VLA-ANは、複雑な環境での自律ドローンナビゲーションに特化したフレームワークである。
既存の大型航法モデルの4つの大きな制限に対処する。
シングルタスクの成功率は98.1%に達する。
論文 参考訳(メタデータ) (2025-12-17T10:02:55Z) - ActiveVLN: Towards Active Exploration via Multi-Turn RL in Vision-and-Language Navigation [57.399685080574756]
既存のMLLMベースのVLNメソッドは模倣学習(IL)に依存しており、ポストトレーニングにDAggerを使用することが多い。
マルチターンRLによるアクティブな探索を可能にするVLNフレームワークであるActiveVLNを提案する。
実験の結果,ActiveVLN は DAgger ベースと RL ベースのポストトレーニング手法と比較して,IL ベースラインよりも最大の性能向上を実現していることがわかった。
論文 参考訳(メタデータ) (2025-09-16T03:31:46Z) - DAgger Diffusion Navigation: DAgger Boosted Diffusion Policy for Vision-Language Navigation [73.80968452950854]
Vision-Language Navigation in Continuous Environments (VLN-CE) は、エージェントが自由形式の3D空間を通して自然言語の指示に従う必要がある。
既存のVLN-CEアプローチは通常、2段階のウェイポイント計画フレームワークを使用する。
本稿では,エンドツーエンド最適化VLN-CEポリシとしてDAgger Diffusion Navigation (DifNav)を提案する。
論文 参考訳(メタデータ) (2025-08-13T02:51:43Z) - NavCoT: Boosting LLM-Based Vision-and-Language Navigation via Learning Disentangled Reasoning [97.88246428240872]
Embodied AIの重要な研究課題であるVision-and-Language Navigation (VLN)は、自然言語の指示に従って複雑な3D環境をナビゲートするために、エンボディエージェントを必要とする。
近年の研究では、ナビゲーションの推論精度と解釈可能性を改善することにより、VLNにおける大きな言語モデル(LLM)の有望な能力を強調している。
本稿では,自己誘導型ナビゲーション決定を実現するために,パラメータ効率の高いドメイン内トレーニングを実現する,Navigational Chain-of-Thought (NavCoT) という新しい戦略を提案する。
論文 参考訳(メタデータ) (2024-03-12T07:27:02Z) - Confidence-Controlled Exploration: Efficient Sparse-Reward Policy Learning for Robot Navigation [72.24964965882783]
強化学習(RL)はロボットナビゲーションにおいて有望なアプローチであり、ロボットは試行錯誤を通じて学習することができる。
現実世界のロボットタスクは、しばしばまばらな報酬に悩まされ、非効率な探索と準最適政策に繋がる。
本稿では,RLに基づくロボットナビゲーションにおいて,報酬関数を変更せずにサンプル効率を向上させる新しい手法であるConfidence-Controlled Exploration (CCE)を紹介する。
論文 参考訳(メタデータ) (2023-06-09T18:45:15Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。