論文の概要: SeeNav-Agent: Enhancing Vision-Language Navigation with Visual Prompt and Step-Level Policy Optimization
- arxiv url: http://arxiv.org/abs/2512.02631v1
- Date: Tue, 02 Dec 2025 10:40:46 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-12-03 21:04:45.832477
- Title: SeeNav-Agent: Enhancing Vision-Language Navigation with Visual Prompt and Step-Level Policy Optimization
- Title(参考訳): SeeNav-Agent:ビジュアルプロンプトとステップレベルポリシー最適化によるビジョンランゲージナビゲーションの強化
- Authors: Zhengcheng Wang, Zichuan Lin, Yijun Yang, Haobo Fu, Deheng Ye,
- Abstract要約: 既存のVision-Language Navigation (VLN)エージェントは、しばしば認識エラー、推論エラー、計画エラーに悩まされる。
これらの制限に対処するため、SeeNav-Agentという新しいVLNエージェントフレームワークが提案されている。
Step Reward Group Policy Optimization (SRGPO) は、VLNエージェントのポストトレーニング用に設計されている。
- 参考スコア(独自算出の注目度): 32.785475974900244
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Existing Vision-Language Navigation (VLN) agents based on Large Vision-Language Models (LVLMs) often suffer from perception errors, reasoning errors, and planning errors, which significantly hinder their navigation performance. To address these limitations, a novel VLN agent framework, named SeeNav-Agent, is proposed in this work. First, to reduce perception hallucinations of the visual module of the VLN agent, a dual-view Visual Prompt (VP) technique is introduced in the input space, which can also improve the agent's understanding of current spatial states. Subsequently, a novel step-level Reinforcement Fine-Tuning (RFT) method, Step Reward Group Policy Optimization (SRGPO), is designed for the post-training of VLN agents. In SRGPO, we first define verifiable process rewards for the navigation task, and then perform efficient step-level advantage estimation by randomly grouping different navigation steps. SRGPO provides dense reward signals for the reinforcement learning process of the VLN agent and enhances its planning capability. Experimental results on the EmbodiedBench Navigation benchmark indicate that by introducing the zero-shot VP module, the GPT-4.1 achieves a navigation success rate of 86.7%, surpassing the current best LVLM by approximately 20 percentage points (pp). Through post-training based on SRGPO, the Qwen2.5-VL-3B model reaches a navigation success rate of 72.3%, outperforming the best existing LVLM model by 5.6 pp. Moreover, compared to RFT algorithms such as GRPO and GiGPO, the proposed SRGPO demonstrates significant improvements in training stability, convergence efficiency, and generalization capability.
- Abstract(参考訳): LVLM(Large Vision-Language Models)に基づく既存のVision-Language Navigation (VLN)エージェントは、しばしば認識エラー、推論エラー、計画エラーに悩まされ、ナビゲーション性能を著しく損なう。
これらの制限に対処するため、SeeNav-Agentという新しいVLNエージェントフレームワークが提案されている。
まず、VLNエージェントの視覚モジュールの知覚幻覚を軽減するために、入力空間にデュアルビュー視覚プロンプト(VP)技術を導入し、現在の空間状態に対するエージェントの理解を改善する。
その後、新しいステップレベル強化細調整法、SRGPO(Step Reward Group Policy Optimization)がVLNエージェントのポストトレーニング用に設計されている。
SRGPOでは、まずナビゲーションタスクに対する検証可能なプロセス報酬を定義し、その後、異なるナビゲーションステップをランダムにグループ化して効率的なステップレベルの優位性推定を行う。
SRGPOは、VLNエージェントの強化学習プロセスに高密度の報酬信号を提供し、その計画能力を高める。
EmbodiedBench Navigationベンチマークの実験結果は、ゼロショットのVPモジュールを導入することで、GPT-4.1が86.7%のナビゲーション成功率を獲得し、現在の最高のLVLMを約20ポイント(pp)上回ったことを示している。
SRGPOに基づく後トレーニングにより、Qwen2.5-VL-3Bモデルは72.3%の航法成功率に達し、既存のLVLMモデルよりも5.6pp%向上した。
さらに,GRPO や GiGPO などの RFT アルゴリズムと比較して,提案した SRGPO はトレーニング安定性,収束効率,一般化能力の大幅な向上を示す。
関連論文リスト
- ActiveVLN: Towards Active Exploration via Multi-Turn RL in Vision-and-Language Navigation [57.399685080574756]
既存のMLLMベースのVLNメソッドは模倣学習(IL)に依存しており、ポストトレーニングにDAggerを使用することが多い。
マルチターンRLによるアクティブな探索を可能にするVLNフレームワークであるActiveVLNを提案する。
実験の結果,ActiveVLN は DAgger ベースと RL ベースのポストトレーニング手法と比較して,IL ベースラインよりも最大の性能向上を実現していることがわかった。
論文 参考訳(メタデータ) (2025-09-16T03:31:46Z) - Harnessing Input-Adaptive Inference for Efficient VLN [13.847596428283861]
ヴィジュアル・アンド・ランゲージ・ナビゲーション(VLN)における新たなパラダイムは、歴史を意識したマルチモーダルトランスモデルの利用である。
本稿では,VLNモデルの効率を向上させるための新しい入力適応ナビゲーション手法を提案する。
論文 参考訳(メタデータ) (2025-08-12T18:05:33Z) - VLN-R1: Vision-Language Navigation via Reinforcement Fine-Tuning [77.34267241692706]
Vision-Language Navigation(VLN)は、エージェントが自然言語命令を使用して現実世界の環境をナビゲートする必要がある、AIの実施における中核的な課題である。
本稿では、LVLM(Large Vision-Language Models)を利用して、エゴセントリックな動画ストリームを連続的なナビゲーションアクションに変換するエンドツーエンドフレームワークであるVLN-R1を提案する。
論文 参考訳(メタデータ) (2025-06-20T17:59:59Z) - EvolveNav: Empowering LLM-Based Vision-Language Navigation via Self-Improving Embodied Reasoning [145.32076310071434]
EvolveNavは,適応的かつ一般化可能なナビゲーション推論を実現するための,新しい具体的推論パラダイムである。
EvolveNav は,(1) 形式化された CoT 監督ファインチューニング,(2) モデルが自己富化 CoT ラベルとして独自の推論出力で反復的に訓練され,監督の多様性を高めるために,モデルのナビゲーション推論能力を最初に活性化し,同時に推論速度を向上させるための形式化された CoT ラベルを用いてモデルを訓練する。
論文 参考訳(メタデータ) (2025-06-02T11:28:32Z) - NavCoT: Boosting LLM-Based Vision-and-Language Navigation via Learning Disentangled Reasoning [97.88246428240872]
Embodied AIの重要な研究課題であるVision-and-Language Navigation (VLN)は、自然言語の指示に従って複雑な3D環境をナビゲートするために、エンボディエージェントを必要とする。
近年の研究では、ナビゲーションの推論精度と解釈可能性を改善することにより、VLNにおける大きな言語モデル(LLM)の有望な能力を強調している。
本稿では,自己誘導型ナビゲーション決定を実現するために,パラメータ効率の高いドメイン内トレーニングを実現する,Navigational Chain-of-Thought (NavCoT) という新しい戦略を提案する。
論文 参考訳(メタデータ) (2024-03-12T07:27:02Z) - NavGPT: Explicit Reasoning in Vision-and-Language Navigation with Large
Language Models [17.495162643127003]
我々は,複雑なエンボディシーンにおけるGPTモデルの推論能力を明らかにするために,NavGPTを導入した。
NavGPTは、視覚的な観察、ナビゲーション履歴、将来の探索可能な方向のテキスト記述を入力として、エージェントの現在の状態を推論する。
本研究では,NavGPTが経路に沿った観察や行動から高品質なナビゲーション命令を生成可能であることを示す。
論文 参考訳(メタデータ) (2023-05-26T14:41:06Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。