論文の概要: Let's Reward Step-by-Step: Step-Aware Contrastive Alignment for Vision-Language Navigation in Continuous Environments
- arxiv url: http://arxiv.org/abs/2603.09740v1
- Date: Tue, 10 Mar 2026 14:45:50 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-03-11 15:25:24.401966
- Title: Let's Reward Step-by-Step: Step-Aware Contrastive Alignment for Vision-Language Navigation in Continuous Environments
- Title(参考訳): ステップ・バイ・ステップ:連続環境における視覚言語ナビゲーションのためのステップ・アウェア・コントラストアライメント
- Authors: Haoyuan Li, Rui Liu, Hehe Fan, Yi Yang,
- Abstract要約: VLN-CE(Vision-Language Navigation in Continuous Environments)は、長期にわたる人間のインタラクションから複雑な推論を学ぶためのエージェントである。
現在のトレーニングパラダイムは、一般化能力、エラー回復、トレーニング安定性のバランスをとるのに苦労しています。
本稿では,不完全な軌跡から厳密な監視を抽出するためのフレームワークである,ステップアウェアコントラストアライメント(SACA)を紹介する。
- 参考スコア(独自算出の注目度): 38.97818584066075
- License: http://creativecommons.org/licenses/by-nc-sa/4.0/
- Abstract: Vision-Language Navigation in Continuous Environments (VLN-CE) requires agents to learn complex reasoning from long-horizon human interactions. While Multi-modal Large Language Models (MLLMs) have driven recent progress, current training paradigms struggle to balance generalization capability, error recovery and training stability. Specifically, (i) policies derived from SFT suffer from compounding errors, struggling to recover from out-of-distribution states, and (ii) Reinforcement Fine-Tuning (RFT) methods e.g. GRPO are bottlenecked by sparse outcome rewards. Their binary feedback fails to assign credit to individual steps, leading to gradient signal collapse in failure dominant batches. To address these challenges, we introduce Step-Aware Contrastive Alignment (SACA), a framework designed to extract dense supervision from imperfect trajectories. At its core, the Perception-Grounded Step-Aware auditor evaluates progress step-by-step, disentangling failed trajectories into valid prefixes and exact divergence points. Leveraging these signals, Scenario-Conditioned Group Construction mechanism dynamically routes batches to specialized resampling and optimization strategies. Extensive experiments on VLN-CE benchmarks demonstrate that SACA achieves state-of-the-art performance.
- Abstract(参考訳): VLN-CE(Vision-Language Navigation in Continuous Environments)は、長期にわたる人間のインタラクションから複雑な推論を学ぶためのエージェントである。
MLLM(Multi-modal Large Language Models)は近年進歩しているが、現在のトレーニングパラダイムは一般化能力、エラー回復、トレーニング安定性のバランスをとるのに苦労している。
具体的には
一)SFTから派生した政策は、混成エラーに悩まされ、配当外の状態からの回復に苦慮し、
(II)強化細調整法eg GRPOはスパース効果報酬によってボトルネックとなる。
彼らのバイナリフィードバックは、個々のステップにクレジットを割り当てることに失敗し、障害が支配的なバッチで勾配信号が崩壊する。
これらの課題に対処するために,不完全な軌跡から密集した監視を抽出するフレームワークであるステップ・アウェア・コントラスト・アライメント(SACA)を導入する。
Perception-Grounded Step-Aware監査者は、ステップバイステップの評価を行い、失敗した軌跡を有効な接頭辞と正確な分岐点に分解する。
これらの信号を活用することで、Scenario-Conditioned Group Constructionメカニズムは、バッチを特別な再サンプリングと最適化戦略に動的にルーティングする。
VLN-CEベンチマークの大規模な実験は、SACAが最先端のパフォーマンスを達成することを示した。
関連論文リスト
- See, Plan, Rewind: Progress-Aware Vision-Language-Action Models for Robust Robotic Manipulation [59.07792608884117]
本稿では,See, Plan, Rewind (SPR)について紹介する。
SPRは、現在の状態と今後のマイルストーンを見て、次の2Dウェイポイントに向けて軌道を計画し、障害時に回復可能な状態に戻すという、継続的なコアサイクルを通じて運用される。
SPRは、OpenVLA-OFTとUniVLAを上回る最小のパフォーマンス低下で最先端のロバスト性を達成する。
論文 参考訳(メタデータ) (2026-03-10T07:22:51Z) - Unleashing VLA Potentials in Autonomous Driving via Explicit Learning from Failures [14.313346858887286]
自律走行のためのVLA(Vision-Language-Action)モデルは、強化学習(Reinforcement Learning、RL)最適化時にしばしばパフォーマンス高原に到達する。
この停滞は、以前のスーパービジョン・ファインチューニング(SFT)によって制約された探査能力から生じる。
構造化された診断フィードバックでRLを増強するフレームワークであるELF-VLA(Explicit Learning from Failures)を提案する。
論文 参考訳(メタデータ) (2026-03-01T11:41:22Z) - Training Multi-Turn Search Agent via Contrastive Dynamic Branch Sampling [29.182538022605627]
Branching Relative Policy Optimization (BranPO) は、高額な報酬なしで段階レベルのコントラスト管理を提供する価値のない手法である。
BranPOは尾部付近の軌跡を切断し、他の連続をサンプリングし、共有接頭辞の上に対照的な接尾辞を構成する。
さらに効率を向上し、トレーニングを安定させるために、タスク間の分岐周波数に適応する難易度分岐サンプリングと、不正な動作を抑制するために冗長なステップマスキングを導入する。
論文 参考訳(メタデータ) (2026-02-03T16:43:09Z) - ProRAG: Process-Supervised Reinforcement Learning for Retrieval-Augmented Generation [54.071574153853994]
ProRAGは、学習段階の監視をオンライン最適化ループに統合するために設計されたプロセス教師付き強化学習フレームワークである。
本フレームワークは,(1)構造化推論形式でモデルを初期化するための監視されたポリシーワームアップ,(2)中間推論品質を定量化するためのMCTSベースのプロセスリワードモデル(PRM)の構築,(3)細粒度プロセスの好みに合わせてポリシーを調整するためのPRM誘導推論リファインメント,(4)プロセススーパービジョン強化学習と2つのグラニュラリティー・アドバンテージ・メカニズムの4段階から構成される。
論文 参考訳(メタデータ) (2026-01-29T16:04:59Z) - Steering Vision-Language-Action Models as Anti-Exploration: A Test-Time Scaling Approach [78.4812458793128]
動作チャンクの高忠実度検証に軽量な擬数推定器を適用したテスト時間スケーリングフレームワークである textbfTACO を提案する。
我々の手法は、オフライン強化学習(RL)における古典的な反探索原理に似ており、勾配のないため、計算上の大きな恩恵をもたらす。
論文 参考訳(メタデータ) (2025-12-02T14:42:54Z) - PROPA: Toward Process-level Optimization in Visual Reasoning via Reinforcement Learning [30.44007644340425]
本稿では,モンテカルロ木探索 (MCTS) とGRPOを統合した新しいフレームワーク PROPA について紹介する。
7つのベンチマークと4つのVLMバックボーンで、PROPAはSFTとRLVRベースのベースラインを一貫して上回っている。
ドメイン内タスクで最大17.0%、ドメイン外タスクで最大21.0%のゲインを達成する。
論文 参考訳(メタデータ) (2025-11-13T13:06:12Z) - Learning Affordances at Inference-Time for Vision-Language-Action Models [50.93181349331096]
ロボット工学において、VLA(Vision-Language-Action Model)は複雑な制御タスクを解くための有望な道を提供する。
本稿では,VLAの低レベルポリシーを過去の経験を条件とした高レベルVLMに接続するLITEN(Learning from Inference-Time Execution)を紹介する。
提案手法は,低レベルVLAの計画の生成と実行を行う推論フェーズと,その結果を反映した評価フェーズとを反復する。
論文 参考訳(メタデータ) (2025-10-22T16:43:29Z) - Inverse IFEval: Can LLMs Unlearn Stubborn Training Conventions to Follow Real Instructions? [36.957333458197034]
大規模言語モデル(LLM)は多様なタスクにおいて高いパフォーマンスを達成するが、認知慣性を示すことが多い。
Inverse IFEvalは、モデルの能力を測定し、トレーニングによるバイアスをオーバーライドし、敵の指示に従うためのベンチマークである。
論文 参考訳(メタデータ) (2025-09-04T15:03:02Z) - Unconditional Truthfulness: Learning Unconditional Uncertainty of Large Language Models [104.55763564037831]
我々は、注意マップ、現在の生成ステップにおける確率、および以前に生成されたトークンから繰り返し計算された不確実性スコアを利用する回帰モデルを訓練する。
評価の結果,提案手法は選択的生成に極めて有効であり,教師なしアプローチと教師なしアプローチに比較して大幅な改善が得られた。
論文 参考訳(メタデータ) (2024-08-20T09:42:26Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。