論文の概要: RePO-VLA: Recovery-Driven Policy Optimization for Vision-Language-Action Models
- arxiv url: http://arxiv.org/abs/2605.09410v1
- Date: Sun, 10 May 2026 08:24:05 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-05-12 23:28:50.234545
- Title: RePO-VLA: Recovery-Driven Policy Optimization for Vision-Language-Action Models
- Title(参考訳): RePO-VLA:ビジョン・ランゲージ・アクションモデルのための回復型ポリシー最適化
- Authors: Weijia Liufu, Xiaoyu Guo, Ruiyi Chen, Jingzhi Liu, Kaidong Zhang, Xiwen Liang, Jianqi Lin, Dawei Sun, Yuze Wang, Rongtao Xu, Bingqian Lin, Bowen Yang, Tongtong Cao, Bowen Peng, Dongyu Zhang, Guangrun Wang, Min Wang, Liang Lin, Xiaodan Liang,
- Abstract要約: RePO-VLAは、リカバリ駆動のポリシー最適化フレームワークである。
成功、回復、失敗の軌跡に異なる役割を割り当てる。
対人的な成功は、平均で20%から75%、実世界の規模で80%まで上昇する。
- 参考スコア(独自算出の注目度): 90.39703013636868
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Vision-Language-Action (VLA) models remain brittle in long-horizon, contact-rich manipulation because success-only imitation provides little supervision for execution drift, while failed rollouts are often discarded. We introduce RePO-VLA, a recovery-driven policy optimization framework that assigns distinct roles to success, recovery, and failure trajectories. RePO-VLA first applies Recovery-Aware Initialization (RAI), slicing recovery segments and resetting history so corrective actions depend on the current adverse state rather than the preceding failure. It then learns a Progress-Aware Semantic Value Function (PAS-VF), aligning spatiotemporal trajectory features with instructions and successful references. The resulting labels salvage useful failure prefixes via reliability decay, while low-value labels mark drift and terminal breakdowns, teaching differences among nominal, failed, and corrective actions. The data engine turns adverse states into planner-generated or human-collected corrective rollouts, teaching recovery to the success manifold. Value-Conditioned Refinement (VCR) trains the policy to prefer high-progress actions. At deployment, a fixed high value ($v=1.0$) biases actions toward the learned success manifold without online failure detectors or heuristic retries. We introduce FRBench, with standardized error injection and recovery-focused evaluation. Across simulated and real-world bimanual tasks, RePO-VLA improves robustness, raising adversarial success from 20% to 75% on average and up to 80% in scaled real-world trials.
- Abstract(参考訳): VLA(Vision-Language-Action)モデルは、成功のみの模倣は実行ドリフトの監督をほとんど提供しないが、失敗するロールアウトはしばしば破棄されるため、長期的なコンタクトリッチな操作において不安定なままである。
RePO-VLAは、リカバリ駆動のポリシー最適化フレームワークで、成功、リカバリ、障害トラジェクトリに異なる役割を割り当てる。
RePO-VLAは、最初にRecovery-Aware Initialization (RAI)を適用し、リカバリセグメントをスライスし、履歴をリセットする。
次に、プログレッシブ・アウェア・セマンティック・バリュー関数 (PAS-VF) を学び、時空間軌跡の特徴と指示と成功した参照を整列する。
その結果、ラベルは信頼性の低下によって有用な障害プレフィックスを回収し、低値ラベルはドリフトと終端分解をマークし、名目、失敗、修正行動の違いを教える。
データエンジンは、有害な状態をプランナー生成またはヒューマンコンパイルされた修正ロールアウトに変換し、成功多様体にリカバリを教える。
VCR(Value-Conditioned Refinement)は、高機能なアクションを好むようにポリシーを訓練する。
デプロイ時に、固定された高値(v=1.0$)は、オンライン障害検知器やヒューリスティックリトライなしで、学習した成功多様体に対するアクションをバイアスする。
FRBenchを導入し,エラーインジェクションの標準化とリカバリに着目した評価を行った。
RePO-VLAは、シミュレーションされた実世界のバイマチュアルタスク全体にわたって、堅牢性を改善し、対向的な成功を平均で20%から75%、スケールした実世界のトライアルで最大80%に引き上げる。
関連論文リスト
- LoopVLA: Learning Sufficiency in Recurrent Refinement for Vision-Language-Action Models [13.30873593845724]
LoopVLAは、表現の洗練、アクション予測、十分性推定を学習する、リカレントなVision-Language-Actionアーキテクチャである。
この結果から,LoopVLAはVLAポリシーの効率性向上のフロンティアを推し進め,パラメータを45%削減し,推論スループットを最大1.7倍向上させることを示した。
論文 参考訳(メタデータ) (2026-05-11T03:51:22Z) - Failing Forward: Adaptive Failure-Informed Learning for Vision-Language-Action Models [32.87104367896446]
本稿では,拡散型および流路型VLAポリシーに対する適応的負のガイダンスとして,障害軌跡を利用するエンドツーエンドフレームワークを提案する。
AFILはトレーニング済みのVLAを使用して、オンラインの障害ロールアウトを生成する。
その後、デュアルアクションジェネレータ(DAG)を共同で訓練し、共通の視覚言語バックボーンを共有しながら、動作が成功し失敗する。
論文 参考訳(メタデータ) (2026-05-08T19:57:11Z) - See, Plan, Rewind: Progress-Aware Vision-Language-Action Models for Robust Robotic Manipulation [59.07792608884117]
本稿では,See, Plan, Rewind (SPR)について紹介する。
SPRは、現在の状態と今後のマイルストーンを見て、次の2Dウェイポイントに向けて軌道を計画し、障害時に回復可能な状態に戻すという、継続的なコアサイクルを通じて運用される。
SPRは、OpenVLA-OFTとUniVLAを上回る最小のパフォーマンス低下で最先端のロバスト性を達成する。
論文 参考訳(メタデータ) (2026-03-10T07:22:51Z) - Unleashing VLA Potentials in Autonomous Driving via Explicit Learning from Failures [14.313346858887286]
自律走行のためのVLA(Vision-Language-Action)モデルは、強化学習(Reinforcement Learning、RL)最適化時にしばしばパフォーマンス高原に到達する。
この停滞は、以前のスーパービジョン・ファインチューニング(SFT)によって制約された探査能力から生じる。
構造化された診断フィードバックでRLを増強するフレームワークであるELF-VLA(Explicit Learning from Failures)を提案する。
論文 参考訳(メタデータ) (2026-03-01T11:41:22Z) - Reshaping Action Error Distributions for Reliable Vision-Language-Action Models [69.38615670891038]
ロボット操作において、視覚言語アクション(VLA)モデルは、一般化可能でスケーラブルなロボットポリシーを学ぶための有望なパラダイムとして登場した。
連続動作型VLAモデルに焦点をあて、トレーニング中の動作誤差分布を再構成することにより、従来のMSEベースの回帰を超越する。
複数の代表的VLAアーキテクチャ上で、標準、少数ショット、ノイズの多い設定にまたがるアプローチを評価します。
論文 参考訳(メタデータ) (2026-02-04T05:37:09Z) - CycleVLA: Proactive Self-Correcting Vision-Language-Action Models via Subtask Backtracking and Minimum Bayes Risk Decoding [60.06899554269808]
サイクロンVLA(CycleVLA)は、VLA(Vision-Language-Action Model)を積極的に自己補正するシステムである。
CycleVLAは、重要なサブタスク遷移ポイントにフラグを付けるプログレス対応のVLAを統合することで、これを実現する。
大規模な実験により、CycleVLAは、よく訓練されたVLAと訓練されていないVLAの両方のパフォーマンスを改善することが示された。
論文 参考訳(メタデータ) (2026-01-05T17:31:01Z) - CARE What Fails: Contrastive Anchored-REflection for Verifiable Multimodal [84.71254539482369]
検証可能な報酬を伴うグループ相対的強化学習(RLVR)は、しばしば、すでに失敗している最も情報に富むデータを浪費する。
エラーを監督するマルチモーダル推論のための,障害中心のポストトレーニングフレームワークであるCAREを提案する。
CAREは正確さを改善し、スムーズさをトレーニングすると同時に、障害からの学習信号のシェアを明示的に増やします。
論文 参考訳(メタデータ) (2025-12-22T16:34:21Z) - Hierarchical Vision Language Action Model Using Success and Failure Demonstrations [60.82332413442677]
階層型視覚-言語-アクションモデルであるVINEを導入し,高レベル推論を低レベル制御から分離する。
システム2は、2Dシーングラフの抽象化を介して、実現可能性誘導木探索を行う。
システム1はエージェントのコアスキルを変更することなく、低レベルのアクションを実行する。
論文 参考訳(メタデータ) (2025-12-03T15:58:38Z) - SRPO: Self-Referential Policy Optimization for Vision-Language-Action Models [42.89413870143421]
VLA(Vision-Language-Action)モデルはロボット操作に優れるが、専門家によるデモンストレーションに大きく依存している。
グループベースの最適化手法を含む現在のVLA-RL法は、深刻な報酬の分散によって損なわれている。
本稿では,新しいVLA-RLフレームワークである自己参照ポリシー最適化(SRPO)を提案する。
論文 参考訳(メタデータ) (2025-11-19T16:52:23Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。