論文の概要: Failing Forward: Adaptive Failure-Informed Learning for Vision-Language-Action Models
- arxiv url: http://arxiv.org/abs/2605.08434v2
- Date: Tue, 12 May 2026 15:21:07 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-05-13 21:48:56.235679
- Title: Failing Forward: Adaptive Failure-Informed Learning for Vision-Language-Action Models
- Title(参考訳): フェーリングフォワード:視覚・言語・アクションモデルのための適応的失敗インフォームド学習
- Authors: Meng Zheng, Samhita Marri, Anwesa Choudhuri, Benjamin Planche, Zhongpai Gao, Van Nguyen Nguyen, Terrence Chen, Girish Chowdhary, Ziyan Wu,
- Abstract要約: 本稿では,拡散型および流路型VLAポリシーに対する適応的負のガイダンスとして,障害軌跡を利用するエンドツーエンドフレームワークを提案する。
AFILはトレーニング済みのVLAを使用して、オンラインの障害ロールアウトを生成する。
その後、デュアルアクションジェネレータ(DAG)を共同で訓練し、共通の視覚言語バックボーンを共有しながら、動作が成功し失敗する。
- 参考スコア(独自算出の注目度): 32.87104367896446
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Vision-language-action (VLA) models provide a promising paradigm for scalable robotic manipulation, yet their reliance on success-only behavioral cloning leaves them brittle; lacking corrective training signals, minor execution errors rapidly compound into unrecoverable, out-of-distribution failures. To address this limitation, we propose Adaptive Failure-Informed Learning (AFIL), an end-to-end framework that leverages failure trajectories as adaptive negative guidance for diffusion- and flow-based VLA policies. AFIL uses a pretrained VLA to generate failure rollouts online, avoiding the need for handcrafted failure-mode design or human-in-the-loop recovery. It then jointly trains Dual Action Generators (DAGs) for successful and failed behaviors while sharing a common vision-language backbone, enabling efficient failure-aware policy learning with limited parameter overhead. During sampling, the failure generator adaptively steers action generation away from failure-prone regions and toward more reliable success modes, with guidance strength determined by the per-diffusion-step distance between success and failure distributions. Experiments across in-domain and out-of-domain robotic manipulation tasks, covering both short- and long-horizon settings, show that AFIL consistently improves task success rates and robustness over existing VLA baselines, demonstrating its effectiveness, efficiency, and generality.
- Abstract(参考訳): 視覚言語アクション(VLA)モデルは、スケーラブルなロボット操作のための有望なパラダイムを提供するが、成功のみの行動クローンに依存しているため、それらは不安定である。
この制限に対処するため,拡散およびフローベースのVLAポリシーに対する適応的負のガイダンスとして,障害軌跡を利用するエンドツーエンドフレームワークであるAdaptive Failure-Informed Learning (AFIL)を提案する。
AFILはトレーニング済みのVLAを使用して、オンラインの障害ロールアウトを生成し、手作りの障害モード設計やヒューマン・イン・ザ・ループのリカバリを必要としない。
次に、共通のビジョン言語バックボーンを共有しながら、成功したり失敗したりするために、デュアルアクションジェネレータ(DAG)を共同でトレーニングする。
サンプリング中、障害発生装置は、障害発生領域から退避し、より信頼性の高い成功モードへと適応的に制御し、成功と失敗分布の間の拡散ステップ距離によって導出強度が決定される。
ドメイン内およびドメイン外におけるロボット操作に関する実験では、短距離設定と長距離設定の両方をカバーし、AFILは既存のVLAベースラインよりもタスクの成功率と堅牢性を一貫して改善し、その有効性、効率、汎用性を実証している。
関連論文リスト
- LoopVLA: Learning Sufficiency in Recurrent Refinement for Vision-Language-Action Models [13.30873593845724]
LoopVLAは、表現の洗練、アクション予測、十分性推定を学習する、リカレントなVision-Language-Actionアーキテクチャである。
この結果から,LoopVLAはVLAポリシーの効率性向上のフロンティアを推し進め,パラメータを45%削減し,推論スループットを最大1.7倍向上させることを示した。
論文 参考訳(メタデータ) (2026-05-11T03:51:22Z) - RePO-VLA: Recovery-Driven Policy Optimization for Vision-Language-Action Models [90.39703013636868]
RePO-VLAは、リカバリ駆動のポリシー最適化フレームワークである。
成功、回復、失敗の軌跡に異なる役割を割り当てる。
対人的な成功は、平均で20%から75%、実世界の規模で80%まで上昇する。
論文 参考訳(メタデータ) (2026-05-10T08:24:05Z) - Jump-Start Reinforcement Learning with Vision-Language-Action Regularization [1.2599533416395767]
強化学習(RL)は、ロボット操作のための高周波閉ループ制御を可能にする。
現在の制限は、高速かつ正確な操作において直接の使用を妨げる。
探索と学習効率を向上させるために,VLAJS(Vision-Language-Action Jump-Starting)を提案する。
論文 参考訳(メタデータ) (2026-04-15T11:17:54Z) - Unleashing VLA Potentials in Autonomous Driving via Explicit Learning from Failures [14.313346858887286]
自律走行のためのVLA(Vision-Language-Action)モデルは、強化学習(Reinforcement Learning、RL)最適化時にしばしばパフォーマンス高原に到達する。
この停滞は、以前のスーパービジョン・ファインチューニング(SFT)によって制約された探査能力から生じる。
構造化された診断フィードバックでRLを増強するフレームワークであるELF-VLA(Explicit Learning from Failures)を提案する。
論文 参考訳(メタデータ) (2026-03-01T11:41:22Z) - Reshaping Action Error Distributions for Reliable Vision-Language-Action Models [69.38615670891038]
ロボット操作において、視覚言語アクション(VLA)モデルは、一般化可能でスケーラブルなロボットポリシーを学ぶための有望なパラダイムとして登場した。
連続動作型VLAモデルに焦点をあて、トレーニング中の動作誤差分布を再構成することにより、従来のMSEベースの回帰を超越する。
複数の代表的VLAアーキテクチャ上で、標準、少数ショット、ノイズの多い設定にまたがるアプローチを評価します。
論文 参考訳(メタデータ) (2026-02-04T05:37:09Z) - CycleVLA: Proactive Self-Correcting Vision-Language-Action Models via Subtask Backtracking and Minimum Bayes Risk Decoding [60.06899554269808]
サイクロンVLA(CycleVLA)は、VLA(Vision-Language-Action Model)を積極的に自己補正するシステムである。
CycleVLAは、重要なサブタスク遷移ポイントにフラグを付けるプログレス対応のVLAを統合することで、これを実現する。
大規模な実験により、CycleVLAは、よく訓練されたVLAと訓練されていないVLAの両方のパフォーマンスを改善することが示された。
論文 参考訳(メタデータ) (2026-01-05T17:31:01Z) - Hierarchical Vision Language Action Model Using Success and Failure Demonstrations [60.82332413442677]
階層型視覚-言語-アクションモデルであるVINEを導入し,高レベル推論を低レベル制御から分離する。
システム2は、2Dシーングラフの抽象化を介して、実現可能性誘導木探索を行う。
システム1はエージェントのコアスキルを変更することなく、低レベルのアクションを実行する。
論文 参考訳(メタデータ) (2025-12-03T15:58:38Z) - Align-Then-stEer: Adapting the Vision-Language Action Models through Unified Latent Guidance [63.33213516925946]
textbfAlign-Then-stEer(textttATE)は,新しいデータ効率,プラグアンドプレイ適応フレームワークである。
我々の研究は、新しいロボットプラットフォームやタスクにVLAモデルをデプロイする実用性を大幅に向上させる、汎用的で軽量なソリューションを提供する。
論文 参考訳(メタデータ) (2025-09-02T07:51:59Z) - Human-assisted Robotic Policy Refinement via Action Preference Optimization [26.144183856600687]
行動選好最適化(Action Preference Optimization、APO)は、視覚・言語・行動モデル(VLA)を人間の操作による選好アライメントによって洗練する手法である。
これを解決するために、APOは相互作用から導出される二元的望ましくない信号を用いた適応的再重み付けアルゴリズムを提案する。
シミュレーションと実世界のシナリオで行われた実験は、より優れた一般化とロバスト性を示す。
論文 参考訳(メタデータ) (2025-06-08T13:14:18Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。