論文の概要: Reinforcing VLAs in Task-Agnostic World Models
- arxiv url: http://arxiv.org/abs/2605.12334v2
- Date: Wed, 20 May 2026 07:28:11 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-05-21 14:55:44.020401
- Title: Reinforcing VLAs in Task-Agnostic World Models
- Title(参考訳): タスク非依存世界モデルにおけるVLAの強化
- Authors: Yucen Wang, Rui Yu, Fengming Zhang, Junjie Lu, Xinyao Qin, Tianxiang Zhang, Kaixin Wang, Li Zhao,
- Abstract要約: 強化学習(RL)による後学習型ビジョン・ランゲージ・アクション(VLA)モデルは、コストのかかる実世界の相互作用を伴わずに新しいタスクに適応するための効果的な戦略として登場した。
我々は、世界と報酬モデルがゼロショット推論を可能にする転送可能な物理的事前をキャプチャすべきであると主張している。
我々は、下流のタスク依存から世界モデル学習を完全に切り離す新しいパラダイムであるRAW-Dreamを提案する。
- 参考スコア(独自算出の注目度): 15.056103368344596
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Post-training Vision-Language-Action (VLA) models via reinforcement learning (RL) in learned world models has emerged as an effective strategy to adapt to new tasks without costly real-world interactions. However, while using imagined trajectories reduces the sample complexity of policy training, existing methods still heavily rely on task-specific data to fine-tune both the world and reward models, fundamentally limiting their scalability to unseen tasks. To overcome this, we argue that world and reward models should capture transferable physical priors that enable zero-shot inference. We propose RAW-Dream (Reinforcing VLAs in task-Agnostic World Dreams), a new paradigm that completely disentangles world model learning from downstream task dependencies. RAW-Dream utilizes a world model pre-trained on diverse task-free behaviors for predicting future rollouts, and an off-the-shelf Vision-Language Model (VLM) for reward generation. Because both components are task-agnostic, VLAs can be readily finetuned for any new task entirely within this zero-shot imagination. Furthermore, to mitigate world model hallucinations, we introduce a dual-noise verification mechanism to filter out unreliable rollouts. Extensive experiments across simulation and real-world settings demonstrate consistent performance gains, proving that generalized physical priors can effectively substitute for costly task-dependent data, offering a highly scalable roadmap for VLA adaptation.
- Abstract(参考訳): 学習世界のモデルにおける強化学習(RL)による学習後の視覚・言語・アクション(VLA)モデルは、コストのかかる実世界の相互作用を伴わずに新しいタスクに適応するための効果的な戦略として現れてきた。
しかしながら、想像された軌跡を使用すると、ポリシートレーニングのサンプルの複雑さが減少するが、既存の手法は、世界と報酬モデルの両方を微調整するためにタスク固有のデータに大きく依存し、基本的にはスケーラビリティを目に見えないタスクに制限する。
これを解決するために、世界と報酬モデルでは、ゼロショット推論を可能にする転送可能な物理先行情報をキャプチャすべきである、と論じる。
我々は、下流のタスク依存から世界モデル学習を完全に切り離す新しいパラダイムであるRAW-Dream(タスク非依存の世界ドリームにおけるVLAの強化)を提案する。
RAW-Dreamは、将来のロールアウトを予測するために多様なタスクフリー行動に基づいて事前訓練された世界モデルと、報酬生成のために市販のビジョンランゲージモデル(VLM)を利用する。
両方のコンポーネントはタスクに依存しないため、VLAは、このゼロショットイマジネーションの中で、新しいタスクに対して容易に微調整できる。
さらに,世界モデル幻覚を緩和するために,信頼できないロールアウトをフィルタリングするデュアルノイズ検証機構を導入する。
シミュレーションと実世界の設定にわたる大規模な実験は、一貫したパフォーマンス向上を示し、一般化された物理プライオリティが、VLA適応のための高度にスケーラブルなロードマップを提供することによって、コストのかかるタスク依存データに効果的に取って代わることができることを証明している。
関連論文リスト
- Towards Practical World Model-based Reinforcement Learning for Vision-Language-Action Models [35.944951371813296]
VLA(Vision-Language-Action)モデルは、ロボット制御の強力な一般化を示すが、強化学習(RL)を用いてそれらを微調整することは、現実世界の相互作用のコストと安全性のリスクに制約される。
VLAファインタニングにおけるこれらの問題に対処するための実践的なフレームワークであるVLA-MBPOを提案する。
データ効率のよい世界モデリングのための統一マルチモーダルモデルへの適応 (i) マルチビュー整合性を実現するためのインターリーブビューデコーディング機構 (ii) エラー合成を緩和するためのチャンクレベル分岐ロールアウト (iii) の3つの主要な設計選択がある。
論文 参考訳(メタデータ) (2026-03-21T02:44:39Z) - Self-Correcting VLA: Online Action Refinement via Sparse World Imagination [55.982504915794514]
本稿では, 自己補正VLA (SC-VLA) を提案する。
SC-VLAは最先端のパフォーマンスを達成し、最高タスクスループットを16%削減し、最高パフォーマンスのベースラインよりも9%高い成功率を得る。
論文 参考訳(メタデータ) (2026-02-25T06:58:06Z) - VLAW: Iterative Co-Improvement of Vision-Language-Action Policy and World Model [87.75549463328836]
本研究の目的は、反復的なオンラインインタラクションにより、視覚言語アクション(VLA)モデルの性能と信頼性を向上させることである。
本稿では,実世界のロールアウトデータを用いて,世界モデルの忠実度を向上する簡易な反復改善アルゴリズムを提案する。
基本方針よりも39.2%の絶対成功率向上と、生成した合成ロールアウトによるトレーニングによる11.6%の改善を実現している。
論文 参考訳(メタデータ) (2026-02-12T15:21:47Z) - DriveVLA-W0: World Models Amplify Data Scaling Law in Autonomous Driving [52.63591791507895]
将来の画像の予測に世界モデリングを利用するトレーニングパラダイムである textbfDriveVLA-W0 を提案する。
このタスクは、運転環境の基礎となる力学を学ぶためにモデルを補完する密集した自己教師信号を生成する。
NAVSIM v1/v2ベンチマークと680倍の社内データセットの実験は、DriveVLA-W0がBEVとVLAのベースラインを大きく上回っていることを示している。
論文 参考訳(メタデータ) (2025-10-14T17:59:47Z) - ReCoRe: Regularized Contrastive Representation Learning of World Model [21.29132219042405]
対照的な教師なし学習と介入不変正規化器を用いて不変特徴を学習する世界モデルを提案する。
提案手法は,現状のモデルベースおよびモデルフリーのRL法より優れ,iGibsonベンチマークで評価された分布外ナビゲーションタスクを大幅に改善する。
論文 参考訳(メタデータ) (2023-12-14T15:53:07Z) - Self-Supervised Reinforcement Learning that Transfers using Random
Features [41.00256493388967]
本研究では,タスク間の行動の伝達を,報酬の異なる自己指導型強化学習手法を提案する。
我々の手法は、報奨ラベルなしでオフラインデータセットでトレーニングできるが、新しいタスクに素早くデプロイできるという自己教師型である。
論文 参考訳(メタデータ) (2023-05-26T20:37:06Z) - Continual Visual Reinforcement Learning with A Life-Long World Model [55.05017177980985]
視覚力学モデリングのための新しい連続学習手法を提案する。
まず,タスク固有の潜在ダイナミクスを学習する長寿命世界モデルを紹介する。
そして,探索・保守的行動学習手法を用いて,過去の課題に対する価値推定問題に対処する。
論文 参考訳(メタデータ) (2023-03-12T05:08:03Z) - Goal-Aware Prediction: Learning to Model What Matters [105.43098326577434]
学習した前進力学モデルを使用する際の根本的な課題の1つは、学習したモデルの目的と下流のプランナーやポリシーの目標とのミスマッチである。
本稿では,タスク関連情報への直接的予測を提案し,そのモデルが現在のタスクを認識し,状態空間の関連量のみをモデル化することを奨励する。
提案手法は,目標条件付きシーンの関連部分を効果的にモデル化し,その結果,標準タスク非依存のダイナミックスモデルやモデルレス強化学習より優れていることがわかった。
論文 参考訳(メタデータ) (2020-07-14T16:42:59Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。