論文の概要: Beyond Imitation: Reinforcement Learning-Based Sim-Real Co-Training for VLA Models
- arxiv url: http://arxiv.org/abs/2602.12628v3
- Date: Fri, 06 Mar 2026 08:46:11 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-03-23 08:17:41.424588
- Title: Beyond Imitation: Reinforcement Learning-Based Sim-Real Co-Training for VLA Models
- Title(参考訳): 模擬を超えて: VLAモデルのための強化学習に基づくシミュレーショナルコレーニング
- Authors: Liangzhi Shi, Shuaihang Chen, Feng Gao, Yinuo Chen, Kang Chen, Tonghe Zhang, Hongzhi Zang, Weinan Zhang, Chao Yu, Yu Wang,
- Abstract要約: 本稿では,UnderlinetextitRLベースのsim-real UnderlinetextitCo-training modified(RL-Co)フレームワークを提案する。
RLコトレーニングは、目に見えないタスクのバリエーションに強く一般化し、実世界のデータ効率を大幅に改善する。
- 参考スコア(独自算出の注目度): 35.41613201907666
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Simulation offers a scalable and low-cost way to enrich vision-language-action (VLA) training, reducing reliance on expensive real-robot demonstrations. However, most sim-real co-training methods rely on supervised fine-tuning (SFT), which treats simulation as a static source of demonstrations and does not exploit large-scale closed-loop interaction. Consequently, real-world gains and generalization are often limited. In this paper, we propose an \underline{\textit{RL}}-based sim-real \underline{\textit{Co}}-training \modify{(RL-Co)} framework that leverages interactive simulation while preserving real-world capabilities. Our method follows a generic two-stage design: we first warm-start the policy with SFT on a mixture of real and simulated demonstrations, then fine-tune it with reinforcement learning in simulation while adding an auxiliary supervised loss on real-world data to anchor the policy and mitigate catastrophic forgetting. We evaluate our framework on four real-world tabletop manipulation tasks using two representative VLA architectures, OpenVLA and $π_{0.5}$, and observe consistent improvements over real-only fine-tuning and SFT-based co-training, including +24% real-world success on OpenVLA and +20% on $π_{0.5}$. Beyond higher success rates, RL co-training yields stronger generalization to unseen task variations and substantially improved real-world data efficiency, providing a practical and scalable pathway for leveraging simulation to enhance real-robot deployment.
- Abstract(参考訳): シミュレーションは、視覚-言語-アクション(VLA)トレーニングを豊かにするためのスケーラブルで低コストな方法を提供する。
しかし、ほとんどのsim-realコトレーニング手法は、シミュレーションをデモの静的ソースとして扱い、大規模なクローズドループ相互作用を利用できない教師付き微調整(SFT)に依存している。
その結果、実世界のゲインと一般化はしばしば制限される。
本稿では,実世界の能力を保ちながらインタラクティブなシミュレーションを活用する,Shaunderline{\textit{RL}} ベースのsim-real \underline{\textit{Co}}-training \modify{(RL-Co)} フレームワークを提案する。
提案手法は,まず実演と模擬演の混合によるSFTによるポリシーのウォームスタートを行い,シミュレーションにおける強化学習と微調整を行い,実世界のデータに補助的な教師付き損失を加えて,破滅的な忘れを軽減した。
我々は,2つの代表的なVLAアーキテクチャであるOpenVLAと$π_{0.5}$を用いて,4つの実世界のテーブルトップ操作タスクに関するフレームワークを評価し,OpenVLAにおける+24%,$π_{0.5}$における+20%を含む,実世界の微調整とSFTベースのコトレーニングに対する一貫した改善を観察した。
高い成功率の他に、RLのコトレーニングは、目に見えないタスクのバリエーションに強力な一般化をもたらし、実世界のデータ効率を大幅に改善し、シミュレーションを活用して実際のロボットの展開を強化するための実践的でスケーラブルな経路を提供する。
関連論文リスト
- Reinforcement World Model Learning for LLM-based Agents [60.65003139516272]
強化世界モデル学習(Reinforcement World Model Learning, RWML)は、LDMをベースとしたエージェントのための行動教師付き世界モデルを学ぶ自己条件付き手法である。
本手法は, モデルが生成したシミュレーションされた次の状態と, 環境から観測された次の状態とを一致させる。
本手法をALFWorldと2ドルのBenchで評価し,完全に自己管理されているにもかかわらず,ベースモデルに対する大幅な利得を観測した。
論文 参考訳(メタデータ) (2026-02-05T16:30:08Z) - Scaling Agent Learning via Experience Synthesis [100.42712232390532]
強化学習は、対話を通じて自己改善を行うことで、自律的なエージェントに力を与えることができる。
しかし、コストのかかるロールアウト、タスクの多様性の制限、信頼性の低い報奨信号、インフラストラクチャの複雑さによって、その実践的採用は依然として困難である。
私たちはDreamGymを紹介します。DreamGymはスケーラビリティを念頭において多様なエクスペリエンスを合成するために設計された最初の統合フレームワークです。
論文 参考訳(メタデータ) (2025-11-05T18:58:48Z) - Simulating Environments with Reasoning Models for Agent Training [55.98861707136674]
トレーニング用の起動環境の構築は重く、脆く、進捗を制限します。
我々はSimia-SFTとSimia-RLの2つのフレームワークを提案する。
Simia-SFTとSimia-RLは、環境工学を使わずにスケーラブルなエージェントトレーニングを可能にする。
論文 参考訳(メタデータ) (2025-11-03T18:29:57Z) - VLA-RFT: Vision-Language-Action Reinforcement Fine-tuning with Verified Rewards in World Simulators [38.880852900641]
VLA(Vision-Language-Action)モデルは、具体的意思決定を可能にするが、模倣学習に大きく依存する。
制御可能なシミュレータとしてデータ駆動世界モデルを利用する強化微調整フレームワークであるVLA-RFTを紹介する。
400歩未満の微調整ステップで、VLA-RFTは強い教師付きベースラインを超え、シミュレータベースのRLよりも高い効率を達成する。
論文 参考訳(メタデータ) (2025-10-01T01:33:10Z) - Generalizable Domain Adaptation for Sim-and-Real Policy Co-Training [21.855770200309674]
一般化可能な操作ポリシーを学習するための統合型sim-and-real協調学習フレームワークを提案する。
シミュレーションデータを活用することで,実世界の成功率を最大30%向上できることを示す。
論文 参考訳(メタデータ) (2025-09-23T04:32:53Z) - Overcoming the Sim-to-Real Gap: Leveraging Simulation to Learn to Explore for Real-World RL [25.991354823569033]
多くの制度において、直接シム2リアルトランスファーは失敗する可能性があるが、シミュレータを使って一連のエフェクト探索ポリシーを学習できることが示される。
特に、低ランクのMDPの設定においては、これらの探索政策と単純で実践的なアプローチが結合していることが示される。
これは、シミュレーション転送が直接sim2real転送が失敗する環境で強化学習において証明可能な利益をもたらすという最初の証拠である。
論文 参考訳(メタデータ) (2024-10-26T19:12:27Z) - A Conservative Approach for Few-Shot Transfer in Off-Dynamics Reinforcement Learning [3.1515473193934778]
オフダイナミックス強化学習(英語: Off-dynamics Reinforcement Learning)は、ソース環境から、異なるが類似したダイナミクスによって特徴づけられるターゲット環境へポリシーを移そうとする。
我々は近年のImitation Learningと保守的RLアルゴリズムの進歩に触発された革新的なアプローチを提案する。
論文 参考訳(メタデータ) (2023-12-24T13:09:08Z) - TrafficSim: Learning to Simulate Realistic Multi-Agent Behaviors [74.67698916175614]
リアル交通シミュレーションのためのマルチエージェント行動モデルであるTrafficSimを提案する。
特に、暗黙の潜在変数モデルを利用して、共同アクターポリシーをパラメータ化する。
TrafficSimは、多様なベースラインと比較して、より現実的で多様なトラフィックシナリオを生成します。
論文 参考訳(メタデータ) (2021-01-17T00:29:30Z) - RL-CycleGAN: Reinforcement Learning Aware Simulation-To-Real [74.45688231140689]
本稿では、画像翻訳におけるRL-scene整合性損失を導入し、画像に関連付けられたQ値に対して変換操作が不変であることを保証する。
RL-CycleGANは実世界のシミュレーションから実世界への変換による強化学習のための新しい手法である。
論文 参考訳(メタデータ) (2020-06-16T08:58:07Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。