論文の概要: SimpleVLA-RL: Scaling VLA Training via Reinforcement Learning
- arxiv url: http://arxiv.org/abs/2509.09674v1
- Date: Thu, 11 Sep 2025 17:59:17 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-09-12 16:52:24.511753
- Title: SimpleVLA-RL: Scaling VLA Training via Reinforcement Learning
- Title(参考訳): SimpleVLA-RL:強化学習によるVLAトレーニングのスケーリング
- Authors: Haozhan Li, Yuxin Zuo, Jiale Yu, Yuhao Zhang, Zhaohui Yang, Kaiyan Zhang, Xuekai Zhu, Yuchen Zhang, Tianxing Chen, Ganqu Cui, Dehui Wang, Dingxiang Luo, Yuchen Fan, Youbang Sun, Jia Zeng, Jiangmiao Pang, Shanghang Zhang, Yu Wang, Yao Mu, Bowen Zhou, Ning Ding,
- Abstract要約: VLA(Vision-Language-Action)モデルは、ロボット操作の強力なパラダイムとして登場した。
これらのモデルは2つの根本的な課題に直面している。
VLAモデルに適した効率的な強化学習フレームワークであるSimpleVLA-RLを紹介する。
- 参考スコア(独自算出の注目度): 81.7764584515496
- License: http://creativecommons.org/licenses/by-nc-sa/4.0/
- Abstract: Vision-Language-Action (VLA) models have recently emerged as a powerful paradigm for robotic manipulation. Despite substantial progress enabled by large-scale pretraining and supervised fine-tuning (SFT), these models face two fundamental challenges: (i) the scarcity and high cost of large-scale human-operated robotic trajectories required for SFT scaling, and (ii) limited generalization to tasks involving distribution shift. Recent breakthroughs in Large Reasoning Models (LRMs) demonstrate that reinforcement learning (RL) can dramatically enhance step-by-step reasoning capabilities, raising a natural question: Can RL similarly improve the long-horizon step-by-step action planning of VLA? In this work, we introduce SimpleVLA-RL, an efficient RL framework tailored for VLA models. Building upon veRL, we introduce VLA-specific trajectory sampling, scalable parallelization, multi-environment rendering, and optimized loss computation. When applied to OpenVLA-OFT, SimpleVLA-RL achieves SoTA performance on LIBERO and even outperforms $\pi_0$ on RoboTwin 1.0\&2.0 with the exploration-enhancing strategies we introduce. SimpleVLA-RL not only reduces dependence on large-scale data and enables robust generalization, but also remarkably surpasses SFT in real-world tasks. Moreover, we identify a novel phenomenon ``pushcut'' during RL training, wherein the policy discovers previously unseen patterns beyond those seen in the previous training process. Github: https://github.com/PRIME-RL/SimpleVLA-RL
- Abstract(参考訳): VLA(Vision-Language-Action)モデルは、ロボット操作の強力なパラダイムとして最近登場した。
大規模な事前訓練と教師付き微調整(SFT)によって大幅に進歩したにもかかわらず、これらのモデルは2つの根本的な課題に直面している。
一 SFTスケーリングに必要な大規模人力ロボット軌道の不足とコスト
(II)分布シフトを含むタスクへの限定的な一般化。
最近のLRM(Large Reasoning Models)のブレークスルーは、強化学習(RL)がステップバイステップ推論能力を劇的に向上できることを示し、自然な疑問を提起している。
本稿では,VLAモデルに適した効率的なRLフレームワークであるSimpleVLA-RLを紹介する。
veRLに基づいて、VLA固有の軌道サンプリング、拡張並列化、マルチ環境レンダリング、最適化された損失計算を導入する。
OpenVLA-OFTに適用すると、SimpleVLA-RLはLIBERO上でSoTAのパフォーマンスを達成し、RoboTwin 1.0\&2.0で$\pi_0$を上回ります。
SimpleVLA-RLは大規模データへの依存を減らし、堅牢な一般化を可能にするだけでなく、現実世界のタスクにおいてSFTをはるかに上回る。
さらに、RLトレーニング中に「プッシュカット」という新たな現象を識別し、前回のトレーニングプロセスで見られたものを超える、これまで見えなかったパターンを検出する。
Github:https://github.com/PRIME-RL/SimpleVLA-RL
関連論文リスト
- Not All Steps are Informative: On the Linearity of LLMs' RLVR Training [14.59942263367421]
検証可能な報酬(RLVR)による強化学習は,大規模言語モデル(LLM)のポストトレーニングの中心的コンポーネントとなっている。
本研究では,将来のモデル状態が外挿による中間チェックポイントから予測可能かどうかを検討する。
Weight Extrapolationは標準RLトレーニングに匹敵する性能のモデルを生成すると同時に,計算量を大幅に削減することを示した。
論文 参考訳(メタデータ) (2026-01-08T03:06:18Z) - Discover, Learn, and Reinforce: Scaling Vision-Language-Action Pretraining with Diverse RL-Generated Trajectories [33.872433985210876]
視覚-言語-アクション(VLA)モデルの事前訓練には、多種多様な高品質な操作軌跡が必要となる。
本稿では,VLA事前学習のための複数の異なる高精度な行動パターンを生成するDiscover,Lea rn,Reinforceを提案する。
ダウンストリームのタスクスイートに適応すると、VLAモデルは、同じサイズの標準RLデータセットでトレーニングされたデータセットよりも、多様なRLデータで事前訓練された。
論文 参考訳(メタデータ) (2025-11-24T07:54:49Z) - Tool Zero: Training Tool-Augmented LLMs via Pure RL from Scratch [63.40752011615843]
ツール強化言語モデルのトレーニングは、複雑なタスクの能力を高めるための有望なアプローチとして登場した。
規則に基づく強化学習のための動的一般化誘導型報酬設計を提案する。
本研究では,SFTモデルとRL-with-SFTモデルと比較して7%以上の性能向上を実現していることを示す。
論文 参考訳(メタデータ) (2025-11-02T16:33:45Z) - Evolution Strategies at Scale: LLM Fine-Tuning Beyond Reinforcement Learning [16.095629872564874]
強化学習はおそらく最も顕著な微調整法である。
進化戦略(ES)はかつて、数百万のパラメータを持つモデルでRLに匹敵する性能を示した。
ESは数十億のパラメータを効率的に探索し、既存のRLファインチューニング手法より優れている。
論文 参考訳(メタデータ) (2025-09-29T07:19:34Z) - Reinforcement Learning on Pre-Training Data [55.570379963147424]
我々は,大規模言語モデル(LLM)を最適化するための新しい訓練時間スケーリングパラダイムである,事前学習データ(R)の強化学習を紹介する。
Rは、有意義な軌道を自律的に探索し、事前学習データから学び、強化学習(RL)を通してその能力を向上させる。
複数のモデルにわたる一般領域および数学的推論ベンチマークの広範な実験は、Rの有効性を検証した。
論文 参考訳(メタデータ) (2025-09-23T17:10:40Z) - PipelineRL: Faster On-policy Reinforcement Learning for Long Sequence Generation [47.510888611491]
大規模言語モデル(LLM)の推論能力を高めるために強化学習(RL)がますます活用されている。
本稿では、ハードウェア効率と政治上のデータとの良好なトレードオフを実現するために設計されたPipelineRLを紹介する。
論文 参考訳(メタデータ) (2025-09-23T15:15:21Z) - ActiveVLN: Towards Active Exploration via Multi-Turn RL in Vision-and-Language Navigation [57.399685080574756]
既存のMLLMベースのVLNメソッドは模倣学習(IL)に依存しており、ポストトレーニングにDAggerを使用することが多い。
マルチターンRLによるアクティブな探索を可能にするVLNフレームワークであるActiveVLNを提案する。
実験の結果,ActiveVLN は DAgger ベースと RL ベースのポストトレーニング手法と比較して,IL ベースラインよりも最大の性能向上を実現していることがわかった。
論文 参考訳(メタデータ) (2025-09-16T03:31:46Z) - Beyond Accuracy: Dissecting Mathematical Reasoning for LLMs Under Reinforcement Learning [93.00629872970364]
強化学習(Reinforcement Learning, RL)は, 複雑な推論タスクにおいて, 言語モデルの性能向上のための主要なパラダイムとなっている。
SPARKLE(SPARKLE)は、3つの重要な次元にわたるRLの効果を詳細に解析するフレームワークである。
我々は、RL信号と混合品質の推論トレースを産出しない難題が、依然としてトレーニングに有効であるかどうかを調査する。
論文 参考訳(メタデータ) (2025-06-05T07:53:59Z) - Scaling Offline RL via Efficient and Expressive Shortcut Models [13.050231036248338]
ノイズサンプリングプロセスの反復性のため, オフライン強化学習(RL)は依然として困難である。
本稿では、ショートカットモデルを利用してトレーニングと推論の両方をスケールする新しいオフラインRLアルゴリズムであるScalable Offline Reinforcement Learning (SORL)を紹介する。
我々は、SORLがオフラインのRLタスクにまたがって高い性能を達成し、テスト時間計算の増大とともに正のスケーリング挙動を示すことを示した。
論文 参考訳(メタデータ) (2025-05-28T20:59:22Z) - What Can RL Bring to VLA Generalization? An Empirical Study [42.58811485942049]
VLA(Large Vision-Language Action)モデルは、AIを具現化する大きな可能性を示している。
教師付き微調整(SFT)による主な訓練は、分散シフト下での複合誤差による一般化を制限する。
本稿では,VLAの一般化評価のための総合的ベンチマークを導入し,RL微調整の影響を系統的に検討する。
論文 参考訳(メタデータ) (2025-05-26T10:19:26Z) - VLA-RL: Towards Masterful and General Robotic Manipulation with Scalable Reinforcement Learning [14.099306230721245]
VLA-RLは、オンライン収集データをテスト時に改善する探索ベースのフレームワークである。
自動抽出タスクセグメントにアノテートされた擬似報酬ラベルに基づいてトレーニングされたロボットプロセス報酬モデルとして、事前学習された視覚言語モデルを微調整する。
VLA-RLにより、OpenVLA-7BはLIBEROの40の挑戦的なロボット操作タスクにおいて、最強の微調整ベースラインを4.5%超えることができる。
論文 参考訳(メタデータ) (2025-05-24T14:42:51Z) - Does Reinforcement Learning Really Incentivize Reasoning Capacity in LLMs Beyond the Base Model? [67.30809748319486]
RLVR(Reinforcement Learning with Verifiable Rewards)は近年,大規模言語モデル(LLM)の推論性能の向上に成功している。
本研究はRLVRの現状を批判的に考察する。
現在のトレーニング設定では、根本的な新しい推論パターンが生まれていないことが分かりました。
論文 参考訳(メタデータ) (2025-04-18T17:59:56Z) - OpenVLThinker: Complex Vision-Language Reasoning via Iterative SFT-RL Cycles [91.88062410741833]
我々はOpenVLThinkerを紹介した。OpenVLThinkerはオープンソースの大規模視覚言語モデル(LVLM)の1つである。
OpenVLThinker-7Bは、数学的および一般的な推論を必要とする6つのベンチマークで一貫して性能を向上することを示す。
論文 参考訳(メタデータ) (2025-03-21T17:52:43Z) - How Can LLM Guide RL? A Value-Based Approach [68.55316627400683]
強化学習(Reinforcement Learning, RL)は、将来の行動方針をフィードバックで改善することにより、シーケンシャルな意思決定問題の事実上の標準的実践となった。
大規模言語モデル(LLM)の最近の発展は、言語理解と生成において印象的な能力を示したが、探索と自己改善能力に欠けていた。
我々はLINVITというアルゴリズムを開発し、LLMガイダンスを値ベースRLの正規化因子として組み込んで学習に必要なデータ量を大幅に削減する。
論文 参考訳(メタデータ) (2024-02-25T20:07:13Z) - On Transforming Reinforcement Learning by Transformer: The Development
Trajectory [97.79247023389445]
Transformerは元々自然言語処理用に開発されたもので、コンピュータビジョンでも大きな成功を収めている。
既存の開発をアーキテクチャ拡張と軌道最適化の2つのカテゴリに分類する。
ロボット操作,テキストベースのゲーム,ナビゲーション,自律運転におけるTRLの主な応用について検討する。
論文 参考訳(メタデータ) (2022-12-29T03:15:59Z) - POAR: Efficient Policy Optimization via Online Abstract State
Representation Learning [6.171331561029968]
状態表現学習(SRL)は,複雑な感覚データからタスク関連特徴を低次元状態に符号化する。
我々は、SRLの解釈を改善するために、専門家のデモンストレーションを活用するために、ドメイン類似と呼ばれる新しいSRLを導入する。
我々はPOARを実証的に検証し、高次元のタスクを効率的に処理し、スクラッチから直接実生活ロボットの訓練を容易にする。
論文 参考訳(メタデータ) (2021-09-17T16:52:03Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。