論文の概要: Discover, Learn, and Reinforce: Scaling Vision-Language-Action Pretraining with Diverse RL-Generated Trajectories
- arxiv url: http://arxiv.org/abs/2511.19528v1
- Date: Mon, 24 Nov 2025 07:54:49 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-11-26 17:37:04.076676
- Title: Discover, Learn, and Reinforce: Scaling Vision-Language-Action Pretraining with Diverse RL-Generated Trajectories
- Title(参考訳): 探索・学習・強化:多元的RL生成軌道による視覚・言語・行動予測のスケーリング
- Authors: Rushuai Yang, Zhiyuan Feng, Tianxiang Zhang, Kaixin Wang, Chuheng Zhang, Li Zhao, Xiu Su, Yi Chen, Jiang Bian,
- Abstract要約: 視覚-言語-アクション(VLA)モデルの事前訓練には、多種多様な高品質な操作軌跡が必要となる。
本稿では,VLA事前学習のための複数の異なる高精度な行動パターンを生成するDiscover,Lea rn,Reinforceを提案する。
ダウンストリームのタスクスイートに適応すると、VLAモデルは、同じサイズの標準RLデータセットでトレーニングされたデータセットよりも、多様なRLデータで事前訓練された。
- 参考スコア(独自算出の注目度): 33.872433985210876
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Scaling vision-language-action (VLA) model pre-training requires large volumes of diverse, high-quality manipulation trajectories. Most current data is obtained via human teleoperation, which is expensive and difficult to scale. Reinforcement learning (RL) methods learn useful skills through autonomous exploration, making them a viable approach for generating data. However, standard RL training collapses to a narrow execution pattern, limiting its utility for large-scale pre-training. We propose Discover, Lea rn and Reinforce (DLR), an information-theoretic pattern discovery framework that generates multiple distinct, high-success behavioral patterns for VLA pretraining. Empirically, DLR generates a markedly more diverse trajectory corpus on LIBERO. Specifically, it learns multiple distinct, high-success strategies for the same task where standard RL discovers only one, and hence it covers substantially broader regions of the state-action space. When adapted to unseen downstream task suites, VLA models pretrained on our diverse RL data surpass counterparts trained on equal-sized standard RL datasets. Moreover, DLR exhibits positive data-scaling behavior that single-pattern RL lacks. These results position multi-pattern RL as a practical, scalable data engine for embodied foundation models.
- Abstract(参考訳): 視覚-言語-アクション(VLA)モデルの事前訓練には、多種多様な高品質な操作軌跡が必要となる。
現在のデータのほとんどは人的遠隔操作によって得られており、それは高価でスケールが難しい。
強化学習(RL)手法は、自律的な探索を通じて有用なスキルを学習し、データを生成するための実行可能なアプローチとなる。
しかし、標準のRLトレーニングは狭い実行パターンに崩壊し、大規模な事前トレーニングに有効性が制限される。
本稿では,情報理論のパターン探索フレームワークであるDiscover, Lea rn and Reinforce (DLR)を提案する。
実験的に、DLRはLIBERO上で著しく多様な軌道コーパスを生成する。
具体的には、標準RLが1つしか発見できない同じタスクに対して複数の異なる高精度戦略を学習し、したがって状態-作用空間のかなり広い領域をカバーする。
ダウンストリームのタスクスイートに適応すると、VLAモデルは、同じサイズの標準RLデータセットでトレーニングされたデータセットよりも、多様なRLデータで事前訓練された。
さらに、DLRは単一パターンRLに欠けているポジティブなデータスケーリング挙動を示す。
これらの結果から,マルチパターンRLを基礎モデルのための実用的でスケーラブルなデータエンジンとして位置づけた。
関連論文リスト
- Tool Zero: Training Tool-Augmented LLMs via Pure RL from Scratch [63.40752011615843]
ツール強化言語モデルのトレーニングは、複雑なタスクの能力を高めるための有望なアプローチとして登場した。
規則に基づく強化学習のための動的一般化誘導型報酬設計を提案する。
本研究では,SFTモデルとRL-with-SFTモデルと比較して7%以上の性能向上を実現していることを示す。
論文 参考訳(メタデータ) (2025-11-02T16:33:45Z) - Webscale-RL: Automated Data Pipeline for Scaling RL Data to Pretraining Levels [96.35283762778137]
我々は、強化学習のためのスケーラブルなデータエンジンであるWebscale-RLパイプラインを紹介した。
9ドメイン以上にわたる120万のサンプルを含むWebscale-RLデータセットを構築した。
我々の研究は、RLを事前学習レベルに拡張するための実行可能なパスを示し、より有能で効率的な言語モデルを可能にします。
論文 参考訳(メタデータ) (2025-10-07T22:30:59Z) - ActiveVLN: Towards Active Exploration via Multi-Turn RL in Vision-and-Language Navigation [57.399685080574756]
既存のMLLMベースのVLNメソッドは模倣学習(IL)に依存しており、ポストトレーニングにDAggerを使用することが多い。
マルチターンRLによるアクティブな探索を可能にするVLNフレームワークであるActiveVLNを提案する。
実験の結果,ActiveVLN は DAgger ベースと RL ベースのポストトレーニング手法と比較して,IL ベースラインよりも最大の性能向上を実現していることがわかった。
論文 参考訳(メタデータ) (2025-09-16T03:31:46Z) - SimpleVLA-RL: Scaling VLA Training via Reinforcement Learning [81.7764584515496]
VLA(Vision-Language-Action)モデルは、ロボット操作の強力なパラダイムとして登場した。
これらのモデルは2つの根本的な課題に直面している。
VLAモデルに適した効率的な強化学習フレームワークであるSimpleVLA-RLを紹介する。
論文 参考訳(メタデータ) (2025-09-11T17:59:17Z) - Echo Chamber: RL Post-training Amplifies Behaviors Learned in Pretraining [74.83412846804977]
強化学習(RL)に基づく微調整は、訓練後の言語モデルにおいて重要なステップとなっている。
数理推論のためのRLファインタニングを、スクラッチから完全にトレーニングモデルを用いて体系的にエンドツーエンドに研究する。
論文 参考訳(メタデータ) (2025-04-10T17:15:53Z) - TeaMs-RL: Teaching LLMs to Generate Better Instruction Datasets via Reinforcement Learning [7.9961739811640244]
大きな言語モデル(LLM)は、人間のアノテーションに大きく依存することによる課題に直面することが多い。
この作業では、強化学習(RL:Reinforcement Learning)へと方向転換します。
我々はRLを用いて、微調整だけで十分である基礎的な命令データセットを直接生成する。
論文 参考訳(メタデータ) (2024-03-13T16:57:57Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。