論文の概要: RL-VLA$^3$: Reinforcement Learning VLA Accelerating via Full Asynchronism
- arxiv url: http://arxiv.org/abs/2602.05765v1
- Date: Thu, 05 Feb 2026 15:30:23 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-02-06 18:49:09.002662
- Title: RL-VLA$^3$: Reinforcement Learning VLA Accelerating via Full Asynchronism
- Title(参考訳): RL-VLA$^3$:完全同期による強化学習VLA加速
- Authors: Zhong Guan, Haoran Sun, Yongjian Guo, Shuai Di, Xiaodong Bai, Jing Long, Tianyun Zhao, Mingxi Luo, Chen Zhou, Yucheng Guo, Qiming Yang, Wanting Xu, Wen Huang, Yunxuan Ma, Hongke Zhao, Likang Wu, Xiaotie Deng, Xi Xiao, Sheng Wen, Yicheng Gong, Junwu Xiong,
- Abstract要約: VLA(Vision-Language-Action)モデルは、一般的なインボディードインテリジェンスへの重要な経路として登場した。
本稿では,環境相互作用からアクタポリシー更新に至るまで,パイプライン全体を包含する完全に非同期なポリシートレーニングフレームワークを提案し,実装する。
LIBEROベンチマークでは、既存の同期戦略と比較して59.25%のスループット向上を実現している。
- 参考スコア(独自算出の注目度): 42.27384804295299
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: In recent years, Vision-Language-Action (VLA) models have emerged as a crucial pathway towards general embodied intelligence, yet their training efficiency has become a key bottleneck. Although existing reinforcement learning (RL)-based training frameworks like RLinf can enhance model generalization, they still rely on synchronous execution, leading to severe resource underutilization and throughput limitations during environment interaction, policy generation (rollout), and model update phases (actor). To overcome this challenge, this paper, for the first time, proposes and implements a fully-asynchronous policy training framework encompassing the entire pipeline from environment interaction, rollout generation, to actor policy updates. Systematically drawing inspiration from asynchronous optimization ideas in large model RL, our framework designs a multi-level decoupled architecture. This includes asynchronous parallelization of environment interaction and trajectory collection, streaming execution for policy generation, and decoupled scheduling for training updates. We validated the effectiveness of our method across diverse VLA models and environments. On the LIBERO benchmark, the framework achieves throughput improvements of up to 59.25\% compared to existing synchronous strategies. When deeply optimizing separation strategies, throughput can be increased by as much as 126.67\%. We verified the effectiveness of each asynchronous component via ablation studies. Scaling law validation across 8 to 256 GPUs demonstrates our method's excellent scalability under most conditions.
- Abstract(参考訳): 近年、ビジョン・ランゲージ・アクション(VLA)モデルは、一般的なインボディード・インテリジェンスへの重要な経路として現れているが、その訓練効率は重要なボトルネックとなっている。
RLinfのような既存の強化学習(RL)ベースのトレーニングフレームワークはモデルの一般化を強化することができるが、同期実行に依存しているため、環境相互作用やポリシー生成(ロールアウト)、モデル更新フェーズ(アクター)などにおいて、リソースの不使用やスループットの制限が厳しくなる。
この課題を克服するために,本論文では,環境相互作用からロールアウト生成,アクタポリシ更新に至るまで,パイプライン全体を包含する完全に非同期なポリシトレーニングフレームワークを初めて提案し,実装する。
大規模モデルRLにおける非同期最適化のアイデアから体系的にインスピレーションを得て、我々のフレームワークはマルチレベルの疎結合アーキテクチャを設計する。
これには、環境インタラクションとトラジェクトリコレクションの非同期並列化、ポリシ生成のためのストリーミング実行、トレーニング更新のための分離されたスケジューリングが含まれる。
多様なVLAモデルと環境にまたがって,本手法の有効性を検証した。
LIBEROベンチマークでは、既存の同期戦略と比較して59.25倍のスループット向上を実現している。
分離戦略を深く最適化する場合、スループットを最大126.67\%向上させることができる。
それぞれの非同期成分の有効性をアブレーション研究により検証した。
8から256GPUにわたる法則検証のスケーリングは、ほとんどの条件下での我々の方法の優れたスケーラビリティを示す。
関連論文リスト
- DiRL: An Efficient Post-Training Framework for Diffusion Language Models [54.405206032785706]
Diffusion Language Models (dLLMs) はAuto-Regressive(AR)モデルに代わる有望な代替品として登場した。
既存の手法は、訓練と推論の間の計算の非効率性と客観的なミスマッチに悩まされている。
我々は,FlexAttention-accelerated blockwise trainingとLMDeploy-timized inferenceを密接に統合した,効率的なポストトレーニングフレームワークであるDiRLを紹介した。
論文 参考訳(メタデータ) (2025-12-23T08:33:19Z) - AReaL-Hex: Accommodating Asynchronous RL Training over Heterogeneous GPUs [24.96730768606278]
異種対応非同期RLトレーニングシステムであるAReaL-Hexを提案する。
ヘテロジニアスGPU上でロールアウト生成とポリシモデルのトレーニングを実行する方法を、効果的にスケジュールする。
最大1.50倍のトレーニングスループットと1.46倍のトレーニングコストの削減を提供する。
論文 参考訳(メタデータ) (2025-11-02T04:17:30Z) - DRL: Discriminative Representation Learning with Parallel Adapters for Class Incremental Learning [63.65467569295623]
本稿では,これらの課題に対処するための差別的表現学習(DRL)フレームワークを提案する。
逐次学習を効果的かつ効率的に行うために、DRLのネットワークはPTM上に構築される。
我々のDRLは、CIL時代を通して、他の最先端の手法よりも一貫して優れています。
論文 参考訳(メタデータ) (2025-10-14T03:19:15Z) - DAWM: Diffusion Action World Models for Offline Reinforcement Learning via Action-Inferred Transitions [6.723690093335988]
本研究では,現在の状態,行動,帰路を条件に,将来の状態逆トラジェクトリを生成する拡散型世界モデルを提案する。
我々は、TD3BCやIQLのような保守的なオフラインRLアルゴリズムは、これらの拡張軌道のトレーニングから大きな恩恵を受けることを示す。
論文 参考訳(メタデータ) (2025-09-23T20:06:26Z) - Adaptive Policy Synchronization for Scalable Reinforcement Learning [0.0]
ClusterEnvは、分散環境実行のための軽量インターフェースである。
オンプレミスとオフラインの両方をサポートし、最小限の変更で既存のトレーニングコードに統合され、クラスタ上で効率的に実行される。
論文 参考訳(メタデータ) (2025-07-15T05:07:12Z) - AsyncFlow: An Asynchronous Streaming RL Framework for Efficient LLM Post-Training [24.60677187852425]
強化学習(RL)は、大規模言語モデル(LLM)の訓練後の段階において重要な技術となっている。
従来のタスクコロケーションのRLフレームワークは、大きなスケーラビリティのボトルネックに悩まされている。
タスク分離RLフレームワークは、複雑なデータフローとそれに対応するリソースアイドリングとワークロードの不均衡の課題に直面します。
本稿では,非同期ストリーミングRLフレームワークであるAsyncFlowを提案する。
論文 参考訳(メタデータ) (2025-07-02T12:45:34Z) - Ring-lite: Scalable Reasoning via C3PO-Stabilized Reinforcement Learning for LLMs [51.21041884010009]
Ring-liteは、強化学習(RL)により最適化されたMixture-of-Experts(MoE)ベースの大規模言語モデルである
我々のアプローチは、挑戦的なベンチマーク上でのSOTA(State-of-the-art)の小規模推論モデルの性能と一致する。
論文 参考訳(メタデータ) (2025-06-17T17:12:34Z) - StreamRL: Scalable, Heterogeneous, and Elastic RL for LLMs with Disaggregated Stream Generation [55.75008325187133]
強化学習(RL)は,大規模言語モデル(LLM)の学習後のコアとなる。
StreamRLは、最初の原則から分離して、2種類のパフォーマンスボトルネックに対処するように設計されている。
実験により、StreamRLは既存の最先端システムと比較してスループットを最大2.66倍改善することが示された。
論文 参考訳(メタデータ) (2025-04-22T14:19:06Z) - Efficient Parallel Reinforcement Learning Framework using the Reactor
Model [2.190190313041532]
強化学習(RL)フレームワークは、RLワークロードを複数の計算リソースにマッピングするために不可欠である。
Rayのような既存のフレームワークは、このオーケストレーションを効率的に管理していない。
我々は,アクターの集合が固定的な通信パターンを持つように強制するリアクターモデルを実装するソリューションを提案している。
論文 参考訳(メタデータ) (2023-12-07T21:19:57Z) - An Efficient Asynchronous Method for Integrating Evolutionary and
Gradient-based Policy Search [76.73477450555046]
本稿では、ESの並列効率を最大化し、ポリシー勾配法と統合する非同期進化戦略強化学習(AES-RL)を提案する。
具体的には、(1)ESとDRLを非同期にマージする新しいフレームワークを提案し、2)非同期、ES、DRLのすべての利点を利用できる様々な非同期更新方法を提案する。
論文 参考訳(メタデータ) (2020-12-10T02:30:48Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。