論文の概要: Part II: ROLL Flash -- Accelerating RLVR and Agentic Training with Asynchrony
- arxiv url: http://arxiv.org/abs/2510.11345v1
- Date: Mon, 13 Oct 2025 12:41:27 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-10-14 18:06:30.363959
- Title: Part II: ROLL Flash -- Accelerating RLVR and Agentic Training with Asynchrony
- Title(参考訳): Part II: ROLL Flash -- RLVRの高速化と非同期エージェントトレーニング
- Authors: Han Lu, Zichen Liu, Shaopan Xiong, Yancheng He, Wei Gao, Yanan Wu, Weixun Wang, Jiashun Liu, Yang Li, Haizhou Zhao, Ju Huang, Siran Yang, Xiaoyang Li, Yijia Luo, Zihe Liu, Ling Pan, Junchi Yan, Wei Wang, Wenbo Su, Jiamang Wang, Lin Qu, Bo Zheng,
- Abstract要約: ROLL Flashは、ROLLを拡張し、非同期RLポストトレーニングをネイティブにサポートするシステムである。
ROLL Flashは同期RLポストトレーニングよりもリソース利用とスケーラビリティを著しく向上させることを示す。
- 参考スコア(独自算出の注目度): 78.70328630805041
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Synchronous Reinforcement Learning (RL) post-training has emerged as a crucial step for enhancing Large Language Models (LLMs) with diverse capabilities. However, many systems designed to accelerate RL post-training still suffer from low resource utilization and limited scalability. We present ROLL Flash, a system that extends ROLL with native support for asynchronous RL post-training. ROLL Flash is built upon two core design principles: fine-grained parallelism and rollout-train decoupling. Guided by these principles, ROLL Flash provides flexible programming interfaces that enable a fully asynchronous training architecture and support efficient rollout mechanisms, including queue scheduling and environment-level asynchronous execution. Through comprehensive theoretical analysis and extensive experiments, we demonstrate that ROLL Flash significantly improves resource utilization and scalability over synchronous RL post-training. ROLL Flash achieves up to 2.24x speedup on RLVR tasks and 2.72x on agentic tasks, using the same GPU budget as synchronous baselines. Furthermore, we implement several popular off-policy algorithms and verify that asynchronous training can achieve performance on par with synchronous training.
- Abstract(参考訳): 同期強化学習(RL)ポストトレーニングは、多種多様な機能を持つ大規模言語モデル(LLM)を強化するための重要なステップとして登場した。
しかし、RL後処理を高速化するように設計されたシステムの多くは、リソース利用の低さとスケーラビリティの制限に悩まされている。
ROLL Flash は ROLL を拡張し,非同期 RL ポストトレーニングをネイティブにサポートするシステムである。
ROLL Flashは2つのコア設計原則の上に構築されている。
これらの原則によってガイドされたROLL Flashは、完全な非同期トレーニングアーキテクチャを可能にするフレキシブルなプログラミングインターフェースを提供し、キューのスケジューリングや環境レベルの非同期実行を含む効率的なロールアウトメカニズムをサポートする。
総合的な理論的解析と広範な実験により、ROLL Flashは同期RLポストトレーニングよりもリソース利用とスケーラビリティを大幅に改善することを示した。
ROLL FlashはRLVRタスクで2.24倍、エージェントタスクで2.72倍のスピードアップを達成する。
さらに、いくつかの一般的なオフポリシーアルゴリズムを実装し、非同期トレーニングが同期トレーニングと同等のパフォーマンスを達成できることを検証する。
関連論文リスト
- RLinf: Flexible and Efficient Large-scale Reinforcement Learning via Macro-to-Micro Flow Transformation [48.387059398752626]
強化学習(Reinforcement Learning, RL)は、人工知能、エージェントインテリジェンス、エンボディドインテリジェンスを進化させる大きな可能性を実証している。
本稿では,RL学習を効率化するための主要な障害がシステムの柔軟性にあるというキーとなる観察に基づいて,高性能なRLトレーニングシステムであるRLinfを提案する。
RLinfは最先端のシステムより一貫して優れており、エンドツーエンドのトレーニングスループットで1.1x-2.13xのスピードアップを達成した。
論文 参考訳(メタデータ) (2025-09-19T13:24:17Z) - Shuffle-R1: Efficient RL framework for Multimodal Large Language Models via Data-centric Dynamic Shuffle [53.239242017802056]
強化学習(Reinforcement Learning, RL)は、マルチモーダル大言語モデル(MLLM)の推論能力を高めるための効果的なポストトレーニングパラダイムとして登場した。
しかしながら、現在のRLパイプラインは、アドバンテージ・コラプシング(Advantage Collapsing)とロールアウト・サイレンシング(Rollout Silencing)という2つの未解決の問題によって、トレーニングの非効率に悩まされることが多い。
軌道サンプリングとバッチ合成を動的に再構成することにより、RLの微調整効率を向上する、シンプルだが原則化されたフレームワークであるShuffle-R1を提案する。
論文 参考訳(メタデータ) (2025-08-07T17:53:47Z) - AsyncFlow: An Asynchronous Streaming RL Framework for Efficient LLM Post-Training [24.60677187852425]
強化学習(RL)は、大規模言語モデル(LLM)の訓練後の段階において重要な技術となっている。
従来のタスクコロケーションのRLフレームワークは、大きなスケーラビリティのボトルネックに悩まされている。
タスク分離RLフレームワークは、複雑なデータフローとそれに対応するリソースアイドリングとワークロードの不均衡の課題に直面します。
本稿では,非同期ストリーミングRLフレームワークであるAsyncFlowを提案する。
論文 参考訳(メタデータ) (2025-07-02T12:45:34Z) - StreamRL: Scalable, Heterogeneous, and Elastic RL for LLMs with Disaggregated Stream Generation [55.75008325187133]
強化学習(RL)は,大規模言語モデル(LLM)の学習後のコアとなる。
StreamRLは、最初の原則から分離して、2種類のパフォーマンスボトルネックに対処するように設計されている。
実験により、StreamRLは既存の最先端システムと比較してスループットを最大2.66倍改善することが示された。
論文 参考訳(メタデータ) (2025-04-22T14:19:06Z) - Asynchronous RLHF: Faster and More Efficient Off-Policy RL for Language Models [11.624678008637623]
RLHFにおける生成と学習の分離を提案する。
オンラインDPOは、政治以外のデータに対して最も堅牢である。
非同期トレーニングは、オンラインだが非政治的なRLHFという未調査の制度に依存している。
論文 参考訳(メタデータ) (2024-10-23T19:59:50Z) - Efficient Parallel Reinforcement Learning Framework using the Reactor
Model [2.190190313041532]
強化学習(RL)フレームワークは、RLワークロードを複数の計算リソースにマッピングするために不可欠である。
Rayのような既存のフレームワークは、このオーケストレーションを効率的に管理していない。
我々は,アクターの集合が固定的な通信パターンを持つように強制するリアクターモデルを実装するソリューションを提案している。
論文 参考訳(メタデータ) (2023-12-07T21:19:57Z) - High-Throughput Synchronous Deep RL [132.43861715707905]
HTS-RL(High-Throughput Synchronous Deep Reinforcement Learning)の提案
私たちは同時に学習とロールアウトを行い、古いポリシーを避けるシステム設計を考案します。
我々は,アタリゲームとGoogle Research Football環境に対するアプローチを評価した。
論文 参考訳(メタデータ) (2020-12-17T18:59:01Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。