論文の概要: APRIL: Active Partial Rollouts in Reinforcement Learning to Tame Long-tail Generation
- arxiv url: http://arxiv.org/abs/2509.18521v3
- Date: Fri, 26 Sep 2025 22:20:15 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-09-30 11:50:46.812811
- Title: APRIL: Active Partial Rollouts in Reinforcement Learning to Tame Long-tail Generation
- Title(参考訳): APRIL:Tyo-tail 生成のための強化学習におけるアクティブ部分ロールアウト
- Authors: Yuzhen Zhou, Jiajun Li, Yusheng Su, Gowtham Ramesh, Zilin Zhu, Xiang Long, Chenyang Zhao, Jin Pan, Xiaodong Yu, Ze Wang, Kangrui Du, Jialian Wu, Ximeng Sun, Jiang Liu, Qiaolin Yu, Hao Chen, Zicheng Liu, Emad Barsoum,
- Abstract要約: 強化学習(RL)は、大規模事前訓練言語モデル(LLM)の進展の基盤となっている。
強化学習におけるアクティブ部分ロールアウト(APRIL)を提案する。
APRILはロールアウト要求をオーバープロビジョンし、ターゲットのレスポンス数が到達したら終了し、将来のステップで継続するために不完全なレスポンスをリサイクルする。
- 参考スコア(独自算出の注目度): 40.120847511378365
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Reinforcement learning (RL) has become a cornerstone in advancing large-scale pre-trained language models (LLMs). Successive generations, including GPT-o series, DeepSeek-R1, Kimi-K1.5, Grok 4, and GLM-4.5, have relied on large-scale RL training to enhance reasoning and coding capabilities. To meet the community's growing RL needs, numerous RL frameworks have been proposed. However, RL training remains computationally expensive, with rollout generation accounting for more than 90% of total runtime. In addition, its efficiency is often constrained by the long-tail distribution of rollout response lengths, where a few lengthy responses stall entire batches, leaving GPUs idle and underutilized. As model and rollout sizes continue to grow, this bottleneck increasingly limits scalability. To address this challenge, we propose Active Partial Rollouts in Reinforcement Learning (APRIL), which mitigates long-tail inefficiency. In the rollout phase, APRIL over-provisions rollout requests, terminates once the target number of responses is reached, and recycles incomplete responses for continuation in future steps. This strategy ensures that no rollouts are discarded while substantially reducing GPU idle time. Experiments show that APRIL improves rollout throughput by 22.5% on average (at most 44%) across commonly used RL algorithms (GRPO, DAPO, GSPO), accelerates convergence, and achieves 2.1% on average(at most 8%) higher final accuracy across tasks. Moreover, APRIL is both framework and hardware agnostic, already integrated into the slime RL framework, and deployable on NVIDIA and AMD GPUs alike. Taken together, this work unifies system-level and algorithmic considerations in proposing APRIL, with the aim of advancing RL training efficiency and inspiring further optimizations in RL systems. Our codebase is available at https://github.com/RLsys-Foundation/APRIL
- Abstract(参考訳): 強化学習(RL)は,大規模事前訓練言語モデル(LLM)の進展の基盤となっている。
GPT-oシリーズ、DeepSeek-R1、Kim-K1.5、Grok 4、GLM-4.5といった世代は、推論とコーディング能力を高めるために大規模なRLトレーニングに依存している。
コミュニティのRLのニーズを満たすために、多くのRLフレームワークが提案されている。
しかし、RLトレーニングは計算コストがかかり、ロールアウト生成は全ランタイムの90%以上を占める。
さらに、その効率はロールアウトレスポンス長の長いテール分布によって制限されることが多く、いくつかの応答がバッチ全体を停止し、GPUはアイドル状態のままにして未使用のままである。
モデルとロールアウトのサイズが拡大するにつれて、このボトルネックはスケーラビリティをますます制限します。
この課題に対処するために、長い尾の非効率を緩和する強化学習におけるアクティブ部分ロールアウト(APRIL)を提案する。
ロールアウトフェーズでは、APRILはロールアウト要求をオーバープロビジョンし、ターゲットのレスポンス数が到達したら終了し、将来のステップで継続するために不完全なレスポンスをリサイクルする。
この戦略により、GPUアイドル時間を大幅に削減しながら、ロールアウトが破棄されないことが保証される。
実験の結果、APRILは一般的なRLアルゴリズム(GRPO、DAPO、GSPO)で平均22.5%(最大44%)のロールアウトスループットを改善し、収束を加速し、タスク間の最終精度を平均2.1%向上した。
さらに、APRILはフレームワークとハードウェアに依存しないため、すでにスリムなRLフレームワークに統合されており、NVIDIAやAMD GPUにもデプロイ可能である。
この研究は、RL訓練効率の向上とRLシステムのさらなる最適化をめざして、APRILの提案におけるシステムレベルとアルゴリズムの考慮を統一するものである。
私たちのコードベースはhttps://github.com/RLsys-Foundation/APRILで利用可能です。
関連論文リスト
- A Survey of Reinforcement Learning for Large Reasoning Models [98.58081012669369]
大規模言語モデルによる推論のための強化学習の最近の進歩について
LRMのためのRLのさらなるスケーリングは、計算資源だけでなく、アルゴリズム設計、トレーニングデータ、インフラにおいても課題に直面している。
論文 参考訳(メタデータ) (2025-09-10T17:59:43Z) - History Rhymes: Accelerating LLM Reinforcement Learning with RhymeRL [14.506189610798929]
強化学習(Reinforcement Learning, RL)は、大規模言語モデル(LLM)の推論能力を高めるための重要な方法論として登場した。
RhymeRLは、RLトレーニングを2つの重要なイノベーションで加速するLLM RLシステムである。
まず、ロールアウト生成を強化するために、投機的復号推論エンジンであるHistoSpecを紹介する。
第二に、ロールアウトバブルに取り組むために、2層スケジューリング戦略であるHistoPipeを紹介します。
論文 参考訳(メタデータ) (2025-08-26T01:42:46Z) - Shuffle-R1: Efficient RL framework for Multimodal Large Language Models via Data-centric Dynamic Shuffle [53.239242017802056]
強化学習(Reinforcement Learning, RL)は、マルチモーダル大言語モデル(MLLM)の推論能力を高めるための効果的なポストトレーニングパラダイムとして登場した。
しかしながら、現在のRLパイプラインは、アドバンテージ・コラプシング(Advantage Collapsing)とロールアウト・サイレンシング(Rollout Silencing)という2つの未解決の問題によって、トレーニングの非効率に悩まされることが多い。
軌道サンプリングとバッチ合成を動的に再構成することにより、RLの微調整効率を向上する、シンプルだが原則化されたフレームワークであるShuffle-R1を提案する。
論文 参考訳(メタデータ) (2025-08-07T17:53:47Z) - Enhancing Efficiency and Exploration in Reinforcement Learning for LLMs [12.087316618902433]
大型言語モデル(LLM)の推論は複雑なタスクに優れている。
既存のアプローチでは、強化学習(RL)中に全ての質問に同じ数のロールアウトを割り当てている。
本稿では,問題の難易度に基づいて動的にロールアウト予算を割り当てる機構を提案する。
論文 参考訳(メタデータ) (2025-05-24T07:28:29Z) - StreamRL: Scalable, Heterogeneous, and Elastic RL for LLMs with Disaggregated Stream Generation [55.75008325187133]
強化学習(RL)は,大規模言語モデル(LLM)の学習後のコアとなる。
StreamRLは、最初の原則から分離して、2種類のパフォーマンスボトルネックに対処するように設計されている。
実験により、StreamRLは既存の最先端システムと比較してスループットを最大2.66倍改善することが示された。
論文 参考訳(メタデータ) (2025-04-22T14:19:06Z) - SRL: Scaling Distributed Reinforcement Learning to Over Ten Thousand Cores [13.948640763797776]
本稿では,RLトレーニングアプリケーションを汎用フレームワークに統合する,RLトレーニングのデータフローに関する新しい抽象化を提案する。
スケーラブルで効率的で分散的なRLシステムであるReaLly scalableRLを開発した。
SRLは15k以上のCPUコアでRL実験を大規模に実施した初めての学術コミュニティである。
論文 参考訳(メタデータ) (2023-06-29T05:16:25Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。