論文の概要: RollPacker: Mitigating Long-Tail Rollouts for Fast, Synchronous RL Post-Training
- arxiv url: http://arxiv.org/abs/2509.21009v1
- Date: Thu, 25 Sep 2025 11:13:22 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-09-26 20:58:12.858383
- Title: RollPacker: Mitigating Long-Tail Rollouts for Fast, Synchronous RL Post-Training
- Title(参考訳): RollPacker: 高速で同期的なRLポストトレーニングのためのロングテールロールアウトの緩和
- Authors: Wei Gao, Yuheng Zhao, Dakai An, Tianyuan Wu, Lunxi Cao, Shaopan Xiong, Ju Huang, Weixun Wang, Siran Yang, Wenbo Su, Jiamang Wang, Lin Qu, Bo Zheng, Wei Wang,
- Abstract要約: 強化学習(Reinforcement Learning, RL)は、大規模言語モデル(LLM)の推論能力を高めるための重要なポストトレーニング手法である。
多くのRLシステムは同期を緩和することでこの問題を緩和しようとするが、これは精度のトレーニングを損なう可能性がある。
同期RLのための新しいロールアウトスケジューリング戦略であるtailを導入し,ロールアウトステップの小さなサブセット(ロングラウンド)に長いテール応答をもたらすプロンプトを体系的に統合する。
RollPackerは、veRLと比較して2.03x-2.56xのトレーニング時間を短縮し、Qwen2.5のRLHFuseよりも最大2.24倍のスピードアップを実現している。
- 参考スコア(独自算出の注目度): 19.00988498482758
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Reinforcement Learning (RL) is a pivotal post-training technique for enhancing the reasoning capabilities of Large Language Models (LLMs). However, synchronous RL post-training often suffers from significant GPU underutilization, referred to as bubbles, caused by imbalanced response lengths within rollout steps. Many RL systems attempt to alleviate this problem by relaxing synchronization, but this can compromise training accuracy. In this paper, we introduce tail batching, a novel rollout scheduling strategy for synchronous RL that systematically consolidates prompts leading to long-tail responses into a small subset of rollout steps (long rounds), while ensuring that the majority of steps (short rounds) involve only balanced, short rollouts. By excluding long responses from short rounds and rescheduling them into a few designated long rounds, tail batching effectively reduces GPU idle time during rollouts and significantly accelerates RL training without sacrificing accuracy. We present RollPacker, a system that fully harnesses the benefits of tail batching through holistic optimizations across all three RL stages: elastic parallelism adaptation for rollout, dynamic resource allocation and scheduling for reward, and stream-based training. Empirical results show that RollPacker achieves a 2.03x-2.56x end-to-end training time reduction compared to veRL and up to 2.24x speedup compared to RLHFuse for the Qwen2.5 family of LLMs on up to 128 H800 GPUs.
- Abstract(参考訳): 強化学習(Reinforcement Learning, RL)は、大規模言語モデル(LLM)の推論能力を高めるための重要なポストトレーニング手法である。
しかしながら、同期RLポストトレーニングは、ロールアウトステップ内での応答長の不均衡によって引き起こされる、バブルと呼ばれる大きなGPU不使用に悩まされることが多い。
多くのRLシステムは同期を緩和することでこの問題を緩和しようとするが、これは訓練精度を損なう可能性がある。
本稿では,同期RLの新しいロールアウトスケジューリング手法であるtail batchingを導入する。これは,長いテール応答を少数のロールアウトステップ(ロングラウンド)に体系的に統合すると同時に,ほとんどのステップ(ショートラウンド)がバランスの取れた短いロールアウトのみを含むことを保証する。
ショートラウンドからのロングレスポンスを除外し、いくつかの指定されたロングラウンドに再スケジュールすることで、テールバッチはロールアウト中のGPUアイドル時間を効果的に削減し、精度を犠牲にすることなくRLトレーニングを大幅に加速する。
RollPackerは3つのRLステージにまたがる全体的な最適化を通じて、テールバッチの利点をフル活用するシステムである。
実験の結果、RollPackerはveRLと比較して2.03x-2.56xのエンドツーエンドトレーニング時間を短縮し、最大128 H800 GPU上のQwen2.5ファミリーのRLHFuseと比較して2.24倍のスピードアップを達成した。
関連論文リスト
- APRIL: Active Partial Rollouts in Reinforcement Learning to Tame Long-tail Generation [40.120847511378365]
強化学習(RL)は、大規模事前訓練言語モデル(LLM)の進展の基盤となっている。
強化学習におけるアクティブ部分ロールアウト(APRIL)を提案する。
APRILは一般的なRLアルゴリズムで、ロールアウトスループットを少なくとも44%改善する。
論文 参考訳(メタデータ) (2025-09-23T01:32:36Z) - History Rhymes: Accelerating LLM Reinforcement Learning with RhymeRL [14.506189610798929]
強化学習(Reinforcement Learning, RL)は、大規模言語モデル(LLM)の推論能力を高めるための重要な方法論として登場した。
RhymeRLは、RLトレーニングを2つの重要なイノベーションで加速するLLM RLシステムである。
まず、ロールアウト生成を強化するために、投機的復号推論エンジンであるHistoSpecを紹介する。
第二に、ロールアウトバブルに取り組むために、2層スケジューリング戦略であるHistoPipeを紹介します。
論文 参考訳(メタデータ) (2025-08-26T01:42:46Z) - Shuffle-R1: Efficient RL framework for Multimodal Large Language Models via Data-centric Dynamic Shuffle [53.239242017802056]
強化学習(Reinforcement Learning, RL)は、マルチモーダル大言語モデル(MLLM)の推論能力を高めるための効果的なポストトレーニングパラダイムとして登場した。
しかしながら、現在のRLパイプラインは、アドバンテージ・コラプシング(Advantage Collapsing)とロールアウト・サイレンシング(Rollout Silencing)という2つの未解決の問題によって、トレーニングの非効率に悩まされることが多い。
軌道サンプリングとバッチ合成を動的に再構成することにより、RLの微調整効率を向上する、シンプルだが原則化されたフレームワークであるShuffle-R1を提案する。
論文 参考訳(メタデータ) (2025-08-07T17:53:47Z) - AReaL: A Large-Scale Asynchronous Reinforcement Learning System for Language Reasoning [23.24949857136035]
強化学習(RL)は、大規模言語モデル(LLM)の訓練において支配的なパラダイムとなっている。
本稿では,完全非同期RLシステムであるAReaLについて述べる。
論文 参考訳(メタデータ) (2025-05-30T07:18:25Z) - StreamRL: Scalable, Heterogeneous, and Elastic RL for LLMs with Disaggregated Stream Generation [55.75008325187133]
強化学習(RL)は,大規模言語モデル(LLM)の学習後のコアとなる。
StreamRLは、最初の原則から分離して、2種類のパフォーマンスボトルネックに対処するように設計されている。
実験により、StreamRLは既存の最先端システムと比較してスループットを最大2.66倍改善することが示された。
論文 参考訳(メタデータ) (2025-04-22T14:19:06Z) - Trajectory Balance with Asynchrony: Decoupling Exploration and Learning for Fast, Scalable LLM Post-Training [71.16258800411696]
強化学習(Reinforcement Learning, RL)は、大規模言語モデル(LLM)のポストトレーニングにおいて重要な要素である。
ポストトレーニングに使われている既存のオンラインアルゴリズムは、経験的リプレイバッファの使用と本質的に相容れない。
本稿では,TBA(Trajectory Balance with Asynchrony)によるバッファの再生を効率よく行うことを提案する。
論文 参考訳(メタデータ) (2025-03-24T17:51:39Z) - Q-Ensemble for Offline RL: Don't Scale the Ensemble, Scale the Batch
Size [58.762959061522736]
学習速度を適切に調整したミニバッチサイズをスケールすることで、トレーニングプロセスを桁違いに高速化できることを示す。
そこで本研究では,(1)Qアンサンブルの縮小,(2)分配行動の厳格化,(3)収束時間の改善など,ミニバッチサイズを拡大し,学習率を経時的に調整できることを示す。
論文 参考訳(メタデータ) (2022-11-20T21:48:25Z) - High-Throughput Synchronous Deep RL [132.43861715707905]
HTS-RL(High-Throughput Synchronous Deep Reinforcement Learning)の提案
私たちは同時に学習とロールアウトを行い、古いポリシーを避けるシステム設計を考案します。
我々は,アタリゲームとGoogle Research Football環境に対するアプローチを評価した。
論文 参考訳(メタデータ) (2020-12-17T18:59:01Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。