論文の概要: Seer: Online Context Learning for Fast Synchronous LLM Reinforcement Learning
- arxiv url: http://arxiv.org/abs/2511.14617v1
- Date: Tue, 18 Nov 2025 16:12:21 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-11-19 16:23:53.197459
- Title: Seer: Online Context Learning for Fast Synchronous LLM Reinforcement Learning
- Title(参考訳): Seer: 高速同期LLM強化学習のためのオンラインコンテキスト学習
- Authors: Ruoyu Qin, Weiran He, Weixiao Huang, Yangkun Zhang, Yikai Zhao, Bo Pang, Xinran Xu, Yingdi Shan, Yongwei Wu, Mingxing Zhang,
- Abstract要約: 強化学習(RL)は、現代の大規模言語モデル(LLM)の進展に欠かせないものとなっているが、既存の同期RLシステムは、重大なパフォーマンスボトルネックに直面している。
従来見過ごされていた出力長と生成パターンの類似性を利用して,同じプロンプトを共有することで,これらの課題に対処する新しいオンラインコンテキスト学習システムであるSeerを提案する。
Seer氏は、動的ロードバランシングのための分割ロールアウト、コンテキスト対応スケジューリング、適応的なグループ化された投機的デコーディングの3つの主要なテクニックを紹介している。
- 参考スコア(独自算出の注目度): 6.742598086990326
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Reinforcement Learning (RL) has become critical for advancing modern Large Language Models (LLMs), yet existing synchronous RL systems face severe performance bottlenecks. The rollout phase, which dominates end-to-end iteration time, suffers from substantial long-tail latency and poor resource utilization due to inherent workload imbalance. We present Seer, a novel online context learning system that addresses these challenges by exploiting previously overlooked similarities in output lengths and generation patterns among requests sharing the same prompt. Seer introduces three key techniques: divided rollout for dynamic load balancing, context-aware scheduling, and adaptive grouped speculative decoding. Together, these mechanisms substantially reduce long-tail latency and improve resource efficiency during rollout. Evaluations on production-grade RL workloads demonstrate that Seer improves end-to-end rollout throughput by 74% to 97% and reduces long-tail latency by 75% to 93% compared to state-of-the-art synchronous RL systems, significantly accelerating RL training iterations.
- Abstract(参考訳): 強化学習(RL)は、現代の大規模言語モデル(LLM)の進展に欠かせないものとなっているが、既存の同期RLシステムは、重大なパフォーマンスボトルネックに直面している。
エンドツーエンドのイテレーション時間を支配しているロールアウトフェーズは、固有のワークロードの不均衡のため、かなり長いテールのレイテンシとリソース使用量の不足に悩まされている。
従来見過ごされていた出力長と生成パターンの類似性を利用して,同じプロンプトを共有することで,これらの課題に対処する新しいオンラインコンテキスト学習システムであるSeerを提案する。
Seer氏は、動的ロードバランシングのための分割ロールアウト、コンテキスト対応スケジューリング、適応的なグループ化された投機的デコーディングの3つの主要なテクニックを紹介している。
これらのメカニズムが組み合わさって、長期の遅延を大幅に低減し、ロールアウト時のリソース効率を向上する。
プロダクショングレードのRLワークロードに関する評価によると、Sierはエンドツーエンドのロールアウトスループットを74%から97%改善し、最先端の同期RLシステムと比較して、ロングテールレイテンシを75%から93%削減し、RLトレーニングイテレーションを著しく加速している。
関連論文リスト
- Beat the long tail: Distribution-Aware Speculative Decoding for RL Training [75.75462952580796]
モデル出力を変更することなくRLロールアウトを高速化する分散Aware Speculativeデコーディングフレームワークを提案する。
数学とコード推論タスクの実験は、DASが同一のトレーニング曲線を保ちながらロールアウト時間を最大50%短縮することを示している。
論文 参考訳(メタデータ) (2025-11-17T19:02:12Z) - ReSpec: Towards Optimizing Speculative Decoding in Reinforcement Learning Systems [36.535922134181995]
強化学習(RL)による大規模言語モデル(LLM)の適応は、しばしば生成段階によってボトルネックとなる。
提案するReSpecは,3つの相補的なメカニズムを通じて,投機的復号化(SD)をRLに適応させるシステムである。
Qwenモデル(3B-14B)では、報酬収束とトレーニング安定性を維持しながら、ReSpecは最大4.5倍のスピードアップを達成する。
論文 参考訳(メタデータ) (2025-10-30T13:27:42Z) - RLBoost: Harvesting Preemptible Resources for Cost-Efficient Reinforcement Learning on LLMs [48.94639777633359]
RLBoostは、プリエンプティブルGPUリソースを抽出するコスト効率のよいRLトレーニングのための体系的なソリューションである。
RLBoostはトレーニングのスループットを1.51x-1.97x向上し、オンデマンドGPUリソースのみを使用する場合に比べてコスト効率は28%-49%向上した。
論文 参考訳(メタデータ) (2025-10-22T04:19:37Z) - RollPacker: Mitigating Long-Tail Rollouts for Fast, Synchronous RL Post-Training [19.00988498482758]
強化学習(Reinforcement Learning, RL)は、大規模言語モデル(LLM)の推論能力を高めるための重要なポストトレーニング手法である。
多くのRLシステムは同期を緩和することでこの問題を緩和しようとするが、これは精度のトレーニングを損なう可能性がある。
同期RLのための新しいロールアウトスケジューリング戦略であるtailを導入し,ロールアウトステップの小さなサブセット(ロングラウンド)に長いテール応答をもたらすプロンプトを体系的に統合する。
RollPackerは、veRLと比較して2.03x-2.56xのトレーニング時間を短縮し、Qwen2.5のRLHFuseよりも最大2.24倍のスピードアップを実現している。
論文 参考訳(メタデータ) (2025-09-25T11:13:22Z) - Shuffle-R1: Efficient RL framework for Multimodal Large Language Models via Data-centric Dynamic Shuffle [65.14124923451077]
強化学習(Reinforcement Learning, RL)は、マルチモーダル大言語モデル(MLLM)の推論能力を高めるための効果的なポストトレーニングパラダイムとして登場した。
しかしながら、現在のRLパイプラインは、アドバンテージ・コラプシング(Advantage Collapsing)とロールアウト・サイレンシング(Rollout Silencing)という2つの未解決の問題によって、トレーニングの非効率に悩まされることが多い。
軌道サンプリングとバッチ合成を動的に再構成することにより、RLの微調整効率を向上する、シンプルだが原則化されたフレームワークであるShuffle-R1を提案する。
論文 参考訳(メタデータ) (2025-08-07T17:53:47Z) - Asynchronous RLHF: Faster and More Efficient Off-Policy RL for Language Models [11.624678008637623]
RLHFにおける生成と学習の分離を提案する。
オンラインDPOは、政治以外のデータに対して最も堅牢である。
非同期トレーニングは、オンラインだが非政治的なRLHFという未調査の制度に依存している。
論文 参考訳(メタデータ) (2024-10-23T19:59:50Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。