論文の概要: Accelerating RL Post-Training Rollouts via System-Integrated Speculative Decoding
- arxiv url: http://arxiv.org/abs/2604.26779v1
- Date: Wed, 29 Apr 2026 15:11:48 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-04-30 15:59:36.453808
- Title: Accelerating RL Post-Training Rollouts via System-Integrated Speculative Decoding
- Title(参考訳): システム付き投機復号によるRL後ロールアウトの高速化
- Authors: Hayate Iso, Tiyasa Mitra, Sudipta Mondal, Rasoul Shafipour, Venmugil Elango, Terry Kong, Yuki Huang, Seonjin Na, Izzy Putterman, Benjamin Chislett, Maor Ashkenazi, Joseph Guman, Gerald Shen, Tugrul Konuk, Ashwath Aithal, Ritika Borkar, Ran Zilberstein, Bita Rouhani,
- Abstract要約: RLロールアウトにおけるアクセラレーションプリミティブとしての投機的復号化について検討する。
VLLMバックエンドでNeMo-RLの投機的復号化を実装した。
投機的デコーディングと非同期RLを組み合わせることで,最大2.5倍のエンドツーエンドのトレーニングスピードアップを235Bスケールで達成する。
- 参考スコア(独自算出の注目度): 8.43502622452414
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: RL post-training of frontier language models is increasingly bottlenecked by autoregressive rollout generation, making rollout acceleration a central systems challenge. Many existing efficiency methods improve throughput by changing the rollout or optimization regime, for example, through off-policy execution, replay, or lower-precision generation. We study speculative decoding as a lossless acceleration primitive for RL rollouts that preserves the target model's output distribution. We implement speculative decoding in NeMo-RL with a vLLM backend, supporting both synchronous and asynchronous pipelines and enabling speculation during RL rollouts. This benefit is realizable across speculation mechanisms, such as pretrained MTP heads, small external draft models or even techniques such as Eagle3, which are traditionally applied after RL phase. This yields a deployment path for state-of-the-art speculative decoding inside RL training. In a reasoning post-training workload at 8B scale under synchronous RL, speculative decoding improves rollout throughput by 1.8x. Using a high-fidelity performance simulator, we project that combining speculative decoding with asynchronous RL yields up to 2.5x end-to-end training speedup at 235B scale.
- Abstract(参考訳): フロンティア言語モデルのRLポストトレーニングは、自動回帰的なロールアウト生成によってますますボトルネックになり、ロールアウトアクセラレーションがシステムの中心的な課題となっている。
既存の多くの効率改善手法は、例えば、オフポリシーの実行、リプレイ、低精度生成を通じて、ロールアウトや最適化体制を変更することでスループットを向上させる。
ターゲットモデルの出力分布を保存するRLロールアウトにおける無損失加速プリミティブとしての投機的復号化について検討する。
我々は,NeMo-RLの投機的デコーディングをvLLMバックエンドで実装し,同期パイプラインと非同期パイプラインの両方をサポートし,RLロールアウト時の推測を可能にする。
この利点は、事前訓練されたMPPヘッド、小さな外部ドラフトモデル、あるいは伝統的にRLフェーズ後に適用されるEagle3のような技術など、憶測のメカニズムで実現可能である。
これにより、RLトレーニング内での最先端の投機的デコーディングのためのデプロイメントパスが得られる。
同期RL下での8Bスケールでのトレーニング後のワークロードの推論では、投機的復号化によってロールアウトスループットが1.8倍向上する。
高忠実度性能シミュレータを用いて、投機的復号と非同期RLを組み合わせると、235Bスケールで最大2.5倍のエンドツーエンドのトレーニングスピードアップが得られることを提案する。
関連論文リスト
- SortedRL: Accelerating RL Training for LLMs through Online Length-Aware Scheduling [54.276306194000405]
SortedRLを提案する。SortedRLは、強化学習をスケールするためのオンライン長対応スケジューリング戦略である。
SortedRLは、出力長に基づいてロールアウトサンプルをリオーダーし、短いサンプルが早期更新のためにグループを形成することを優先順位付けする。
LLaMA-3.1-8BとQwen-2.5-32Bを論理パズルを含む様々なタスクで実験した結果、SortedRLはRLトレーニングバブル比を50%以上削減することが示された。
論文 参考訳(メタデータ) (2026-03-24T16:48:31Z) - RollArt: Scaling Agentic RL Training via Disaggregated Infrastructure [49.88201789074532]
エージェント強化学習(RL)は、大規模言語モデル(LLM)が自律的な意思決定と長期計画を行うことを可能にする。
分散インフラストラクチャ上でマルチタスクエージェントRLのスループットを最大化する分散システムであるRollArcを提案する。
論文 参考訳(メタデータ) (2025-12-27T11:14:23Z) - Taming the Long-Tail: Efficient Reasoning RL Training with Adaptive Drafter [52.111923076688505]
強力な推論能力を持つ大規模言語モデル(LLM)のトレーニングは、複雑な問題解決において新たなフロンティアを解放する重要なマイルストーンとなる。
本稿では,適応的投機的復号化を組み込むことで,RL学習の無作為に推論を高速化するシステムであるTLTを提案する。
論文 参考訳(メタデータ) (2025-11-20T18:59:25Z) - Seer: Online Context Learning for Fast Synchronous LLM Reinforcement Learning [6.742598086990326]
強化学習(RL)は、現代の大規模言語モデル(LLM)の進展に欠かせないものとなっているが、既存の同期RLシステムは、重大なパフォーマンスボトルネックに直面している。
従来見過ごされていた出力長と生成パターンの類似性を利用して,同じプロンプトを共有することで,これらの課題に対処する新しいオンラインコンテキスト学習システムであるSeerを提案する。
Seer氏は、動的ロードバランシングのための分割ロールアウト、コンテキスト対応スケジューリング、適応的なグループ化された投機的デコーディングの3つの主要なテクニックを紹介している。
論文 参考訳(メタデータ) (2025-11-18T16:12:21Z) - Beat the long tail: Distribution-Aware Speculative Decoding for RL Training [75.75462952580796]
モデル出力を変更することなくRLロールアウトを高速化する分散Aware Speculativeデコーディングフレームワークを提案する。
数学とコード推論タスクの実験は、DASが同一のトレーニング曲線を保ちながらロールアウト時間を最大50%短縮することを示している。
論文 参考訳(メタデータ) (2025-11-17T19:02:12Z) - Laminar: A Scalable Asynchronous RL Post-Training Framework [20.127034898123508]
RL軌道生成における長い尾の歪みは、重いGPU不使用を引き起こす。
現在のRLシステムはアクターとロールアウト間のグローバルな重量同期に依存しており、厳密なモデル更新スケジュールを生成する。
完全に分離されたアーキテクチャ上に構築されたスケーラブルで堅牢なRLポストトレーニングシステムであるLaminarを提案する。
論文 参考訳(メタデータ) (2025-10-14T15:29:14Z) - SPEC-RL: Accelerating On-Policy Reinforcement Learning via Speculative Rollouts [35.82325476805143]
SPEC-RLは、SPECulativeデコーディングとRLロールアウトプロセスを統合するフレームワークである。
政策品質を損なうことなく、ロールアウト時間を2~3倍に短縮する。
純粋にロールアウトステージの強化として、SPEC-RLはメインストリームのアルゴリズムとシームレスに統合される。
論文 参考訳(メタデータ) (2025-09-27T10:32:34Z) - History Rhymes: Accelerating LLM Reinforcement Learning with RhymeRL [14.506189610798929]
強化学習(Reinforcement Learning, RL)は、大規模言語モデル(LLM)の推論能力を高めるための重要な方法論として登場した。
RhymeRLは、RLトレーニングを2つの重要なイノベーションで加速するLLM RLシステムである。
まず、ロールアウト生成を強化するために、投機的復号推論エンジンであるHistoSpecを紹介する。
第二に、ロールアウトバブルに取り組むために、2層スケジューリング戦略であるHistoPipeを紹介します。
論文 参考訳(メタデータ) (2025-08-26T01:42:46Z) - Ring-lite: Scalable Reasoning via C3PO-Stabilized Reinforcement Learning for LLMs [51.21041884010009]
Ring-liteは、強化学習(RL)により最適化されたMixture-of-Experts(MoE)ベースの大規模言語モデルである
我々のアプローチは、挑戦的なベンチマーク上でのSOTA(State-of-the-art)の小規模推論モデルの性能と一致する。
論文 参考訳(メタデータ) (2025-06-17T17:12:34Z) - StreamRL: Scalable, Heterogeneous, and Elastic RL for LLMs with Disaggregated Stream Generation [55.75008325187133]
強化学習(RL)は,大規模言語モデル(LLM)の学習後のコアとなる。
StreamRLは、最初の原則から分離して、2種類のパフォーマンスボトルネックに対処するように設計されている。
実験により、StreamRLは既存の最先端システムと比較してスループットを最大2.66倍改善することが示された。
論文 参考訳(メタデータ) (2025-04-22T14:19:06Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。