論文の概要: Taming the Long-Tail: Efficient Reasoning RL Training with Adaptive Drafter
- arxiv url: http://arxiv.org/abs/2511.16665v1
- Date: Thu, 20 Nov 2025 18:59:25 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-11-21 17:08:52.810189
- Title: Taming the Long-Tail: Efficient Reasoning RL Training with Adaptive Drafter
- Title(参考訳): 長期学習の実践:適応的投薬によるRL訓練を効果的に行う
- Authors: Qinghao Hu, Shang Yang, Junxian Guo, Xiaozhe Yao, Yujun Lin, Yuxian Gu, Han Cai, Chuang Gan, Ana Klimovic, Song Han,
- Abstract要約: 強力な推論能力を持つ大規模言語モデル(LLM)のトレーニングは、複雑な問題解決において新たなフロンティアを解放する重要なマイルストーンとなる。
本稿では,適応的投機的復号化を組み込むことで,RL学習の無作為に推論を高速化するシステムであるTLTを提案する。
- 参考スコア(独自算出の注目度): 52.111923076688505
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: The emergence of Large Language Models (LLMs) with strong reasoning capabilities marks a significant milestone, unlocking new frontiers in complex problem-solving. However, training these reasoning models, typically using Reinforcement Learning (RL), encounters critical efficiency bottlenecks: response generation during RL training exhibits a persistent long-tail distribution, where a few very long responses dominate execution time, wasting resources and inflating costs. To address this, we propose TLT, a system that accelerates reasoning RL training losslessly by integrating adaptive speculative decoding. Applying speculative decoding in RL is challenging due to the dynamic workloads, evolving target model, and draft model training overhead. TLT overcomes these obstacles with two synergistic components: (1) Adaptive Drafter, a lightweight draft model trained continuously on idle GPUs during long-tail generation to maintain alignment with the target model at no extra cost; and (2) Adaptive Rollout Engine, which maintains a memory-efficient pool of pre-captured CUDAGraphs and adaptively select suitable SD strategies for each input batch. Evaluations demonstrate that TLT achieves over 1.7x end-to-end RL training speedup over state-of-the-art systems, preserves the model accuracy, and yields a high-quality draft model as a free byproduct suitable for efficient deployment. Code is released at https://github.com/mit-han-lab/fastrl.
- Abstract(参考訳): 強力な推論能力を備えた大規模言語モデル(LLM)の出現は、複雑な問題解決において新たなフロンティアを解放する重要なマイルストーンとなる。
しかし、Reinforcement Learning (RL) を用いてこれらの推論モデルをトレーニングすると、重要な効率上のボトルネックが発生する: RL トレーニング中の応答生成は、非常に長い応答が実行時間を支配し、リソースを浪費し、コストを膨らませる、永続的なロングテール分布を示す。
そこで本研究では,適応的投機的復号化を組み込むことで,RL学習の無作為化を促進させるシステムであるTLTを提案する。
RLに投機的デコーディングを適用することは、動的ワークロード、ターゲットモデルの進化、ドラフトモデルのトレーニングオーバーヘッドのために難しい。
TLTはこれらの障害を2つの相乗的コンポーネントで克服する: (1) 長期発生中のアイドルGPUで継続的に訓練された軽量ドラフトモデルであるAdaptive Drafter、(2) プリキャプチャされたCUDAGraphのメモリ効率の高いプールを維持し、入力バッチ毎に適切なSD戦略を適応的に選択するAdaptive Rollout Engine。
評価の結果、TLTは最先端システムよりも1.7倍以上のエンドツーエンドのRLトレーニングスピードアップを実現し、モデルの精度を保ち、効率的なデプロイメントに適した無償の副産物として高品質のドラフトモデルが得られることが示された。
コードはhttps://github.com/mit-han-lab/fastrl.comで公開されている。
関連論文リスト
- Beat the long tail: Distribution-Aware Speculative Decoding for RL Training [75.75462952580796]
モデル出力を変更することなくRLロールアウトを高速化する分散Aware Speculativeデコーディングフレームワークを提案する。
数学とコード推論タスクの実験は、DASが同一のトレーニング曲線を保ちながらロールアウト時間を最大50%短縮することを示している。
論文 参考訳(メタデータ) (2025-11-17T19:02:12Z) - AReaL-Hex: Accommodating Asynchronous RL Training over Heterogeneous GPUs [24.96730768606278]
異種対応非同期RLトレーニングシステムであるAReaL-Hexを提案する。
ヘテロジニアスGPU上でロールアウト生成とポリシモデルのトレーニングを実行する方法を、効果的にスケジュールする。
最大1.50倍のトレーニングスループットと1.46倍のトレーニングコストの削減を提供する。
論文 参考訳(メタデータ) (2025-11-02T04:17:30Z) - ReSpec: Towards Optimizing Speculative Decoding in Reinforcement Learning Systems [36.535922134181995]
強化学習(RL)による大規模言語モデル(LLM)の適応は、しばしば生成段階によってボトルネックとなる。
提案するReSpecは,3つの相補的なメカニズムを通じて,投機的復号化(SD)をRLに適応させるシステムである。
Qwenモデル(3B-14B)では、報酬収束とトレーニング安定性を維持しながら、ReSpecは最大4.5倍のスピードアップを達成する。
論文 参考訳(メタデータ) (2025-10-30T13:27:42Z) - RLBoost: Harvesting Preemptible Resources for Cost-Efficient Reinforcement Learning on LLMs [48.94639777633359]
RLBoostは、プリエンプティブルGPUリソースを抽出するコスト効率のよいRLトレーニングのための体系的なソリューションである。
RLBoostはトレーニングのスループットを1.51x-1.97x向上し、オンデマンドGPUリソースのみを使用する場合に比べてコスト効率は28%-49%向上した。
論文 参考訳(メタデータ) (2025-10-22T04:19:37Z) - Laminar: A Scalable Asynchronous RL Post-Training Framework [20.127034898123508]
RL軌道生成における長い尾の歪みは、重いGPU不使用を引き起こす。
現在のRLシステムはアクターとロールアウト間のグローバルな重量同期に依存しており、厳密なモデル更新スケジュールを生成する。
完全に分離されたアーキテクチャ上に構築されたスケーラブルで堅牢なRLポストトレーニングシステムであるLaminarを提案する。
論文 参考訳(メタデータ) (2025-10-14T15:29:14Z) - Ring-lite: Scalable Reasoning via C3PO-Stabilized Reinforcement Learning for LLMs [51.21041884010009]
Ring-liteは、強化学習(RL)により最適化されたMixture-of-Experts(MoE)ベースの大規模言語モデルである
我々のアプローチは、挑戦的なベンチマーク上でのSOTA(State-of-the-art)の小規模推論モデルの性能と一致する。
論文 参考訳(メタデータ) (2025-06-17T17:12:34Z) - Beyond Accuracy: Dissecting Mathematical Reasoning for LLMs Under Reinforcement Learning [93.00629872970364]
強化学習(Reinforcement Learning, RL)は, 複雑な推論タスクにおいて, 言語モデルの性能向上のための主要なパラダイムとなっている。
SPARKLE(SPARKLE)は、3つの重要な次元にわたるRLの効果を詳細に解析するフレームワークである。
我々は、RL信号と混合品質の推論トレースを産出しない難題が、依然としてトレーニングに有効であるかどうかを調査する。
論文 参考訳(メタデータ) (2025-06-05T07:53:59Z) - DL-DRL: A double-level deep reinforcement learning approach for
large-scale task scheduling of multi-UAV [65.07776277630228]
分割・征服フレームワーク(DCF)に基づく二重レベル深層強化学習(DL-DRL)手法を提案する。
特に,上層部DRLモデルにおけるエンコーダ・デコーダ構成ポリシネットワークを設計し,タスクを異なるUAVに割り当てる。
また、低レベルDRLモデルにおける別の注意に基づくポリシーネットワークを利用して、各UAVの経路を構築し、実行されたタスク数を最大化する。
論文 参考訳(メタデータ) (2022-08-04T04:35:53Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。