論文の概要: ReSpec: Towards Optimizing Speculative Decoding in Reinforcement Learning Systems
- arxiv url: http://arxiv.org/abs/2510.26475v1
- Date: Thu, 30 Oct 2025 13:27:42 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-10-31 16:05:09.827581
- Title: ReSpec: Towards Optimizing Speculative Decoding in Reinforcement Learning Systems
- Title(参考訳): ReSpec:強化学習システムにおける投機的復号化の最適化に向けて
- Authors: Qiaoling Chen, Zijun Liu, Peng Sun, Shenggui Li, Guoteng Wang, Ziming Liu, Yonggang Wen, Siyuan Feng, Tianwei Zhang,
- Abstract要約: 強化学習(RL)による大規模言語モデル(LLM)の適応は、しばしば生成段階によってボトルネックとなる。
提案するReSpecは,3つの相補的なメカニズムを通じて,投機的復号化(SD)をRLに適応させるシステムである。
Qwenモデル(3B-14B)では、報酬収束とトレーニング安定性を維持しながら、ReSpecは最大4.5倍のスピードアップを達成する。
- 参考スコア(独自算出の注目度): 36.535922134181995
- License: http://creativecommons.org/licenses/by-nc-nd/4.0/
- Abstract: Adapting large language models (LLMs) via reinforcement learning (RL) is often bottlenecked by the generation stage, which can consume over 75\% of the training time. Speculative decoding (SD) accelerates autoregressive generation in serving systems, but its behavior under RL training remains largely unexplored. We identify three critical gaps that hinder the naive integration of SD into RL systems: diminishing speedups at large batch sizes, drafter staleness under continual actor updates, and drafter-induced policy degradation. To address these gaps, we present ReSpec, a system that adapts SD to RL through three complementary mechanisms: dynamically tuning SD configurations, evolving the drafter via knowledge distillation, and weighting updates by rollout rewards. On Qwen models (3B--14B), ReSpec achieves up to 4.5x speedup while preserving reward convergence and training stability, providing a practical solution for efficient RL-based LLM adaptation.
- Abstract(参考訳): 強化学習(RL)による大規模言語モデル(LLM)の適応は、学習時間の75%以上を消費する生成段階によってボトルネックとなることが多い。
投機的復号法(SD)はサービスシステムの自己回帰生成を加速させるが、RLトレーニングの動作はほとんど探索されていない。
SDをRLシステムに統合することを妨げる3つの重要なギャップを識別する。
SD構成の動的チューニング、知識蒸留によるドラフト作成の進化、ロールアウト報酬による更新の重み付けという3つの相補的なメカニズムを通じて、SDをRLに適応するシステムであるReSpecを提案する。
Qwenモデル(3B-14B)では、報酬収束とトレーニング安定性を維持しながら最大4.5倍の高速化を実現し、効率的なRLベースのLLM適応のための実用的なソリューションを提供する。
関連論文リスト
- RLBoost: Harvesting Preemptible Resources for Cost-Efficient Reinforcement Learning on LLMs [48.94639777633359]
RLBoostは、プリエンプティブルGPUリソースを抽出するコスト効率のよいRLトレーニングのための体系的なソリューションである。
RLBoostはトレーニングのスループットを1.51x-1.97x向上し、オンデマンドGPUリソースのみを使用する場合に比べてコスト効率は28%-49%向上した。
論文 参考訳(メタデータ) (2025-10-22T04:19:37Z) - QeRL: Beyond Efficiency -- Quantization-enhanced Reinforcement Learning for LLMs [80.76334908639745]
大規模言語モデル(LLM)のための量子化強化学習フレームワークQeRLを提案する。
QeRLは、NVFP4量子化とローランド適応(LoRA)を組み合わせた問題に対処する。
実験によると、QeRLはロールアウトフェーズで1.5倍以上のスピードアップを実現している。
論文 参考訳(メタデータ) (2025-10-13T17:55:09Z) - SPEC-RL: Accelerating On-Policy Reinforcement Learning via Speculative Rollouts [35.82325476805143]
SPEC-RLは、SPECulativeデコーディングとRLロールアウトプロセスを統合するフレームワークである。
政策品質を損なうことなく、ロールアウト時間を2~3倍に短縮する。
純粋にロールアウトステージの強化として、SPEC-RLはメインストリームのアルゴリズムとシームレスに統合される。
論文 参考訳(メタデータ) (2025-09-27T10:32:34Z) - Ring-lite: Scalable Reasoning via C3PO-Stabilized Reinforcement Learning for LLMs [51.21041884010009]
Ring-liteは、強化学習(RL)により最適化されたMixture-of-Experts(MoE)ベースの大規模言語モデルである
我々のアプローチは、挑戦的なベンチマーク上でのSOTA(State-of-the-art)の小規模推論モデルの性能と一致する。
論文 参考訳(メタデータ) (2025-06-17T17:12:34Z) - AReaL: A Large-Scale Asynchronous Reinforcement Learning System for Language Reasoning [23.24949857136035]
強化学習(RL)は、大規模言語モデル(LLM)の訓練において支配的なパラダイムとなっている。
本稿では,完全非同期RLシステムであるAReaLについて述べる。
論文 参考訳(メタデータ) (2025-05-30T07:18:25Z) - RAGEN: Understanding Self-Evolution in LLM Agents via Multi-Turn Reinforcement Learning [125.96848846966087]
対話型エージェントとしての大規模言語モデル(LLM)のトレーニングには,ユニークな課題がある。
強化学習は静的タスクの進行を可能にする一方で、マルチターンエージェントRLトレーニングは未探索のままである。
本稿では、軌道レベルのエージェントRLのための一般的なフレームワークであるStarPOを提案し、LLMエージェントのトレーニングと評価のためのモジュールシステムであるRAGENを紹介する。
論文 参考訳(メタデータ) (2025-04-24T17:57:08Z) - Scalable Volt-VAR Optimization using RLlib-IMPALA Framework: A
Reinforcement Learning Approach [11.11570399751075]
本研究は, 深層強化学習(DRL)の可能性を活用した新しい枠組みを提案する。
DRLエージェントをRAYプラットフォームに統合することにより、RAYのリソースを効率的に利用してシステム適応性と制御を改善する新しいフレームワークであるRLlib-IMPALAの開発が容易になる。
論文 参考訳(メタデータ) (2024-02-24T23:25:35Z) - Digital Twin Assisted Deep Reinforcement Learning for Online Admission
Control in Sliced Network [19.152875040151976]
この問題に対処するために、ディジタルツイン(DT)高速化DRLソリューションを提案する。
ニューラルネットワークベースのDTは、システムをキューイングするためのカスタマイズされた出力層を備え、教師付き学習を通じてトレーニングされ、DRLモデルのトレーニングフェーズを支援するために使用される。
DT加速DRLは、直接訓練された最先端Q-ラーニングモデルと比較して、リソース利用率を40%以上向上させる。
論文 参考訳(メタデータ) (2023-10-07T09:09:19Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。