Fugu-MT 論文翻訳(概要): SPEC-RL: Accelerating On-Policy Reinforcement Learning via Speculative Rollouts

論文の概要: SPEC-RL: Accelerating On-Policy Reinforcement Learning via Speculative Rollouts

arxiv url: http://arxiv.org/abs/2509.23232v1
Date: Sat, 27 Sep 2025 10:32:34 GMT
ステータス: 翻訳完了
システム内更新日: 2025-09-30 22:32:19.112613
Title: SPEC-RL: Accelerating On-Policy Reinforcement Learning via Speculative Rollouts
Title（参考訳）: SPEC-RL: 投機ロールアウトによるオンライン強化学習の高速化
Authors: Bingshuai Liu, Ante Wang, Zijun Min, Liang Yao, Haibo Zhang, Yang Liu, Anxiang Zeng, Jinsong Su,
Abstract要約: SPEC-RLは、SPECulativeデコーディングとRLロールアウトプロセスを統合するフレームワークである。政策品質を損なうことなく、ロールアウト時間を2～3倍に短縮する。純粋にロールアウトステージの強化として、SPEC-RLはメインストリームのアルゴリズムとシームレスに統合される。
参考スコア（独自算出の注目度）: 35.82325476805143
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: Large Language Models (LLMs) increasingly rely on reinforcement learning with verifiable rewards (RLVR) to elicit reliable chain-of-thought reasoning. However, the training process remains bottlenecked by the computationally expensive rollout stage. Existing acceleration methods-such as parallelization, objective- and data-driven modifications, and replay buffers-either incur diminishing returns, introduce bias, or overlook redundancy across iterations. We identify that rollouts from consecutive training epochs frequently share a large portion of overlapping segments, wasting computation. To address this, we propose SPEC-RL, a novel framework that integrates SPECulative decoding with the RL rollout process. SPEC-RL reuses prior trajectory segments as speculative prefixes and extends them via a draft-and-verify mechanism, avoiding redundant generation while ensuring policy consistency. Experiments on diverse math reasoning and generalization benchmarks, including GSM8K, MATH-500, OlympiadBench, MMLU-STEM, and others, demonstrate that SPEC-RL reduces rollout time by 2-3x without compromising policy quality. As a purely rollout-stage enhancement, SPEC-RL integrates seamlessly with mainstream algorithms (e.g., PPO, GRPO, DAPO), offering a general and practical path to scale RLVR for large reasoning models. Our code is available at https://github.com/ShopeeLLM/Spec-RL
Abstract（参考訳）: 大規模言語モデル(LLM)は、信頼性の高い連鎖推論を引き出すために、検証可能な報酬(RLVR)による強化学習にますます依存している。しかし、トレーニングプロセスは計算コストのかかるロールアウトステージによってボトルネックが残っている。既存のアクセラレーションメソッド(並列化、客観的およびデータ駆動の修正、リプレイバッファー-リターンの低下、バイアスの導入、イテレーション間の冗長さの見落としなど)。連続的なトレーニングエポックからのロールアウトは、重複するセグメントの大部分を頻繁に共有し、計算を無駄にします。そこで本研究では,SPECulative decodingをRLロールアウトプロセスに統合する新しいフレームワークであるSPEC-RLを提案する。 SPEC-RLは、プリミティブプレフィックスとして事前のトラジェクティブセグメントを再利用し、それらをドラフト・アンド・バリデーション機構を通じて拡張し、ポリシーの整合性を確保しながら冗長な生成を避ける。 GSM8K、MATH-500、OlympiadBench、MMLU-STEMなどの多種多様な数学推論および一般化ベンチマークの実験は、SPEC-RLがポリシー品質を損なうことなくロールアウト時間を2～3倍短縮することを示した。純粋にロールアウトステージの強化として、SPEC-RLはメインストリームアルゴリズム(例えば、PPO、GRPO、DAPO)とシームレスに統合され、大規模な推論モデルのためにRLVRを拡張するための汎用的で実用的なパスを提供する。私たちのコードはhttps://github.com/ShopeeLLM/Spec-RLで利用可能です。

関連論文リスト

APRIL: Active Partial Rollouts in Reinforcement Learning to Tame Long-tail Generation [40.120847511378365]
強化学習(RL)は、大規模事前訓練言語モデル(LLM)の進展の基盤となっている。強化学習におけるアクティブ部分ロールアウト(APRIL)を提案する。 APRILはロールアウト要求をオーバープロビジョンし、ターゲットのレスポンス数が到達したら終了し、将来のステップで継続するために不完全なレスポンスをリサイクルする。
論文参考訳（メタデータ） (2025-09-23T01:32:36Z)
History Rhymes: Accelerating LLM Reinforcement Learning with RhymeRL [14.506189610798929]
強化学習(Reinforcement Learning, RL)は、大規模言語モデル(LLM)の推論能力を高めるための重要な方法論として登場した。 RhymeRLは、RLトレーニングを2つの重要なイノベーションで加速するLLM RLシステムである。まず、ロールアウト生成を強化するために、投機的復号推論エンジンであるHistoSpecを紹介する。第二に、ロールアウトバブルに取り組むために、2層スケジューリング戦略であるHistoPipeを紹介します。
論文参考訳（メタデータ） (2025-08-26T01:42:46Z)
StreamRL: Scalable, Heterogeneous, and Elastic RL for LLMs with Disaggregated Stream Generation [55.75008325187133]
強化学習(RL)は,大規模言語モデル(LLM)の学習後のコアとなる。 StreamRLは、最初の原則から分離して、2種類のパフォーマンスボトルネックに対処するように設計されている。実験により、StreamRLは既存の最先端システムと比較してスループットを最大2.66倍改善することが示された。
論文参考訳（メタデータ） (2025-04-22T14:19:06Z)
MM-Eureka: Exploring the Frontiers of Multimodal Reasoning with Rule-based Reinforcement Learning [55.82649731348012]
MMK12データセットとMM-EUREKAを7B,32Bパラメータで導入する。前者は、人間の検証された答えと解法を含む多様な知識領域を特徴とする高品質なマルチモーダル数学推論データセットである。後者は,オンラインフィルタリングを利用したルールベース強化学習と,トレーニング安定性を高めるための2段階トレーニング戦略を用いたマルチモーダルモデルである。
論文参考訳（メタデータ） (2025-03-10T14:23:12Z)
Action-Quantized Offline Reinforcement Learning for Robotic Skill Learning [68.16998247593209]
オフライン強化学習(RL)パラダイムは、静的な行動データセットを、データを収集したポリシーよりも優れたパフォーマンスのポリシーに変換するためのレシピを提供する。本稿では,アクション量子化のための適応型スキームを提案する。 IQL,CQL,BRACといった最先端のオフラインRL手法が,提案手法と組み合わせることで,ベンチマークのパフォーマンスが向上することを示す。
論文参考訳（メタデータ） (2023-10-18T06:07:10Z)
RL$^3$: Boosting Meta Reinforcement Learning via RL inside RL$^2$ [12.111848705677142]
本稿では,従来のRLによるタスクごとの学習をMeta-RLに入力するハイブリッドアプローチであるRL$3$を提案する。 RL$3$は、RL$2$よりも長期で累積的な報酬を得られる一方で、メタトレーニング時間を大幅に削減し、アウト・オブ・ディストリビューション・タスクをより一般化することを示す。
論文参考訳（メタデータ） (2023-06-28T04:16:16Z)
LCRL: Certified Policy Synthesis via Logically-Constrained Reinforcement Learning [78.2286146954051]
LCRLは未知決定プロセス(MDP)上でのモデルフリー強化学習(RL)アルゴリズムを実装している本稿では,LCRLの適用性,使いやすさ,拡張性,性能を示すケーススタディを提案する。
論文参考訳（メタデータ） (2022-09-21T13:21:00Z)
RL-DARTS: Differentiable Architecture Search for Reinforcement Learning [62.95469460505922]
我々は、強化学習(RL)における微分可能なアーキテクチャ探索(DARTS)の最初の応用の1つであるRL-DARTSを紹介する。画像エンコーダをDARTSスーパーネットに置き換えることにより、検索方法はサンプリング効率が高く、余分な計算資源が最小限必要であり、また、既存のコードに小さな変更を加える必要がなく、オフ・ポリティクスとオン・ポリティクスのRLアルゴリズムとも互換性がある。スーパーネットはより優れたセルを徐々に学習し、手作業で設計したポリシーに対して高い競争力を持つ代替アーキテクチャへとつながり、RLポリシーの以前の設計選択も検証できることを示す。
論文参考訳（メタデータ） (2021-06-04T03:08:43Z)
Towards Standardizing Reinforcement Learning Approaches for Stochastic Production Scheduling [77.34726150561087]
強化学習はスケジューリングの問題を解決するのに使える。既存の研究は、コードが利用できない複雑なシミュレーションに依存している。から選ぶべきRLの設計の広大な配列があります。モデル記述の標準化 - 生産セットアップとRL設計の両方 - と検証スキームは前提条件です。
論文参考訳（メタデータ） (2021-04-16T16:07:10Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。