論文の概要: FastGRPO: Accelerating Policy Optimization via Concurrency-aware Speculative Decoding and Online Draft Learning
- arxiv url: http://arxiv.org/abs/2509.21792v1
- Date: Fri, 26 Sep 2025 02:48:41 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-09-29 20:57:54.139729
- Title: FastGRPO: Accelerating Policy Optimization via Concurrency-aware Speculative Decoding and Online Draft Learning
- Title(参考訳): FastGRPO: 並行性を考慮した投機的デコーディングとオンラインドラフト学習によるポリシー最適化の高速化
- Authors: Yizhou Zhang, Ning Lv, Teng Wang, Jisheng Dang,
- Abstract要約: グループ相対ポリシー最適化(GRPO)は、大規模言語モデルの推論能力を改善する上で大きな可能性を証明している。
本稿では, リアルタイムレベルに応じて, ドラフトと検証戦略を調整する投機的復号化フレームワークを提案する。
提案手法は,2.35xから2.72xまでのエンドツーエンドの高速化を実現し,効率性においてベースラインアプローチを大幅に上回ることを示す。
- 参考スコア(独自算出の注目度): 11.68914161151634
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Group relative policy optimization (GRPO) has demonstrated significant potential in improving the reasoning capabilities of large language models (LLMs) via reinforcement learning. However, its practical deployment is impeded by an excessively slow training process, primarily attributed to the computationally intensive autoregressive generation of multiple responses per query, which makes the generation phase the primary performance bottleneck. Although speculative decoding presents a promising direction for acceleration, its direct application in GRPO achieves limited speedup under high-concurrency training conditions. To overcome this limitation, we propose a concurrency-aware speculative decoding framework that dynamically adjusts the drafting and verification strategy according to real-time concurrency levels, thereby maximizing the acceleration of the generation process. Furthermore, to address performance degradation arising from distributional drift between the evolving target model and the fixed draft model during training, we introduce an online draft learning mechanism that enables the draft model to continuously adapt using feedback signals from the target model. Experimental results across multiple mathematical reasoning datasets and models demonstrate that the proposed method achieves end-to-end speedups of 2.35x to 2.72x, significantly surpassing baseline approaches in efficiency. The code is available at https://github.com/yedaotian9/GRPO_speculative.
- Abstract(参考訳): グループ相対政策最適化(GRPO)は、強化学習による大規模言語モデル(LLM)の推論能力の向上に有意な可能性を証明している。
しかし、その実践的な展開は過度に遅いトレーニングプロセスによって妨げられ、主に計算的に集約的なクエリ毎の多重応答の自動回帰生成が原因で、生成フェーズが主要なパフォーマンスボトルネックとなっている。
投機的復号化は加速に有望な方向を示すが、GRPOの直接適用は高速な訓練条件下で制限されたスピードアップを達成する。
この制限を克服するため,リアルタイム並行レベルに応じて動的にドラフトと検証戦略を調整し,生成プロセスの高速化を最大化する並列性を考慮した投機的復号化フレームワークを提案する。
さらに,学習中の目標モデルと定型ドラフトモデル間の分散ドリフトに起因する性能劣化に対処するために,目標モデルからのフィードバック信号を用いて,ドラフトモデルを継続的に適応させるオンラインドラフト学習機構を導入する。
複数の数学的推論データセットとモデルを用いた実験結果から,提案手法は2.35倍から2.72倍のエンドツーエンドの高速化を実現し,効率性においてベースラインアプローチをはるかに上回ることを示した。
コードはhttps://github.com/yedaotian9/GRPO_speculativeで公開されている。
関連論文リスト
- OM2P: Offline Multi-Agent Mean-Flow Policy [40.346958259814514]
我々は,OM2P(Offline Multi-Agent Mean-Flow Policy)を提案する。
OM2Pは、最大3.8倍のGPUメモリ使用量を削減し、トレーニング時間の最大10.8倍のスピードアップを実現している。
論文 参考訳(メタデータ) (2025-08-08T12:38:56Z) - Can Prompt Difficulty be Online Predicted for Accelerating RL Finetuning of Reasoning Models? [62.579951798437115]
本研究では任意のプロンプトの反復的近似評価について検討する。
Model Predictive Prompt Selection (MoPPS)はベイズにおけるリスク予測フレームワークである。
MoPPSは迅速な困難を確実に予測し、ロールアウトを大幅に削減したトレーニングを加速する。
論文 参考訳(メタデータ) (2025-07-07T03:20:52Z) - World Models as Reference Trajectories for Rapid Motor Adaptation [0.0]
リフレクティブ・ワールド・モデル(Reflexive World Models、RWM)は、世界モデル予測を暗黙の基準軌跡として使用し、迅速な適応を行うための二重制御フレームワークである。
本手法は、強化学習とロバストモータ実行により、制御問題を長期報酬に分離する。
論文 参考訳(メタデータ) (2025-05-21T14:46:41Z) - Speculative Diffusion Decoding: Accelerating Language Generation through Diffusion [55.0194604505437]
投機的復号化は,大規模言語モデル推論を高速化する手法として広く採用されている。
本稿では,離散拡散モデルを用いてドラフトシーケンスを生成する投機的復号法を提案する。
論文 参考訳(メタデータ) (2024-08-10T21:24:25Z) - Lossless Acceleration of Large Language Model via Adaptive N-gram Parallel Decoding [2.642212767247493]
適応的なN-gram並列デコーディング(ANPD)を導入し,複数のトークンを同時に生成することで推論を高速化する。
ANPDは、処理速度を向上しながら、元の出力の完全性を維持する。
実験では、LLaMAのようなモデルとその微調整されたモデルが3.67倍の速度向上を示した。
論文 参考訳(メタデータ) (2024-04-10T16:11:09Z) - Multiplicative update rules for accelerating deep learning training and
increasing robustness [69.90473612073767]
我々は、幅広い機械学習アルゴリズムに適合し、代替の更新ルールを適用することができる最適化フレームワークを提案する。
提案するフレームワークはトレーニングを加速する一方、従来の追加更新ルールとは対照的に、より堅牢なモデルにつながります。
論文 参考訳(メタデータ) (2023-07-14T06:44:43Z) - When to Update Your Model: Constrained Model-based Reinforcement
Learning [50.74369835934703]
モデルベースRL(MBRL)の非遅延性能保証のための新規で一般的な理論スキームを提案する。
続いて導いた境界は、モデルシフトとパフォーマンス改善の関係を明らかにします。
さらなる例では、動的に変化する探索からの学習モデルが、最終的なリターンの恩恵をもたらすことが示されている。
論文 参考訳(メタデータ) (2022-10-15T17:57:43Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。