Fugu-MT 論文翻訳(概要): CPPO: Accelerating the Training of Group Relative Policy Optimization-Based Reasoning Models

論文の概要: CPPO: Accelerating the Training of Group Relative Policy Optimization-Based Reasoning Models

arxiv url: http://arxiv.org/abs/2503.22342v1
Date: Fri, 28 Mar 2025 11:30:05 GMT
ステータス: 翻訳完了
システム内更新日: 2025-03-31 19:09:59.668966
Title: CPPO: Accelerating the Training of Group Relative Policy Optimization-Based Reasoning Models
Title（参考訳）: CPPO:グループ相対的政策最適化に基づく推論モデルの訓練を加速する
Authors: Zhihang Lin, Mingbao Lin, Yuan Xie, Rongrong Ji,
Abstract要約: 本稿では、推論モデルの学習を高速化するために、CPPO(Completion Pruning Policy Optimization)を提案する。 CPPOはGSM8Kで最大8.32タイム、Mathで3.51タイム、オリジナルのGRPOと比較して精度を保ったり、向上させたりすることができる。
参考スコア（独自算出の注目度）: 68.26281707780761
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: This paper introduces Completion Pruning Policy Optimization (CPPO) to accelerate the training of reasoning models based on Group Relative Policy Optimization (GRPO). GRPO, while effective, incurs high training costs due to the need for sampling multiple completions for each question. Our experiment and theoretical analysis reveals that the number of completions impacts model accuracy yet increases training time multiplicatively, and not all completions contribute equally to policy training -- their contribution depends on their relative advantage. To address these issues, we propose CPPO, which prunes completions with low absolute advantages, significantly reducing the number needed for gradient calculation and updates. Additionally, we introduce a dynamic completion allocation strategy to maximize GPU utilization by incorporating additional questions, further enhancing training efficiency. Experimental results demonstrate that CPPO achieves up to $8.32\times$ speedup on GSM8K and $3.51\times$ on Math while preserving or even enhancing the accuracy compared to the original GRPO. We release our code at https://github.com/lzhxmu/CPPO.
Abstract（参考訳）: 本稿では,グループ相対政策最適化(GRPO)に基づく推論モデルの訓練を高速化するために,CPPO(Completion Pruning Policy Optimization)を提案する。 GRPOは有効ではあるが、各質問に対して複数の完了をサンプリングする必要があるため、高いトレーニングコストを発生させる。実験と理論的分析により,完成度がモデル精度に影響を与えるが,訓練時間が乗算的に増加し,全ての完成度が政策訓練に等しく寄与するわけではないことが明らかとなった。これらの問題に対処するため,CPPOを提案する。これは絶対的なアドバンテージを低く保ち,勾配計算や更新に要する回数を大幅に削減する。さらに、追加の質問を取り入れてGPU利用を最大化するための動的完了割当戦略を導入し、トレーニング効率をさらに高める。実験の結果、CPPOはGSM8Kで最大8.32\times$のスピードアップ、Mathで3.51\times$のスピードアップを達成した。コードをhttps://github.com/lzhxmu/CPPO.comでリリースします。

関連論文リスト

Unbiased Dynamic Pruning for Efficient Group-Based Policy Optimization [60.87651283510059]
Group Relative Policy Optimization (GRPO) はLLM推論を効果的にスケールするが、計算コストは禁じている。本研究では,非バイアス勾配推定を保ちながら動的プルーニングを可能にする動的プルーニングポリシー最適化(DPPO)を提案する。刈り込みによって引き起こされるデータの空間性を軽減するため,ウィンドウベースの欲求戦略であるDense Prompt Packingを導入する。
論文参考訳（メタデータ） (2026-03-04T14:48:53Z)
iGRPO: Self-Feedback-Driven LLM Reasoning [88.83313431248473]
大規模言語モデル(LLM)は複雑な数学的問題を解く上で有望であるが、正確で一貫したソリューションを生み出すには至っていない。 IGRPO(Iterative Group Relative Policy Optimization)は、モデル生成ドラフトを通じて動的自己条件を追加するGRPOの2段階拡張である。一致するロールアウト予算の下では、iGRPOはGRPOをベースモデルで一貫して上回っている。
論文参考訳（メタデータ） (2026-02-09T18:45:11Z)
GDPO: Group reward-Decoupled Normalization Policy Optimization for Multi-reward RL Optimization [133.27496265096445]
我々は,グループ相対的政策最適化を,その適合性を検討することなく,マルチリワード設定で適用する方法を示す。次に、これらの問題を解決するための新しい政策最適化手法であるグループ報酬分離正規化政策最適化(GDPO)を紹介する。 GDPOはGRPOを一貫して上回り、マルチリワード強化学習最適化の有効性と一般化性を示す。
論文参考訳（メタデータ） (2026-01-08T18:59:24Z)
GTPO: Trajectory-Based Policy Optimization in Large Language Models [45.799380822683034]
政策に基づく最適化は、今日の言語モデルのトレーニングとアライメントに広く採用されている。本稿では,GRPOの2つの大きな限界を明らかにし,解析する。コンフリクトトークンを識別するGTPOを導入する。
論文参考訳（メタデータ） (2025-08-05T08:15:01Z)
Truncated Proximal Policy Optimization [43.965892659920364]
Truncated Proximal Policy Optimization (T-PPO)は、ポリシー更新と長さ制限された応答生成を合理化することで、トレーニング効率を向上させる。不完全な応答から導かれる利点推定のための拡張一般化アドバンテージ推定(EGAE)を提案する。我々は,32Bベースモデルを用いたAIME 2024におけるT-PPOの有効性と有効性を示した。
論文参考訳（メタデータ） (2025-06-18T01:21:38Z)
Accelerating RL for LLM Reasoning with Optimal Advantage Regression [52.0792918455501]
本稿では,最適優位関数を直接近似する新しい2段階ポリシー最適化フレームワークを提案する。 A$*-POは、幅広い数学的推論ベンチマークで競合性能を達成する。 PPO、GRPO、REBELと比較して、トレーニング時間を最大2$times$、ピークメモリ使用率を30%以上削減する。
論文参考訳（メタデータ） (2025-05-27T03:58:50Z)
A Minimalist Approach to LLM Reasoning: from Rejection Sampling to Reinforce [68.99924691391048]
我々はGRPOを強化的なアルゴリズムの観点から再検討し、そのコアコンポーネントを分析する。単純な拒絶サンプリングベースラインであるRAFTは,GRPOやPPOよりも競争性能が高いことがわかった。この知見に触発されて、完全に正しくないサンプルと完全に正しいサンプルの両方をフィルタリングするポリシー勾配の最小限の拡張であるReinforce-Rejを提案する。
論文参考訳（メタデータ） (2025-04-15T16:15:02Z)
What's Behind PPO's Collapse in Long-CoT? Value Optimization Holds the Secret [3.410112345043215]
これらの問題に対処するために,VC-PPO(Value-Calibrated PPO)を提案する。 The American Invitational Mathematics Examination (AIME) の実験は、VC-PPOがPPOのパフォーマンスを著しく向上させることを示している。
論文参考訳（メタデータ） (2025-03-03T12:59:25Z)
Lean and Mean: Decoupled Value Policy Optimization with Global Value Guidance [52.65461207786633]
政策に基づく人間からのフィードバックからの強化学習は、大きな言語モデルと人間の嗜好の整合に不可欠である。俳優と批評家の合同トレーニングと、事前訓練された一定の報酬モデルによる指導が必要である。従来の報酬モデリングを事前訓練されたEmphglobal Value Model(GVM)に置き換えるリーンフレームワークである textbfDecoupled Value Policy Optimization (DVPO) を提案する。
論文参考訳（メタデータ） (2025-02-24T08:11:33Z)
VinePPO: Unlocking RL Potential For LLM Reasoning Through Refined Credit Assignment [66.80143024475635]
VinePPOは不偏のモンテカルロ推定を計算するための簡単な手法である。我々は、VinePPOが、MATHおよびGSM8Kデータセット間でPPOや他のRLフリーベースラインを一貫して上回ることを示す。
論文参考訳（メタデータ） (2024-10-02T15:49:30Z)
Monte Carlo Tree Search Boosts Reasoning via Iterative Preference Learning [55.96599486604344]
本稿では,Large Language Models (LLMs) の推論能力向上を目的とした,反復的な選好学習プロセスによるアプローチを提案する。我々は、MCTS(Monte Carlo Tree Search)を用いて好みデータを反復的に収集し、そのルックアヘッド機能を利用して、インスタンスレベルの報酬をよりきめ細かいステップレベルの信号に分解する。提案アルゴリズムはDPO(Direct Preference Optimization)を用いて,新たに生成されたステップレベルの優先度データを用いてLCMポリシーを更新する。
論文参考訳（メタデータ） (2024-05-01T11:10:24Z)
A dynamical clipping approach with task feedback for Proximal Policy Optimization [29.855219523565786]
最適なPPOクリッピング境界がトレーニングプロセス全体を通して一貫していることの理論的証明はない。過去の研究は、PPOクリッピングバウンドを動的に調整し、PPOの性能を向上させることを目的としている。我々は、強化学習タスクの嗜好(最大回帰)をよりよく反映するために、Preference based Proximal Policy Optimization (Pb-PPO)を提案する。
論文参考訳（メタデータ） (2023-12-12T06:35:56Z)
You May Not Need Ratio Clipping in PPO [117.03368180633463]
Proximal Policy Optimization (PPO) 法は、複数のミニバッチ最適化エポックを1組のサンプルデータで反復的に実行することでポリシーを学習する。比率クリッピングPPOは、ターゲットポリシーとサンプル収集に使用されるポリシーの確率比をクリップする一般的な変種である。本論文では, この比クリッピングが有効に結合できないため, 良好な選択ではないことを示す。 ESPOは、多くのワーカーによる分散トレーニングに簡単にスケールアップでき、パフォーマンスも高いことを示す。
論文参考訳（メタデータ） (2022-01-31T20:26:56Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。