論文の概要: GRPO is Secretly a Process Reward Model
- arxiv url: http://arxiv.org/abs/2509.21154v1
- Date: Thu, 25 Sep 2025 13:40:36 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-09-26 20:58:12.943663
- Title: GRPO is Secretly a Process Reward Model
- Title(参考訳): GRPOは秘かにプロセスリワードモデルである
- Authors: Michael Sullivan,
- Abstract要約: GRPO RLアルゴリズムは実世界の条件下で非自明なプロセス報酬モデルを生成する。
この欠陥を軽減するために,アルゴリズムの簡単な修正を提案する。
この結果から,GRPO の高コストで明示的な PRM の利点を疑問視する。
- 参考スコア(独自算出の注目度): 5.637496960655903
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: We prove theoretically that the GRPO RL algorithm induces a non-trivial process reward model (PRM), under certain assumptions regarding within-group overlap of token sequences across completions. We then show empirically that these assumptions are met under real-world conditions: GRPO does in fact induce a non-trivial PRM. Leveraging the framework of GRPO-as-a-PRM, we identify a flaw in the GRPO objective: non-uniformly distributed process steps hinder both exploration and exploitation (under different conditions). We propose a simple modification to the algorithm to mitigate this defect ($\lambda$-GRPO), and show that LLMs trained with $\lambda$-GRPO achieve higher validation accuracy and performance on downstream reasoning tasks$-$and reach peak performance more rapidly$-$than LLMs trained with standard GRPO. Our results call into question the advantage of costly, explicitly-defined PRMs for GRPO: we show that it is possible to instead leverage the hidden, built-in PRM structure within the vanilla GRPO algorithm to boost model performance with a negligible impact on training time and cost.
- Abstract(参考訳): GRPO RLアルゴリズムは,完了点間のトークン列の群内重複を前提とした,非自明なプロセス報酬モデル(PRM)を導出する。
GRPOは実際に非自明なPRMを誘導する。
GRPO-as-a-PRMの枠組みを活用して、GRPOの目的の欠陥を特定する。
我々は,この欠陥を緩和するために,アルゴリズムの簡単な修正($\lambda$-GRPO)を提案し,標準GRPOでトレーニングしたLLMが,下流推論タスクにおいて高い検証精度と性能を達成することを示す。
この結果から, モデル性能を向上させるために, バニラGRPOアルゴリズム内に隠れたPRM構造を活用できることが示唆された。
関連論文リスト
- G$^2$RPO-A: Guided Group Relative Policy Optimization with Adaptive Guidance [1.0591274452539035]
転がり軌道に地道推論ステップを注入するガイドGRPOについて検討する。
率直にガイダンスを追加することで、利益が制限されることに気付きました。
数学的推論とコード生成ベンチマークの実験により、G$2$RPO-AがバニラGRPOを大幅に上回っていることが確認された。
論文 参考訳(メタデータ) (2025-08-18T15:41:16Z) - Multi-Layer GRPO: Enhancing Reasoning and Self-Correction in Large Language Models [3.0763741715155666]
我々は,MGRPO(Multi-layer GRPO)を提案する。
MGRPOは標準GRPOを著しく上回り、推論能力と自己補正能力の両方を育成することで優れた性能を達成する。
論文 参考訳(メタデータ) (2025-06-05T08:27:34Z) - Stepwise Guided Policy Optimization: Coloring your Incorrect Reasoning in GRPO [22.00487909203855]
グループ相対ポリシー最適化は、グループ内のすべてのレスポンスが正しくない場合にポリシーを更新できない。
この制限は、人工知能と人間の知性の間に重要なギャップを浮き彫りにする。
グループ内に応答の多様性を取り入れることで、全負のサンプル問題を緩和するシンプルなフレームワークを導入する。
論文 参考訳(メタデータ) (2025-05-16T18:02:05Z) - A Minimalist Approach to LLM Reasoning: from Rejection Sampling to Reinforce [68.99924691391048]
我々はGRPOを強化的なアルゴリズムの観点から再検討し、そのコアコンポーネントを分析する。
単純な拒絶サンプリングベースラインであるRAFTは,GRPOやPPOよりも競争性能が高いことがわかった。
この知見に触発されて、完全に正しくないサンプルと完全に正しいサンプルの両方をフィルタリングするポリシー勾配の最小限の拡張であるReinforce-Rejを提案する。
論文 参考訳(メタデータ) (2025-04-15T16:15:02Z) - VinePPO: Refining Credit Assignment in RL Training of LLMs [66.80143024475635]
我々は,言語環境の柔軟性を利用してモンテカルロをベースとした推定値を計算する,簡単なアプローチであるVinePPOを提案する。
本手法は,MATHおよびGSM8Kデータセット間のPPOおよび他のベースラインをウォールクロック時間以下で連続的に上回る。
論文 参考訳(メタデータ) (2024-10-02T15:49:30Z) - REBEL: Reinforcement Learning via Regressing Relative Rewards [59.68420022466047]
生成モデルの時代における最小限のRLアルゴリズムであるREBELを提案する。
理論的には、自然ポリシーグラディエントのような基本的なRLアルゴリズムはREBELの変種と見なすことができる。
我々はREBELが言語モデリングと画像生成に一貫したアプローチを提供し、PPOやDPOとより強くあるいは類似した性能を実現することを発見した。
論文 参考訳(メタデータ) (2024-04-25T17:20:45Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。