論文の概要: GRPO is Secretly a Process Reward Model
- arxiv url: http://arxiv.org/abs/2509.21154v2
- Date: Wed, 08 Oct 2025 10:13:42 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-10-09 14:21:18.151346
- Title: GRPO is Secretly a Process Reward Model
- Title(参考訳): GRPOは秘かにプロセスリワードモデルである
- Authors: Michael Sullivan,
- Abstract要約: GRPO RLアルゴリズムは実世界の条件下で非自明なプロセス報酬モデルを生成する。
この欠陥を軽減するために,アルゴリズムの簡単な修正を提案する。
この結果から,GRPO の高コストで明示的な PRM の利点を疑問視する。
- 参考スコア(独自算出の注目度): 5.637496960655903
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: We prove theoretically that the GRPO RL algorithm induces a non-trivial process reward model (PRM), under certain assumptions regarding within-group overlap of token sequences across completions. We then show empirically that these assumptions are met under real-world conditions: GRPO does in fact induce a non-trivial PRM. Leveraging the framework of GRPO-as-a-PRM, we identify a flaw in the GRPO objective: non-uniformly distributed process steps hinder both exploration and exploitation (under different conditions). We propose a simple modification to the algorithm to mitigate this defect ($\lambda$-GRPO), and show that LLMs trained with $\lambda$-GRPO achieve higher validation accuracy and performance on downstream reasoning tasks$-$and reach peak performance more rapidly$-$than LLMs trained with standard GRPO. Our results call into question the advantage of costly, explicitly-defined PRMs for GRPO: we show that it is possible to instead leverage the hidden, built-in PRM structure within the vanilla GRPO algorithm to boost model performance with a negligible impact on training time and cost.
- Abstract(参考訳): GRPO RLアルゴリズムは,完了点間のトークン列の群内重複を前提とした,非自明なプロセス報酬モデル(PRM)を導出する。
GRPOは実際に非自明なPRMを誘導する。
GRPO-as-a-PRMの枠組みを活用して、GRPOの目的の欠陥を特定する。
我々は,この欠陥を緩和するために,アルゴリズムの簡単な修正($\lambda$-GRPO)を提案し,標準GRPOでトレーニングしたLLMが,下流推論タスクにおいて高い検証精度と性能を達成することを示す。
この結果から, モデル性能を向上させるために, バニラGRPOアルゴリズム内に隠れたPRM構造を活用できることが示唆された。
関連論文リスト
- Unbiased Dynamic Pruning for Efficient Group-Based Policy Optimization [60.87651283510059]
Group Relative Policy Optimization (GRPO) はLLM推論を効果的にスケールするが、計算コストは禁じている。
本研究では,非バイアス勾配推定を保ちながら動的プルーニングを可能にする動的プルーニングポリシー最適化(DPPO)を提案する。
刈り込みによって引き起こされるデータの空間性を軽減するため,ウィンドウベースの欲求戦略であるDense Prompt Packingを導入する。
論文 参考訳(メタデータ) (2026-03-04T14:48:53Z) - iGRPO: Self-Feedback-Driven LLM Reasoning [88.83313431248473]
大規模言語モデル(LLM)は複雑な数学的問題を解く上で有望であるが、正確で一貫したソリューションを生み出すには至っていない。
IGRPO(Iterative Group Relative Policy Optimization)は、モデル生成ドラフトを通じて動的自己条件を追加するGRPOの2段階拡張である。
一致するロールアウト予算の下では、iGRPOはGRPOをベースモデルで一貫して上回っている。
論文 参考訳(メタデータ) (2026-02-09T18:45:11Z) - GRPO-RM: Fine-Tuning Representation Models via GRPO-Driven Reinforcement Learning [52.16150076582931]
我々は、表現モデル(GRPO-RM)のためのグループ相対ポリシー最適化を提案する。
我々の手法は,大規模言語モデル(LLM)におけるトークンシーケンスサンプリングを機能的に置き換えるための事前定義された出力セットを確立する。
特殊報酬関数は表現モデルの性質を満たすように設計されている。
論文 参考訳(メタデータ) (2025-11-19T09:19:39Z) - Repurposing Synthetic Data for Fine-grained Search Agent Supervision [81.95597592711688]
LLMベースの検索エージェントは、エンティティ中心の合成データに基づいてますます訓練されている。
一般的なトレーニングメソッドは、このリッチなエンティティ情報を破棄し、代わりにスパースで結果に基づく報酬に依存します。
E-GRPO(Entity-Aware Group Relative Policy Optimization)は、高密度なエンティティ認識報酬関数を定式化する新しいフレームワークである。
論文 参考訳(メタデータ) (2025-10-28T17:50:40Z) - GRPO-$λ$: Credit Assignment improves LLM Reasoning [35.452488047246646]
GRPO-$lambda$は、複雑な推論タスクのためのLLMのRL微調整におけるクレジット割り当てを強化するGRPOの新たな拡張である。
GRPO-$lambda$とGRPOを比較し、1.5Bから7Bパラメータのモデルを4ドルの異なる数学推論データセットでトレーニングする。
GRPO-$lambda$では、AIME24、Math500、OlympiadMath、MinervaMath、AMCの平均的なパフォーマンスはGRPOよりも3ドル以上改善され、7Bモデルでは4.5ドルポイント改善されている。
論文 参考訳(メタデータ) (2025-09-30T19:11:10Z) - MO-GRPO: Mitigating Reward Hacking of Group Relative Policy Optimization on Multi-Objective Problems [18.92779479033295]
グループ相対政策最適化は、正確な報酬モデルが利用できる場合に有効なアルゴリズムであることが示されている。
報奨関数を値のばらつきに応じて自動的に重み付けする単純な正規化法により,GRPOの拡張であるMO-GRPOを提案する。
また、MO-GRPOは、全ての報酬関数が優先順序を保ちながら損失関数に等しく寄与することを保証していることを示す。
論文 参考訳(メタデータ) (2025-09-26T08:32:22Z) - G$^2$RPO-A: Guided Group Relative Policy Optimization with Adaptive Guidance [1.0591274452539035]
転がり軌道に地道推論ステップを注入するガイドGRPOについて検討する。
率直にガイダンスを追加することで、利益が制限されることに気付きました。
数学的推論とコード生成ベンチマークの実験により、G$2$RPO-AがバニラGRPOを大幅に上回っていることが確認された。
論文 参考訳(メタデータ) (2025-08-18T15:41:16Z) - Multi-Layer GRPO: Enhancing Reasoning and Self-Correction in Large Language Models [3.0763741715155666]
我々は,MGRPO(Multi-layer GRPO)を提案する。
MGRPOは標準GRPOを著しく上回り、推論能力と自己補正能力の両方を育成することで優れた性能を達成する。
論文 参考訳(メタデータ) (2025-06-05T08:27:34Z) - Stepwise Guided Policy Optimization: Coloring your Incorrect Reasoning in GRPO [22.00487909203855]
グループ相対ポリシー最適化は、グループ内のすべてのレスポンスが正しくない場合にポリシーを更新できない。
この制限は、人工知能と人間の知性の間に重要なギャップを浮き彫りにする。
グループ内に応答の多様性を取り入れることで、全負のサンプル問題を緩和するシンプルなフレームワークを導入する。
論文 参考訳(メタデータ) (2025-05-16T18:02:05Z) - A Minimalist Approach to LLM Reasoning: from Rejection Sampling to Reinforce [68.99924691391048]
我々はGRPOを強化的なアルゴリズムの観点から再検討し、そのコアコンポーネントを分析する。
単純な拒絶サンプリングベースラインであるRAFTは,GRPOやPPOよりも競争性能が高いことがわかった。
この知見に触発されて、完全に正しくないサンプルと完全に正しいサンプルの両方をフィルタリングするポリシー勾配の最小限の拡張であるReinforce-Rejを提案する。
論文 参考訳(メタデータ) (2025-04-15T16:15:02Z) - VinePPO: Refining Credit Assignment in RL Training of LLMs [66.80143024475635]
我々は,言語環境の柔軟性を利用してモンテカルロをベースとした推定値を計算する,簡単なアプローチであるVinePPOを提案する。
本手法は,MATHおよびGSM8Kデータセット間のPPOおよび他のベースラインをウォールクロック時間以下で連続的に上回る。
論文 参考訳(メタデータ) (2024-10-02T15:49:30Z) - REBEL: Reinforcement Learning via Regressing Relative Rewards [59.68420022466047]
生成モデルの時代における最小限のRLアルゴリズムであるREBELを提案する。
理論的には、自然ポリシーグラディエントのような基本的なRLアルゴリズムはREBELの変種と見なすことができる。
我々はREBELが言語モデリングと画像生成に一貫したアプローチを提供し、PPOやDPOとより強くあるいは類似した性能を実現することを発見した。
論文 参考訳(メタデータ) (2024-04-25T17:20:45Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。