論文の概要: Demystifying Group Relative Policy Optimization: Its Policy Gradient is a U-Statistic
- arxiv url: http://arxiv.org/abs/2603.01162v2
- Date: Tue, 03 Mar 2026 11:46:35 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-03-04 14:54:12.552726
- Title: Demystifying Group Relative Policy Optimization: Its Policy Gradient is a U-Statistic
- Title(参考訳): Demystifying Group Relative Policy Optimization: its Policy Gradient is a U-Statistic
- Authors: Hongyi Zhou, Kai Ye, Erhan Xu, Jin Zhu, Ying Yang, Shijin Gong, Chengchun Shi,
- Abstract要約: 相対的ポリシー最適化はDeepSeekMathとDeepSeek-R1の中核となる方法論的コンポーネントである。
本稿では,従来のU-統計学のレンズを通してGRPOを理解するための統一的な枠組みを提供する。
- 参考スコア(独自算出の注目度): 12.256817975993128
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Group relative policy optimization (GRPO), a core methodological component of DeepSeekMath and DeepSeek-R1, has emerged as a cornerstone for scaling reasoning capabilities of large language models. Despite its widespread adoption and the proliferation of follow-up works, the theoretical properties of GRPO remain less studied. This paper provides a unified framework to understand GRPO through the lens of classical U-statistics. We demonstrate that the GRPO policy gradient is inherently a U-statistic, allowing us to characterize its mean squared error (MSE), derive the finite-sample error bound and asymptotic distribution of the suboptimality gap for its learned policy. Our findings reveal that GRPO is asymptotically equivalent to an oracle policy gradient algorithm -- one with access to a value function that quantifies the goodness of its learning policy at each training iteration -- and achieves asymptotically optimal performance within a broad class of policy gradient algorithms. Furthermore, we establish a universal scaling law that offers principled guidance for selecting the optimal group size. Empirical experiments further validate our theoretical findings, demonstrating that the optimal group size is universal, and verify the oracle property of GRPO.
- Abstract(参考訳): グループ相対ポリシー最適化(GRPO)は、DeepSeekMathとDeepSeek-R1の中核となる方法論コンポーネントであり、大規模言語モデルの推論能力を拡張するための基盤として登場した。
広く普及し、後続的な研究が盛んであるにもかかわらず、GRPOの理論的性質はいまだにあまり研究されていない。
本稿では,従来のU-統計学のレンズを通してGRPOを理解するための統一的な枠組みを提供する。
GRPOポリシー勾配は本質的にはU統計であり、平均二乗誤差(MSE)を特徴付けることができ、学習ポリシーに対する有限サンプル誤差境界と漸近分布を導出することができる。
以上の結果から,GRPO はオラクルポリシー勾配アルゴリズムと漸近的に等価であり,各学習繰り返しにおける学習方針の良さを定量化する値関数にアクセスでき,幅広い政策勾配アルゴリズムのクラスにおいて漸近的に最適な性能を達成できることがわかった。
さらに、最適なグループサイズを選択するための原則化されたガイダンスを提供する普遍的なスケーリング法を確立する。
実験により、我々の理論的な発見をさらに検証し、最適群のサイズが普遍であることを示し、GRPOのオラクル特性を検証する。
関連論文リスト
- iGRPO: Self-Feedback-Driven LLM Reasoning [88.83313431248473]
大規模言語モデル(LLM)は複雑な数学的問題を解く上で有望であるが、正確で一貫したソリューションを生み出すには至っていない。
IGRPO(Iterative Group Relative Policy Optimization)は、モデル生成ドラフトを通じて動的自己条件を追加するGRPOの2段階拡張である。
一致するロールアウト予算の下では、iGRPOはGRPOをベースモデルで一貫して上回っている。
論文 参考訳(メタデータ) (2026-02-09T18:45:11Z) - TL-GRPO: Turn-Level RL for Reasoning-Guided Iterative Optimization [97.18886232580131]
大規模言語モデルは、ツール統合による複雑なタスクにおいて強力な推論能力を示している。
そこで我々はターンレベルグループサンプリングを行う軽量RLアルゴリズムであるTurn-Level GRPOを提案する。
論文 参考訳(メタデータ) (2026-01-23T06:21:33Z) - Performative Policy Gradient: Optimality in Performative Reinforcement Learning [13.777823115521665]
デプロイ後の機械学習アルゴリズムは、しばしば彼らが行動する環境に影響を与える。
我々はPerformative Policy Gradient Algorithm (PePG)を紹介する。
PePGは性能的に最適な政策、すなわち自分自身によって誘導される分布シフトの下で最適な政策に収束する。
論文 参考訳(メタデータ) (2025-12-23T18:20:06Z) - GRPO-RM: Fine-Tuning Representation Models via GRPO-Driven Reinforcement Learning [52.16150076582931]
我々は、表現モデル(GRPO-RM)のためのグループ相対ポリシー最適化を提案する。
我々の手法は,大規模言語モデル(LLM)におけるトークンシーケンスサンプリングを機能的に置き換えるための事前定義された出力セットを確立する。
特殊報酬関数は表現モデルの性質を満たすように設計されている。
論文 参考訳(メタデータ) (2025-11-19T09:19:39Z) - Uncalibrated Reasoning: GRPO Induces Overconfidence for Stochastic Outcomes [55.2480439325792]
強化学習(Reinforcement Learning, RL)は、数学のような検証可能な決定論的領域において、言語モデルの精度を向上させるために著しく有効であることが証明されている。
本稿では,現在のRL法が,科学的実験のような検証可能な領域における言語モデルの最適化にも有効かどうかを検討する。
論文 参考訳(メタデータ) (2025-08-15T20:50:53Z) - On the Theory and Practice of GRPO: A Trajectory-Corrected Approach with Fast Convergence [2.8165669455824696]
Group Relative Policy Optimizationは、批判のない強化学習アルゴリズムである。
GRPO更新規則は,現行の方針よりも旧方針の政策勾配を推定する。
軌道レベルの重要度補正 GRPO という新しいアルゴリズムを提案する。
論文 参考訳(メタデータ) (2025-08-04T19:01:19Z) - Convergence and Sample Complexity of First-Order Methods for Agnostic Reinforcement Learning [66.4260157478436]
政策学習における強化学習について検討する。
目的は、特定の種類の利害関係において最高の政策と競争力のある政策を見つけることである。
論文 参考訳(メタデータ) (2025-07-06T14:40:05Z) - RL-finetuning LLMs from on- and off-policy data with a single algorithm [53.70731390624718]
大規模言語モデルを微調整するための新しい強化学習アルゴリズム(AGRO)を提案する。
AGROは生成整合性の概念を利用しており、最適ポリシーはモデルの任意の世代間での整合性の概念を満たすと述べている。
サンプルベースの政策勾配による最適解を求めるアルゴリズムを導出し,その収束に関する理論的保証を提供する。
論文 参考訳(メタデータ) (2025-03-25T12:52:38Z) - On the Global Optimality of Policy Gradient Methods in General Utility Reinforcement Learning [30.767979998925437]
汎用ユーティリティ(RLGU)による強化学習は、標準的な期待したリターンを超えた問題をキャプチャする統一フレームワークを提供する。
標準RL政策勾配法(PG法)の理論的解析の最近の進歩とRLGUにおける最近の取り組みは依然として限られている。
RLGUにおけるPG手法のグローバルな最適性保証を確立する。
論文 参考訳(メタデータ) (2024-10-05T10:24:07Z) - Matryoshka Policy Gradient for Entropy-Regularized RL: Convergence and Global Optimality [0.5261718469769449]
The novel Policy Gradient (PG) algorithm called $textitMatryoshka Policy Gradient$ (MPG) is introduced and study。
我々は,MPGのグローバル収束とともに,エントロピー正規化目標の最適方針を証明し,特徴付ける。
概念実証として,標準テストベンチマークでMPGを数値的に評価する。
論文 参考訳(メタデータ) (2023-03-22T17:56:18Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。