論文の概要: Why GRPO Needs Normalization: A Local-Curvature Perspective on Adaptive Gradients
- arxiv url: http://arxiv.org/abs/2601.23135v1
- Date: Fri, 30 Jan 2026 16:23:43 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-02-02 18:28:15.553098
- Title: Why GRPO Needs Normalization: A Local-Curvature Perspective on Adaptive Gradients
- Title(参考訳): GRPOが正規化を必要とする理由: 適応的勾配の局所的・時間的視点
- Authors: Cheng Ge, Caitlyn Heqi Yin, Hao Liang, Jiawei Zhang,
- Abstract要約: Group Relative Policy Optimization (GRPO) は、Reinforcement Learning (RL)アルゴリズムのデファクト標準である。
標準偏差正規化は適応勾配を具現化する。
軽度条件下では,GRPOは非正規化REINFORCEよりも厳格に収束率を向上し,平均的な報酬標準偏差が特徴的であることを示す。
- 参考スコア(独自算出の注目度): 9.932325888357488
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Reinforcement learning (RL) has become a key driver of language model reasoning. Among RL algorithms, Group Relative Policy Optimization (GRPO) is the de facto standard, avoiding the need for a critic by using per-prompt baselines and variance normalization. Yet why and when this normalization helps remains unclear. In this work, we provide an explanation through the lens of local curvature of the sequence-level policy gradient: standard deviation normalization implements an adaptive gradient. Theoretically, under mild conditions, GRPO enjoys a strictly improved convergence rate over unnormalized REINFORCE, with gains characterized by the average within-prompt reward standard deviation across prompts and iterations. Empirically, our analysis on GSM8K and MATH benchmarks reveals three distinct training phases governed by the interplay between feature orthogonality and reward variance: (I) an early acceleration phase where high variance and orthogonality favor adaptive scaling; (II) a relatively stable transition phase; and (III) a late-stage regime where the loss of orthogonality limits further gains. Together, these results provide a principled account of when std normalization helps in GRPO, and offer broader insights into the design of critic-free RL algorithms.
- Abstract(参考訳): 強化学習(RL)は、言語モデル推論の重要な要因となっている。
RLアルゴリズムの中で、グループ相対ポリシー最適化(GRPO)は事実上の標準であり、プロンプト毎のベースラインと分散正規化を用いることで、批判者の必要性を回避する。
しかし、なぜ、いつこの正規化が役立つのかは定かではない。
本研究では,次数レベルのポリシー勾配の局所曲率のレンズによる説明を行う。標準偏差正規化は適応勾配を具現する。
理論的には、穏やかな条件下では、GRPOは非正規化されたREINFORCEよりも厳格に改善された収束率を享受し、プロンプトとイテレーション間の平均的な報酬標準偏差によって特徴づけられる。
実験により,GSM8KとMATHベンチマークを用いて解析したところ,特徴直交と報酬分散の相互作用によって制御される3つの異なる訓練段階が明らかとなった。
これらの結果は、std正規化がGRPOでいつ役立つのかを原則的に説明し、批判のないRLアルゴリズムの設計に関するより広範な洞察を提供する。
関連論文リスト
- The Procrustean Bed of Time Series: The Optimization Bias of Point-wise Loss [53.542743390809356]
本稿では,最適化バイアス(EOB)の期待に関する第一原理解析を提案する。
時間列が決定論的で構造化されるほど、ポイントワイドの損失関数によるバイアスがより厳しくなる。
本稿では,DFTとDWTの両原理を同時に実現する具体的ソリューションを提案する。
論文 参考訳(メタデータ) (2025-12-21T06:08:22Z) - Anchoring Values in Temporal and Group Dimensions for Flow Matching Model Alignment [61.80228667422234]
VGPOは時間次元とグループ次元の両方で値の推定を再定義する。
スパース端末の報酬を密度の高いプロセス認識値推定に変換する。
標準群正規化を絶対値によって強化された新しいプロセスに置き換え、安定した最適化信号を維持する。
論文 参考訳(メタデータ) (2025-12-13T16:31:26Z) - Single-stream Policy Optimization [21.214853668053234]
SPO(Single-stream Policy Optimization)を導入する。
SPOはグループ単位のベースラインを永続的なKL適応値トラッカーに置き換え、バッチ全体にわたってメリットを標準化する。
グループフリーであるため、SPOはより高いスループットと、長い水平またはツール統合された設定で効果的にスケールすることができる。
論文 参考訳(メタデータ) (2025-09-16T16:39:11Z) - VL Norm: Rethink Loss Aggregation in RLVR [23.196933474967224]
RLVR(Reinforcement Learning with Verifiable Rewards)における動的生成長の特性に合わせた損失集約手法を提案する。
理論的にも経験的にも,様々な長さが政策損失に与える影響を解析することにより,最小分散非バイアス推定器として問題を再検討する。
我々の提案したVLノルムは、真の政策損失の偏りのない見積もりを提供するだけでなく、理論の勾配分散を最小化する。
論文 参考訳(メタデータ) (2025-09-09T09:52:34Z) - Uncalibrated Reasoning: GRPO Induces Overconfidence for Stochastic Outcomes [55.2480439325792]
強化学習(Reinforcement Learning, RL)は、数学のような検証可能な決定論的領域において、言語モデルの精度を向上させるために著しく有効であることが証明されている。
本稿では,現在のRL法が,科学的実験のような検証可能な領域における言語モデルの最適化にも有効かどうかを検討する。
論文 参考訳(メタデータ) (2025-08-15T20:50:53Z) - On the Design of KL-Regularized Policy Gradient Algorithms for LLM Reasoning [59.11784194183928]
政策勾配アルゴリズムは大規模言語モデル(LLM)の推論能力の向上に成功している。
規則化されたポリシーグラディエント(RPG)ビューは、広く使われている$k_3$ペナルティが、正確には非正規化されたKLであることを示している。
RPG-REINFORCE with RPG-Style Clipは、DAPOよりも最大6ドル以上の絶対パーセンテージポイントの精度を向上させる。
論文 参考訳(メタデータ) (2025-05-23T06:01:21Z) - Gradient Normalization Provably Benefits Nonconvex SGD under Heavy-Tailed Noise [60.92029979853314]
重み付き雑音下でのグラディエントDescence(SGD)の収束を確実にする上での勾配正規化とクリッピングの役割について検討する。
我々の研究は、重尾雑音下でのSGDの勾配正規化の利点を示す最初の理論的証拠を提供する。
我々は、勾配正規化とクリッピングを取り入れた加速SGD変種を導入し、さらに重み付き雑音下での収束率を高めた。
論文 参考訳(メタデータ) (2024-10-21T22:40:42Z) - Distributionally Robust Optimization with Bias and Variance Reduction [9.341215359733601]
勾配に基づくアルゴリズムであるProspectは、スムーズな正規化損失に対する線形収束を享受していることを示す。
また、勾配法のようなベースラインよりも2~3$times$早く収束できることも示している。
論文 参考訳(メタデータ) (2023-10-21T00:03:54Z) - Benign Overfitting of Constant-Stepsize SGD for Linear Regression [122.70478935214128]
帰納バイアスは 経験的に過剰フィットを防げる中心的存在です
この研究は、この問題を最も基本的な設定として考慮している: 線形回帰に対する定数ステップサイズ SGD。
我々は、(正規化されていない)SGDで得られるアルゴリズム正則化と、通常の最小二乗よりも多くの顕著な違いを反映する。
論文 参考訳(メタデータ) (2021-03-23T17:15:53Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。