論文の概要: Balanced Aggregation: Understanding and Fixing Aggregation Bias in GRPO
- arxiv url: http://arxiv.org/abs/2605.04077v1
- Date: Tue, 14 Apr 2026 09:48:46 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-05-11 06:56:26.575636
- Title: Balanced Aggregation: Understanding and Fixing Aggregation Bias in GRPO
- Title(参考訳): バランスアグリゲーション:GRPOにおけるアグリゲーションバイアスの理解と修正
- Authors: Zhiyuan Zeng, Jiameng Huang, Zhangyue Yin, Jiashuo Liu, Ziniu Li, Bingrui Li, Yuhao Wu, Yining Zheng, Ge Zhang, Wenhao Huang, Xipeng Qiu,
- Abstract要約: 検証可能な報酬(RLVR)による強化学習は、大規模言語モデルにおける推論とコード生成を改善するための中心的なパラダイムとなっている。
標準的なGRPOはシーケンスアグリゲーションを使用し、最近の研究はトークンアグリゲーションをより良い代替手段として提唱している。
トークンアグリゲーションは符号長結合を導入し、シーケンスアグリゲーションは暗黙的にダウンウェイトを延長する。
- 参考スコア(独自算出の注目度): 70.38763678943648
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Reinforcement learning with verifiable rewards (RLVR) has become a central paradigm for improving reasoning and code generation in large language models, and GRPO-style training is widely adopted for its simplicity and effectiveness. However, an important design choice remains underexplored: how token-level policy gradient terms are aggregated within each sampled group. Standard GRPO uses sequence aggregation, while recent work has advocated token aggregation as a better alternative. We show that these two rules induce different optimization biases: token aggregation introduces sign-length coupling, while sequence aggregation implicitly downweights longer responses through sequence-level equal weighting. To address this tension, we propose \textbf{Balanced Aggregation (BA)}, a simple drop-in replacement that computes token-level means separately within the positive and negative subsets and then combines them with sequence-count-based weights. Experiments with Qwen2.5-Math-7B and Qwen3-1.7B on DAPO-17k and Polaris, evaluated on six reasoning and coding benchmarks, show that BA consistently improves training stability and final performance over standard token and sequence aggregation. Our analysis further shows that the relative effectiveness of token and sequence aggregation is largely governed by response-length variation and the positive-negative length gap, highlighting aggregation as a critical design dimension in GRPO-style RLVR.
- Abstract(参考訳): 検証可能な報酬付き強化学習(RLVR)は、大規模言語モデルにおける推論とコード生成を改善するための中心的なパラダイムとなり、GRPOスタイルのトレーニングは、その単純さと有効性のために広く採用されている。
しかしながら、トークンレベルのポリシー勾配項が各サンプリンググループ内でどのように集約されるかという重要な設計選択は、まだ未解決のままである。
標準的なGRPOはシーケンスアグリゲーションを使用し、最近の研究はトークンアグリゲーションをより良い代替手段として提唱している。
トークンアグリゲーションは符号長の結合を導入し、シーケンスアグリゲーションは列レベルの等重み付けによって暗黙的にダウンウェイトを延長する。
この緊張に対処するために、トークンレベルの平均を正と負のサブセットで別々に計算し、それらをシーケンス数ベースの重み付けに結合する単純なドロップイン置換法である \textbf{Balanced Aggregation (BA)} を提案する。
DAPO-17kとPolarisのQwen2.5-Math-7BとQwen3-1.7Bを用いた実験は、6つの推論およびコーディングベンチマークで評価され、BAが標準トークンとシーケンスアグリゲーションよりもトレーニング安定性と最終的なパフォーマンスを一貫して改善していることが示されている。
さらに,トークンとシーケンスアグリゲーションの相対的有効性は,応答長の変動と正負長の差に大きく左右され,GRPOスタイルのRLVRにおける重要な設計次元としてのアグリゲーションが強調される。
関連論文リスト
- Too Correct to Learn: Reinforcement Learning on Saturated Reasoning Data [55.84428098924793]
構造保存探索を行うためのパラメータ自由復号法である Constrained Uniform Top-K Smpling (CUTS) を提案する。
グループ内の利点分散を増幅するために、エクスプロイトと探索的なロールアウトを相乗化するためのトレーニングフレームワークであるMixed-CUTSに統合する。
特にMixed-CUTSは、AIME25ベンチマークのPass@1の精度を標準のGRPOよりも15.1%向上している。
論文 参考訳(メタデータ) (2026-04-20T16:43:28Z) - iGRPO: Self-Feedback-Driven LLM Reasoning [88.83313431248473]
大規模言語モデル(LLM)は複雑な数学的問題を解く上で有望であるが、正確で一貫したソリューションを生み出すには至っていない。
IGRPO(Iterative Group Relative Policy Optimization)は、モデル生成ドラフトを通じて動的自己条件を追加するGRPOの2段階拡張である。
一致するロールアウト予算の下では、iGRPOはGRPOをベースモデルで一貫して上回っている。
論文 参考訳(メタデータ) (2026-02-09T18:45:11Z) - Orchestrating Tokens and Sequences: Dynamic Hybrid Policy Optimization for RLVR [31.43482175098666]
Reinforcement Learning with Verifiable Rewards (RLVR)は,大規模言語モデルを推論タスクで最適化するための,有望なフレームワークを提供する。
既存のRLVRアルゴリズムは様々な粒度に重点を置いており、それぞれに相補的な強度と制限がある。
本稿では, GRPO と GSPO を単一のクリッピングサロゲート対象にブリッジする動的ハイブリッドポリシー最適化 (DHPO) を提案する。
論文 参考訳(メタデータ) (2026-01-09T07:57:40Z) - Anchoring Values in Temporal and Group Dimensions for Flow Matching Model Alignment [61.80228667422234]
VGPOは時間次元とグループ次元の両方で値の推定を再定義する。
スパース端末の報酬を密度の高いプロセス認識値推定に変換する。
標準群正規化を絶対値によって強化された新しいプロセスに置き換え、安定した最適化信号を維持する。
論文 参考訳(メタデータ) (2025-12-13T16:31:26Z) - Geometric-Mean Policy Optimization [117.05113769757172]
グループ相対政策最適化(GRPO)は,大規模言語モデルの推論能力を大幅に向上させた。
GRPOは、不利な重要度重み付けされた報酬を持つトークンに直面すると、不安定なポリシー更新に悩まされる。
本稿では,GRPOの安定性を向上させるために,トークン報酬の出力を抑えることにより,GMPO(Geometric-Mean Policy Optimization)を提案する。
論文 参考訳(メタデータ) (2025-07-28T09:54:05Z) - GRASP: Grouped Regression with Adaptive Shrinkage Priors [2.7241418453016792]
グループ予測器を用いた回帰のための単純なベイズ的フレームワークであるGRASPを紹介する。
NBP 先行は、ホースシューの適応的な一般化である。
複雑な階層構造を必要とせずに直接尾部を制御することは十分であることを示す。
論文 参考訳(メタデータ) (2025-06-22T16:35:16Z) - What is the Alignment Objective of GRPO? [30.36318490634376]
本稿では,GRPOアルゴリズムの定常ポリシを特徴付けるためのフレームワークを提案する。
選好アグリゲーションの正確な形は、報酬選好モデルの定義方法とペナルティ関数から生じる。
二分問題に対する集合的選好の明示的な特徴付けとして,大小2の群に対して,大小2の群に対して,大小の群を限定する。
論文 参考訳(メタデータ) (2025-02-25T15:56:56Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。