論文の概要: Your Group-Relative Advantage Is Biased
- arxiv url: http://arxiv.org/abs/2601.08521v1
- Date: Tue, 13 Jan 2026 13:03:15 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-01-14 18:27:19.207966
- Title: Your Group-Relative Advantage Is Biased
- Title(参考訳): グループ関係のアドバンテージが悪用される
- Authors: Fengkai Yang, Zherui Chen, Xiaohan Wang, Xiaodong Lu, Jiajun Chai, Guojun Yin, Wei Lin, Shuai Ma, Fuzhen Zhuang, Deqing Wang, Yaodong Yang, Jianxin Li, Yikun Ban,
- Abstract要約: グループベースの学習手法は、学習評論家を避けるためにグループ相対的な優位性推定に依存する。
群相対的優位推定器は、真の(予想された)優位性に対して本質的に偏りがある。
適応的再重み付け方式であるヒストリー・アウェア適応困難度重み付け(HA-DW)を提案する。
- 参考スコア(独自算出の注目度): 74.57406620907797
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Reinforcement Learning from Verifier Rewards (RLVR) has emerged as a widely used approach for post-training large language models on reasoning tasks, with group-based methods such as GRPO and its variants gaining broad adoption. These methods rely on group-relative advantage estimation to avoid learned critics, yet its theoretical properties remain poorly understood. In this work, we uncover a fundamental issue of group-based RL: the group-relative advantage estimator is inherently biased relative to the true (expected) advantage. We provide the first theoretical analysis showing that it systematically underestimates advantages for hard prompts and overestimates them for easy prompts, leading to imbalanced exploration and exploitation. To address this issue, we propose History-Aware Adaptive Difficulty Weighting (HA-DW), an adaptive reweighting scheme that adjusts advantage estimates based on an evolving difficulty anchor and training dynamics. Both theoretical analysis and experiments on five mathematical reasoning benchmarks demonstrate that HA-DW consistently improves performance when integrated into GRPO and its variants. Our results suggest that correcting biased advantage estimation is critical for robust and efficient RLVR training.
- Abstract(参考訳): Reinforcement Learning from Verifier Rewards (RLVR) は、大規模言語モデルを推論タスクで訓練した後で広く使われるアプローチとして登場し、GRPO などのグループベースの手法が広く採用されている。
これらの手法は、学習した批評家を避けるためにグループ相対的な優位性推定に頼っているが、その理論的性質はよく分かっていない。
群相対的優位推定器は、真の(予想された)優位性に対して本質的に偏りがある。
ハードプロンプトの利点を体系的に過小評価し、簡単なプロンプトで過小評価し、不均衡な探索と搾取につながることを示す最初の理論的分析を行った。
この問題に対処するために,適応的再重み付け方式であるヒストリー・アウェア・アダプティブ・ダプティブ・ディフラシティ・ウェイトリング(HA-DW)を提案する。
5つの数学的推論ベンチマークの理論的解析と実験は、GRPOとその変種に統合された場合、HA-DWは一貫して性能を向上することを示した。
以上の結果から, バイアスド・アドバンスト推定の補正は, 堅牢かつ効率的なRLVRトレーニングにおいて重要であることが示唆された。
関連論文リスト
- ICPO: Intrinsic Confidence-Driven Group Relative Preference Optimization for Efficient Reinforcement Learning [17.98065634130798]
固有信頼駆動型グループ相対選好最適化法(ICPO)を提案する。
ICPOは、複数の応答の相対生成確率を同一の入力プロンプトで比較することにより、各応答に対する優先優位スコアを算出する。
優先的優位性スコアは、粗大な報酬や報奨ノイズの問題を緩和するだけでなく、過度に信頼された誤りを効果的に抑制することを発見した。
論文 参考訳(メタデータ) (2025-11-26T03:10:15Z) - ExGRPO: Learning to Reason from Experience [82.83309610498446]
検証可能な報酬(RLVR)からの強化学習は、大規模言語モデルの推論能力を改善するための新たなパラダイムである。
標準的なオンライントレーニングは、1回の更新後にロールアウトエクスペリエンスを捨て、計算の非効率性と不安定性につながる。
本稿では,まず,経験価値の効果的な指標であるロールアウトの正しさとエントロピーを考察する。
論文 参考訳(メタデータ) (2025-10-02T17:31:30Z) - On the Effect of Negative Gradient in Group Relative Deep Reinforcement Optimization [52.76330545825083]
強化学習(RL)は,大規模言語モデル(LLM)の推論能力の向上に人気がある。
従来認識されていなかった Lazy Likelihood Displacement (LLD) 現象を同定し, トレーニング中に正答率がわずかに増加するか, あるいは低下する可能性が示唆された。
従来のDPOベースのアプローチとは異なり、NTHRはGRPOのグループベースの構造を利用して、適切な応答をアンカーとして利用し、重要なトークンを識別する。
論文 参考訳(メタデータ) (2025-05-24T18:58:51Z) - DisCO: Reinforcing Large Reasoning Models with Discriminative Constrained Optimization [50.91849555841057]
グループ相対政策最適化は大規模推論モデル(LRM)の強化学習手法である
差別学習の原則を基礎として, LRMの強化のための新たな差別的制約付き最適化フレームワークを導入する。
DisCO は GRPO と DAPO などの改良型を著しく上回り、GRPO の7%、DAPO の6% を平均的に上回っている。
論文 参考訳(メタデータ) (2025-05-18T11:08:32Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。