論文の概要: On the Hidden Objective Biases of Group-based Reinforcement Learning
- arxiv url: http://arxiv.org/abs/2601.05002v1
- Date: Thu, 08 Jan 2026 15:00:35 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-01-09 17:01:53.244198
- Title: On the Hidden Objective Biases of Group-based Reinforcement Learning
- Title(参考訳): グループ型強化学習における隠れた目的バイアスについて
- Authors: Aleksandar Fontana, Marco Simoni, Giulio Rossolini, Andrea Saracino, Paolo Mori,
- Abstract要約: グループベース強化学習法は,近年,大規模言語モデルのポストトレインに広く用いられている。
本稿では,GRPO スタイルの手法を統一的なサロゲート定式化の中で研究することによって理論的に解析する。
- 参考スコア(独自算出の注目度): 40.50223796302703
- License: http://creativecommons.org/licenses/by-nc-sa/4.0/
- Abstract: Group-based reinforcement learning methods, like Group Relative Policy Optimization (GRPO), are widely used nowadays to post-train large language models. Despite their empirical success, they exhibit structural mismatches between reward optimization and the underlying training objective. In this paper, we present a theoretical analysis of GRPO style methods by studying them within a unified surrogate formulation. This perspective reveals recurring properties that affect all the methods under analysis: (i) non-uniform group weighting induces systematic gradient biases on shared prefix tokens; (ii) interactions with the AdamW optimizer make training dynamics largely insensitive to reward scaling; and (iii) optimizer momentum can push policy updates beyond the intended clipping region under repeated optimization steps. We believe that these findings highlight fundamental limitations of current approaches and provide principled guidance for the design of future formulations.
- Abstract(参考訳): Group Relative Policy Optimization (GRPO) のようなグループベースの強化学習手法は、近年、大規模言語モデルのポストトレインに広く使われている。
経験的成功にもかかわらず、報酬最適化と基礎となる訓練目標の間の構造的ミスマッチを示す。
本稿では,GRPOスタイルの手法を統一的なサロゲート定式化の中で研究することで理論的に解析する。
このパースペクティブは、分析中のすべてのメソッドに影響を与える繰り返しプロパティを明らかにします。
(i)非一様群重み付けは共有プレフィックストークンの系統的勾配バイアスを誘導する。
(ii)AdamWオプティマイザとのインタラクションにより、トレーニングダイナミクスはスケーリングに対する報奨に大きく敏感になる。
3) 最適化モーメントは、繰り返し最適化手順の下で、意図したクリッピング領域を超えてポリシー更新をプッシュすることができる。
これらの知見は、現在のアプローチの基本的限界を強調し、将来の定式化の設計に関する原則的なガイダンスを提供すると信じている。
関連論文リスト
- GDPO: Group reward-Decoupled Normalization Policy Optimization for Multi-reward RL Optimization [133.27496265096445]
我々は,グループ相対的政策最適化を,その適合性を検討することなく,マルチリワード設定で適用する方法を示す。
次に、これらの問題を解決するための新しい政策最適化手法であるグループ報酬分離正規化政策最適化(GDPO)を紹介する。
GDPOはGRPOを一貫して上回り、マルチリワード強化学習最適化の有効性と一般化性を示す。
論文 参考訳(メタデータ) (2026-01-08T18:59:24Z) - OBLR-PO: A Theoretical Framework for Stable Reinforcement Learning [12.77713716713937]
一般的な政策次数推定器の統計特性を特徴付ける統一理論フレームワークを提供する。
勾配の信号対雑音比(SNR)によって制御される適応的な学習率スケジュールを導出する。
さらに、分散-最適基底線が勾配重み付き推定器であることを示し、分散還元の新しい原理を提供する。
論文 参考訳(メタデータ) (2025-11-28T16:09:28Z) - Consolidating Reinforcement Learning for Multimodal Discrete Diffusion Models [40.82263997290613]
離散拡散においてスケーラブルなマルチモーダル強化学習を実現するための,最初の実行可能なアプローチであるMaskGRPOを紹介する。
MaskGRPOはより安定的で効率的なアップデートをもたらし、推論性能が向上し、世代品質が向上する。
論文 参考訳(メタデータ) (2025-10-03T10:36:24Z) - DisCO: Reinforcing Large Reasoning Models with Discriminative Constrained Optimization [50.91849555841057]
グループ相対政策最適化は大規模推論モデル(LRM)の強化学習手法である
差別学習の原則を基礎として, LRMの強化のための新たな差別的制約付き最適化フレームワークを導入する。
DisCO は GRPO と DAPO などの改良型を著しく上回り、GRPO の7%、DAPO の6% を平均的に上回っている。
論文 参考訳(メタデータ) (2025-05-18T11:08:32Z) - A Survey of Direct Preference Optimization [103.59317151002693]
LLM(Large Language Models)は、前例のない生成能力を示す。
人的価値との整合性は、有用で無害なデプロイメントを保証する上で、依然として重要です。
直接優先度最適化(DPO)は、最近、合理化された代替案として注目されている。
論文 参考訳(メタデータ) (2025-03-12T08:45:15Z) - Learning Dynamic Representations via An Optimally-Weighted Maximum Mean Discrepancy Optimization Framework for Continual Learning [16.10753846850319]
継続的な学習は、モデルを永続的に取得し、保持することを可能にする。
悲惨な忘れ物は モデルパフォーマンスを著しく損なう
本稿では,表現変更に対する罰則を課す,OPMMD(Optimally-Weighted Mean Discrepancy)と呼ばれる新しいフレームワークを紹介する。
論文 参考訳(メタデータ) (2025-01-21T13:33:45Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。