論文の概要: Beyond KL Divergence: Policy Optimization with Flexible Bregman Divergences for LLM Reasoning
- arxiv url: http://arxiv.org/abs/2602.04380v1
- Date: Wed, 04 Feb 2026 10:01:20 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-02-05 19:45:11.465499
- Title: Beyond KL Divergence: Policy Optimization with Flexible Bregman Divergences for LLM Reasoning
- Title(参考訳): KLの多様性を超えて: LLM推論のためのフレキシブルなブレグマンダイバージェンスによるポリシー最適化
- Authors: Rui Yuan, Mykola Khandoga, Vinay Kumar Sankarapu,
- Abstract要約: Group-Based Mirror Policy Optimization (GBMPO)は、グループベースのポリシー最適化をフレキシブルなBregman分散に拡張するフレームワークである。
ハンドデザインのProbL2-GRPOは86.7%の精度でDr. GRPOベースラインよりも5.5ポイント向上している。
- 参考スコア(独自算出の注目度): 3.259050650999544
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Policy optimization methods like Group Relative Policy Optimization (GRPO) and its variants have achieved strong results on mathematical reasoning and code generation tasks. Despite extensive exploration of reward processing strategies and training dynamics, all existing group-based methods exclusively use KL divergence for policy regularization, leaving the choice of divergence function unexplored. We introduce Group-Based Mirror Policy Optimization (GBMPO), a framework that extends group-based policy optimization to flexible Bregman divergences, including hand-designed alternatives (L2 in probability space) and learned neural mirror maps. On GSM8K mathematical reasoning, hand-designed ProbL2-GRPO achieves 86.7% accuracy, improving +5.5 points over the Dr. GRPO baseline. On MBPP code generation, neural mirror maps reach 60.1-60.8% pass@1, with random initialization already capturing most of the benefit. While evolutionary strategies meta-learning provides marginal accuracy improvements, its primary value lies in variance reduction ($\pm$0.2 versus $\pm$0.6) and efficiency gains (15% shorter responses on MBPP), suggesting that random initialization of neural mirror maps is sufficient for most practical applications. These results establish divergence choice as a critical, previously unexplored design dimension in group-based policy optimization for LLM reasoning.
- Abstract(参考訳): Group Relative Policy Optimization (GRPO) やその変種といった政策最適化手法は、数学的推論やコード生成タスクにおいて大きな成果を上げている。
報酬処理戦略やトレーニング力学の広範な探索にもかかわらず、既存のグループベースの手法はすべてKL分散を政策正規化にのみ用いており、分岐関数の選択は未探索のままである。
我々は,グループベースの政策最適化をフレキシブルなブレグマン分岐に拡張するフレームワークであるGBMPO(Group-Based Mirror Policy Optimization)を紹介した。
GSM8Kの数学的推論では、手設計のProbL2-GRPOは86.7%の精度を実現し、Dr. GRPOベースラインよりも+5.5ポイント向上した。
MBPPコード生成では、ニューラルネットワークミラーマップが 60.1-60.8% pass@1 に達する。
進化的戦略のメタラーニングは限界精度の向上をもたらすが、その主な価値は分散還元($\pm$0.2 vs $\pm$0.6)と効率向上(MBPPでは15%短い応答)にあり、ほとんどの実用的な応用においてニューラルネットワークマップのランダム初期化が十分であることを示している。
これらの結果は、LSM推論のためのグループベースのポリシー最適化において、決定的かつ未探索な設計次元として分岐選択が確立される。
関連論文リスト
- GDPO: Group reward-Decoupled Normalization Policy Optimization for Multi-reward RL Optimization [133.27496265096445]
我々は,グループ相対的政策最適化を,その適合性を検討することなく,マルチリワード設定で適用する方法を示す。
次に、これらの問題を解決するための新しい政策最適化手法であるグループ報酬分離正規化政策最適化(GDPO)を紹介する。
GDPOはGRPOを一貫して上回り、マルチリワード強化学習最適化の有効性と一般化性を示す。
論文 参考訳(メタデータ) (2026-01-08T18:59:24Z) - Provably Mitigating Overoptimization in RLHF: Your SFT Loss is Implicitly an Adversarial Regularizer [52.09480867526656]
人間の嗜好を学習する際の分布変化と不確実性の一形態として,不一致の原因を同定する。
過度な最適化を緩和するために、まず、逆選択された報酬モデルに最適なポリシーを選択する理論アルゴリズムを提案する。
報奨モデルとそれに対応する最適ポリシーの等価性を用いて、優先最適化損失と教師付き学習損失を組み合わせた単純な目的を特徴とする。
論文 参考訳(メタデータ) (2024-05-26T05:38:50Z) - Towards Efficient Exact Optimization of Language Model Alignment [93.39181634597877]
嗜好データから直接ポリシーを最適化するために、直接選好最適化(DPO)が提案された。
問題の最適解に基づいて導出されたDPOが,現実の最適解の妥協平均探索近似に繋がることを示す。
本稿では、アライメント目的の効率的な精度最適化(EXO)を提案する。
論文 参考訳(メタデータ) (2024-02-01T18:51:54Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。