論文の概要: $f$-GRPO and Beyond: Divergence-Based Reinforcement Learning Algorithms for General LLM Alignment
- arxiv url: http://arxiv.org/abs/2602.05946v1
- Date: Thu, 05 Feb 2026 18:01:52 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-02-06 18:49:09.104478
- Title: $f$-GRPO and Beyond: Divergence-Based Reinforcement Learning Algorithms for General LLM Alignment
- Title(参考訳): $f$-GRPO, and Beyond: Divergence-based Reinforcement Learning Algorithms for General LLM Alignment
- Authors: Rajdeep Haldar, Lantao Mei, Guang Lin, Yue Xing, Qifan Song,
- Abstract要約: 優先アライメント(PA)の目的が,アライメント(コセン)と非アライメント(リジェクト)の応答分布の分岐推定器として機能することを示す。
我々は、政治強化学習のクラスである$f$-Group Relative Policy Optimization(f$-GRPO)と、ハイブリッド・オン・オフ政策目標である$f$-Hybrid Alignment Loss(f$-HAL)を提案する。
我々は、これらの目的のクラスがアライメント後の平均報酬を改善することを理論的に保証する。
- 参考スコア(独自算出の注目度): 15.396104072574104
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Recent research shows that Preference Alignment (PA) objectives act as divergence estimators between aligned (chosen) and unaligned (rejected) response distributions. In this work, we extend this divergence-based perspective to general alignment settings, such as reinforcement learning with verifiable rewards (RLVR), where only environmental rewards are available. Within this unified framework, we propose $f$-Group Relative Policy Optimization ($f$-GRPO), a class of on-policy reinforcement learning, and $f$-Hybrid Alignment Loss ($f$-HAL), a hybrid on/off policy objectives, for general LLM alignment based on variational representation of $f$-divergences. We provide theoretical guarantees that these classes of objectives improve the average reward after alignment. Empirically, we validate our framework on both RLVR (Math Reasoning) and PA tasks (Safety Alignment), demonstrating superior performance and flexibility compared to current methods.
- Abstract(参考訳): 近年の研究では、優先アライメント(PA)の目的が、アライメント(コセン)と非アライメント(リジェクト)の応答分布の分岐推定器として機能していることが示されている。
本研究では,環境報酬のみを利用できるRLVR(Regressing Learning with Verible rewards)のような一般的なアライメント設定に,この分散に基づく視点を拡大する。
この統合フレームワーク内では、政治強化学習のクラスである$f$-Group Relative Policy Optimization(f$-GRPO)とハイブリッドなオン/オフ政策目標である$f$-HAL(f$-HAL)を提案する。
我々は、これらの目的のクラスがアライメント後の平均報酬を改善することを理論的に保証する。
RLVR(Math Reasoning)とPAタスク(Safety Alignment)の両方でフレームワークを実証し、現行の手法と比較して優れたパフォーマンスと柔軟性を示す。
関連論文リスト
- MAESTRO: Meta-learning Adaptive Estimation of Scalarization Trade-offs for Reward Optimization [56.074760766965085]
大規模言語モデル(LLM)の整合性のための効率的なパラダイムとしてグループ相対政策最適化が登場している。
我々は,報酬スカラー化を動的潜在ポリシーとして扱い,モデルの終端隠蔽状態を意味的ボトルネックとして活用するMAESTROを提案する。
本稿では,軽量コンダクタネットワークがメタリワード信号としてグループ相対的優位性を生かしてポリシと共進化する,双方向最適化フレームワークにおけるコンテキスト的帯域幅問題としてこれを定式化する。
論文 参考訳(メタデータ) (2026-01-12T05:02:48Z) - GDPO: Group reward-Decoupled Normalization Policy Optimization for Multi-reward RL Optimization [133.27496265096445]
我々は,グループ相対的政策最適化を,その適合性を検討することなく,マルチリワード設定で適用する方法を示す。
次に、これらの問題を解決するための新しい政策最適化手法であるグループ報酬分離正規化政策最適化(GDPO)を紹介する。
GDPOはGRPOを一貫して上回り、マルチリワード強化学習最適化の有効性と一般化性を示す。
論文 参考訳(メタデータ) (2026-01-08T18:59:24Z) - The Peril of Preference: Why GRPO fails on Ordinal Rewards [0.8937905773981699]
我々は、この欠陥を解決する新しい定式化であるCoRPO(Correctness Relative Policy Optimization)を導入する。
CoRPOは適応ベースラインを使用し、最小品質の閾値を強制する。
コード検証タスクにおいて、CoRPOを実証的に検証し、より安定した収束とドメイン外一般化を実証する。
論文 参考訳(メタデータ) (2025-11-06T15:12:50Z) - Not All Rollouts are Useful: Down-Sampling Rollouts in LLM Reinforcement Learning [55.15106182268834]
検証可能な報奨付き強化学習(RLVR)が,大規模言語モデルにおける推論能力向上のための主要なアプローチとして登場した。
ロールアウト生成は恥ずかしく並列であり、メモリライトであるのに対して、ポリシー更新は通信量が多く、メモリ集約的である。
PODS(Policy Optimization with Down-Sampling)を導入し、戦略的に選択されたロールアウトサブセットでのみトレーニングすることで、ポリシー更新からロールアウト生成を分離する。
論文 参考訳(メタデータ) (2025-04-18T17:49:55Z) - Accelerating Proximal Policy Optimization Learning Using Task Prediction for Solving Environments with Delayed Rewards [8.455772877963792]
オフラインポリシとオンラインPPOポリシを組み合わせたハイブリッドポリシアーキテクチャと,TWTL(Time Window Temporal Logic)を用いた報酬形成機構の2つを導入する。
我々は,逆振り子と月面着陸機環境に関する広範囲な実験を通じて,我々のアプローチの有効性を実証する。
論文 参考訳(メタデータ) (2024-11-26T20:22:31Z) - PARL: A Unified Framework for Policy Alignment in Reinforcement Learning from Human Feedback [106.63518036538163]
我々は、強化学習におけるポリシーアライメントの最近強調された重要な問題に対処するために、新しい統合された二段階最適化ベースのフレームワーク、textsfPARLを提案する。
本フレームワークは, 上向きの目標(逆設計)の分布を, 下向きの最適変数で明示的にパラメータ化することにより, これらの問題に対処する。
その結果,提案したtextsfPARL が RL のアライメントの懸念に対処できる可能性が示唆された。
論文 参考訳(メタデータ) (2023-08-03T18:03:44Z) - Policy Mirror Descent for Regularized Reinforcement Learning: A
Generalized Framework with Linear Convergence [60.20076757208645]
本稿では,正規化RLを解くためのGPMDアルゴリズムを提案する。
我々は,このアルゴリズムが次元自由な方法で,全範囲の学習率に線形に収束することを実証した。
論文 参考訳(メタデータ) (2021-05-24T02:21:34Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。