Fugu-MT 論文翻訳(概要): f-GRPO and Beyond: Divergence-Based Reinforcement Learning Algorithms for General LLM Alignment

論文の概要: f-GRPO and Beyond: Divergence-Based Reinforcement Learning Algorithms for General LLM Alignment

arxiv url: http://arxiv.org/abs/2602.05946v2
Date: Mon, 09 Feb 2026 18:34:18 GMT
ステータス: 翻訳完了
システム内更新日: 2026-02-10 17:49:39.488425
Title: f-GRPO and Beyond: Divergence-Based Reinforcement Learning Algorithms for General LLM Alignment
Title（参考訳）: f-GRPOとそれを超える:一般LLMアライメントのための分岐に基づく強化学習アルゴリズム
Authors: Rajdeep Haldar, Lantao Mei, Guang Lin, Yue Xing, Qifan Song,
Abstract要約: 政治強化学習のクラスであるf群相対政策最適化(f-GRPO)とf-Hybrid Alignment Loss(f-HAL)を提案する。我々は、これらの目的のクラスがアライメント後の平均報酬を改善することを理論的に保証する。
参考スコア（独自算出の注目度）: 15.396104072574104
License: http://creativecommons.org/licenses/by/4.0/
Abstract: Recent research shows that Preference Alignment (PA) objectives act as divergence estimators between aligned (chosen) and unaligned (rejected) response distributions. In this work, we extend this divergence-based perspective to general alignment settings, such as reinforcement learning with verifiable rewards (RLVR), where only environmental rewards are available. Within this unified framework, we propose f-Group Relative Policy Optimization (f-GRPO), a class of on-policy reinforcement learning, and f-Hybrid Alignment Loss (f-HAL), a hybrid on/off policy objectives, for general LLM alignment based on variational representation of f-divergences. We provide theoretical guarantees that these classes of objectives improve the average reward after alignment. Empirically, we validate our framework on both RLVR (Math Reasoning) and PA tasks (Safety Alignment), demonstrating superior performance and flexibility compared to current methods.
Abstract（参考訳）: 近年の研究では、優先アライメント(PA)の目的が、アライメント(コセン)と非アライメント(リジェクト)の応答分布の分岐推定器として機能していることが示されている。本研究では,環境報酬のみを利用できるRLVR(Regressing Learning with Verible rewards)のような一般的なアライメント設定に,この分散に基づく視点を拡大する。この統合された枠組みの中では、F-群相対政策最適化(f-GRPO)、F-HAL(f-Hybrid Alignment Loss)、ハイブリッドオン/オフ政策目標(f-HAL)を提案する。我々は、これらの目的のクラスがアライメント後の平均報酬を改善することを理論的に保証する。 RLVR(Math Reasoning)とPAタスク(Safety Alignment)の両方でフレームワークを実証し、現行の手法と比較して優れたパフォーマンスと柔軟性を示す。

関連論文リスト

From Absolute to Relative: Rethinking Reward Shaping in Group-Based Reinforcement Learning [7.6602542594279335]
本稿では,報酬形成を絶対得点から相対ランクへシフトさせるために,相対報酬を用いた強化学習を提案する。 RLRRは、推論ベンチマークやオープン・エンド・ジェネレーションタスクにおいて、標準グループベースベースラインよりも一貫した性能向上をもたらすことを示す。
論文参考訳（メタデータ） (2026-01-30T15:07:06Z)
MAESTRO: Meta-learning Adaptive Estimation of Scalarization Trade-offs for Reward Optimization [56.074760766965085]
大規模言語モデル(LLM)の整合性のための効率的なパラダイムとしてグループ相対政策最適化が登場している。我々は,報酬スカラー化を動的潜在ポリシーとして扱い,モデルの終端隠蔽状態を意味的ボトルネックとして活用するMAESTROを提案する。本稿では,軽量コンダクタネットワークがメタリワード信号としてグループ相対的優位性を生かしてポリシと共進化する,双方向最適化フレームワークにおけるコンテキスト的帯域幅問題としてこれを定式化する。
論文参考訳（メタデータ） (2026-01-12T05:02:48Z)
GDPO: Group reward-Decoupled Normalization Policy Optimization for Multi-reward RL Optimization [133.27496265096445]
我々は,グループ相対的政策最適化を,その適合性を検討することなく,マルチリワード設定で適用する方法を示す。次に、これらの問題を解決するための新しい政策最適化手法であるグループ報酬分離正規化政策最適化(GDPO)を紹介する。 GDPOはGRPOを一貫して上回り、マルチリワード強化学習最適化の有効性と一般化性を示す。
論文参考訳（メタデータ） (2026-01-08T18:59:24Z)
On the Hidden Objective Biases of Group-based Reinforcement Learning [40.50223796302703]
グループベース強化学習法は,近年,大規模言語モデルのポストトレインに広く用いられている。本稿では,GRPO スタイルの手法を統一的なサロゲート定式化の中で研究することによって理論的に解析する。
論文参考訳（メタデータ） (2026-01-08T15:00:35Z)
A Systematic Evaluation of Preference Aggregation in Federated RLHF for Pluralistic Alignment of LLMs [2.840505903487544]
本稿では,大規模言語モデル(LLM)を,連合学習環境における多種多様な人間の嗜好と整合させるという課題に対処する。本研究では,人間の嗜好に異なるアグリゲーション戦略を用いる場合,アライメント品質と公正性のトレードオフを評価する総合評価フレームワークを提案する。
論文参考訳（メタデータ） (2025-12-09T16:39:32Z)
The Peril of Preference: Why GRPO fails on Ordinal Rewards [0.8937905773981699]
我々は、この欠陥を解決する新しい定式化であるCoRPO(Correctness Relative Policy Optimization)を導入する。 CoRPOは適応ベースラインを使用し、最小品質の閾値を強制する。コード検証タスクにおいて、CoRPOを実証的に検証し、より安定した収束とドメイン外一般化を実証する。
論文参考訳（メタデータ） (2025-11-06T15:12:50Z)
DISCO Balances the Scales: Adaptive Domain- and Difficulty-Aware Reinforcement Learning on Imbalanced Data [65.09939942413651]
本稿では,グループ間不均衡と2つの重要なイノベーションに対処するGRPOの原理的拡張を提案する。ドメイン対応報酬スケーリングは、ドメインの頻度に基づいて最適化を再重み付けすることで周波数バイアスに対処する。難解な報酬のスケーリングは、学習価値を提供する不確実なプロンプトを特定し、優先順位付けするために、プロンプトレベルの自己整合性を活用する。
論文参考訳（メタデータ） (2025-05-21T03:43:29Z)
GVPO: Group Variance Policy Optimization for Large Language Model Post-Training [19.005045649097987]
群変数ポリシー最適化(GVPO)は、KL制約された報酬を直接重みに含める分析解である。 GVPOには2つの大きな利点がある: ユニークな最適解、正確にはKL制約の報酬目的、および柔軟なサンプリング分布をサポートする。 GVPOは、理論的な保証を実用的適応性で統一することにより、信頼性と汎用性を備えたLLMポストトレーニングのための新しいパラダイムを確立する。
論文参考訳（メタデータ） (2025-04-28T09:02:24Z)
Not All Rollouts are Useful: Down-Sampling Rollouts in LLM Reinforcement Learning [55.15106182268834]
検証可能な報奨付き強化学習(RLVR)が,大規模言語モデルにおける推論能力向上のための主要なアプローチとして登場した。ロールアウト生成は恥ずかしく並列であり、メモリライトであるのに対して、ポリシー更新は通信量が多く、メモリ集約的である。 PODS(Policy Optimization with Down-Sampling)を導入し、戦略的に選択されたロールアウトサブセットでのみトレーニングすることで、ポリシー更新からロールアウト生成を分離する。
論文参考訳（メタデータ） (2025-04-18T17:49:55Z)
Accelerating Proximal Policy Optimization Learning Using Task Prediction for Solving Environments with Delayed Rewards [8.455772877963792]
オフラインポリシとオンラインPPOポリシを組み合わせたハイブリッドポリシアーキテクチャと,TWTL(Time Window Temporal Logic)を用いた報酬形成機構の2つを導入する。我々は,逆振り子と月面着陸機環境に関する広範囲な実験を通じて,我々のアプローチの有効性を実証する。
論文参考訳（メタデータ） (2024-11-26T20:22:31Z)
PARL: A Unified Framework for Policy Alignment in Reinforcement Learning from Human Feedback [106.63518036538163]
我々は、強化学習におけるポリシーアライメントの最近強調された重要な問題に対処するために、新しい統合された二段階最適化ベースのフレームワーク、textsfPARLを提案する。本フレームワークは, 上向きの目標(逆設計)の分布を, 下向きの最適変数で明示的にパラメータ化することにより, これらの問題に対処する。その結果,提案したtextsfPARL が RL のアライメントの懸念に対処できる可能性が示唆された。
論文参考訳（メタデータ） (2023-08-03T18:03:44Z)
Policy Mirror Descent for Regularized Reinforcement Learning: A Generalized Framework with Linear Convergence [60.20076757208645]
本稿では,正規化RLを解くためのGPMDアルゴリズムを提案する。我々は,このアルゴリズムが次元自由な方法で,全範囲の学習率に線形に収束することを実証した。
論文参考訳（メタデータ） (2021-05-24T02:21:34Z)
Target-Embedding Autoencoders for Supervised Representation Learning [111.07204912245841]
本稿では,対象空間が高次元な純粋教師付き環境における一般化の枠組みを解析する。我々は、教師付き予測のための目標埋め込みオートエンコーダ(TEA)の一般的なフレームワークのモチベーションと形式化を行い、特徴とターゲットの予測の両方から予測可能なように最適化された中間潜在表現を学習する。
論文参考訳（メタデータ） (2020-01-23T02:37:10Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。