論文の概要: GIFT: Group-relative Implicit Fine Tuning Integrates GRPO with DPO and UNA
- arxiv url: http://arxiv.org/abs/2510.23868v1
- Date: Mon, 27 Oct 2025 21:18:19 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-10-29 15:35:36.519367
- Title: GIFT: Group-relative Implicit Fine Tuning Integrates GRPO with DPO and UNA
- Title(参考訳): GIFT: Group-relative Implicit Fine TuningがGRPOとDPOとUNAを統合した
- Authors: Zhichao Wang,
- Abstract要約: GIFTはアライメントのための新しい強化学習フレームワークである。
暗黙の報酬モデルと明示的な報酬モデルとの差を最小限にする。
数学的ベンチマークにおいて優れた推論とアライメント性能を達成する。
- 参考スコア(独自算出の注目度): 6.07907277934348
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: I propose \textbf{G}roup-relative \textbf{I}mplicit \textbf{F}ine \textbf{T}uning (GIFT), a novel reinforcement learning framework for aligning LLMs. Instead of directly maximizing cumulative rewards like PPO or GRPO, GIFT minimizes the discrepancy between implicit and explicit reward models. It combines three key ideas: (1) the online multi-response generation and normalization of GRPO, (2) the implicit reward formulation of DPO, and (3) the implicit-explicit reward alignment principle of UNA. By jointly normalizing the implicit and explicit rewards, GIFT eliminates an otherwise intractable term that prevents effective use of implicit rewards. This normalization transforms the complex reward maximization objective into a simple mean squared error (MSE) loss between the normalized reward functions, converting a non-convex optimization problem into a convex, stable, and analytically differentiable formulation. Unlike offline methods such as DPO and UNA, GIFT remains on-policy and thus retains exploration capability. Compared to GRPO, it requires fewer hyperparameters, converges faster, and generalizes better with significantly reduced training overfitting. Empirically, GIFT achieves superior reasoning and alignment performance on mathematical benchmarks while remaining computationally efficient.
- Abstract(参考訳): LLMを整合化するための新しい強化学習フレームワークである GIFT (textbf{G}roup-relative \textbf{I}mplicit \textbf{F}ine \textbf{T}uning) を提案する。
PPOやGRPOといった累積報酬を直接最大化する代わりに、GIFTは暗黙の報酬モデルと明示的な報酬モデルとの差を最小限にする。
1)オンラインマルチレスポンス生成とGRPOの正規化,(2)DPOの暗黙の報酬定式化,(3)UNAの暗黙の報酬アライメント原理の3つの主要な考え方が組み合わさっている。
暗黙の報酬と明示的な報酬を共同で正規化することにより、GIFTは暗黙の報酬を効果的に使用するのを防ぐ、他の難解な用語を排除している。
この正規化は、複素報酬最大化目標を正規化された報酬関数間の単純な平均二乗誤差(MSE)損失に変換し、非凸最適化問題を凸、安定、解析的に微分可能な定式化に変換する。
DPOやUNAのようなオフラインの方法とは異なり、GIFTは引き続き政治上にあり、探索能力を維持している。
GRPOと比較して、ハイパーパラメータを少なくし、より高速に収束し、トレーニングオーバーフィッティングを大幅に減らして、より良く一般化する。
経験的に、GIFTは計算効率を保ちながら、数学的ベンチマークにおいて優れた推論とアライメント性能を達成する。
関連論文リスト
- iGRPO: Self-Feedback-Driven LLM Reasoning [88.83313431248473]
大規模言語モデル(LLM)は複雑な数学的問題を解く上で有望であるが、正確で一貫したソリューションを生み出すには至っていない。
IGRPO(Iterative Group Relative Policy Optimization)は、モデル生成ドラフトを通じて動的自己条件を追加するGRPOの2段階拡張である。
一致するロールアウト予算の下では、iGRPOはGRPOをベースモデルで一貫して上回っている。
論文 参考訳(メタデータ) (2026-02-09T18:45:11Z) - Rectified LpJEPA: Joint-Embedding Predictive Architectures with Sparse and Maximum-Entropy Representations [53.61624356747686]
JEPA(Joint-Embedding Predictive Architectures)は、ビュー不変表現を学習し、崩壊防止のためのプロジェクションベースの分布マッチングを認める。
既存のアプローチは、等方的ガウス分布に対する表現を正則化するが、本質的には密度表現を好んでおり、効率的な表現で観察されるスパーシティの重要な性質を捉えることができない。
本稿では,Rectified Generalized Gaussian(RGG)分布に表現を整合させる2サンプル分布整合損失であるRDMRegを導入する。
論文 参考訳(メタデータ) (2026-02-01T21:49:30Z) - Outcome-Grounded Advantage Reshaping for Fine-Grained Credit Assignment in Mathematical Reasoning [60.00161035836637]
グループ相対政策最適化は、推論タスクのための有望な批判のない強化学習パラダイムとして登場した。
我々は,各トークンがモデルの最終回答にどの程度影響するかに基づいて,利益を再分配する,きめ細かい信用割当機構であるOutcome-grounded Advantage Reshaping (OAR)を紹介した。
OAR-Gは計算オーバーヘッドを無視して同等のゲインを達成し、どちらも強力なGRPOベースラインをはるかに上回っている。
論文 参考訳(メタデータ) (2026-01-12T10:48:02Z) - MAESTRO: Meta-learning Adaptive Estimation of Scalarization Trade-offs for Reward Optimization [56.074760766965085]
大規模言語モデル(LLM)の整合性のための効率的なパラダイムとしてグループ相対政策最適化が登場している。
我々は,報酬スカラー化を動的潜在ポリシーとして扱い,モデルの終端隠蔽状態を意味的ボトルネックとして活用するMAESTROを提案する。
本稿では,軽量コンダクタネットワークがメタリワード信号としてグループ相対的優位性を生かしてポリシと共進化する,双方向最適化フレームワークにおけるコンテキスト的帯域幅問題としてこれを定式化する。
論文 参考訳(メタデータ) (2026-01-12T05:02:48Z) - AMIR-GRPO: Inducing Implicit Preference Signals into GRPO [15.759757442328388]
強化学習は、複雑な推論タスクにおいて、大きな言語モデルを整合させる主要なパラダイムとなっている。
GRPOは大規模なポストトレーニングで広く使用されているが、推論と重大な設定では構造的な制限に直面している。
AMIR-GRPOは、グループ内報酬ランキングから直接構築された暗黙のDPOスタイルのコントラスト正規化器でGRPOを増強する。
論文 参考訳(メタデータ) (2026-01-07T07:22:58Z) - FedLoDrop: Federated LoRA with Dropout for Generalized LLM Fine-tuning [65.26899091946417]
大規模言語モデル(LLM)は、特定のタスクに汎用モデルを適用するために不可欠である。
本稿では,FedLoDropを用いたFederated LoRAを提案する。FedLoDropは,Federated LoRAのトレーニング可能な行列の行と列にドロップアウトを適用する新しいフレームワークである。
論文 参考訳(メタデータ) (2025-10-14T02:40:45Z) - FlowRL: Matching Reward Distributions for LLM Reasoning [69.88820066093798]
大規模言語モデル(LLM)強化学習(RL)において、報酬を最大化する代わりに、フローバランシングによる全報酬分布をマッチングするフローRLを提案する。
我々はスカラー報酬を学習可能な分割関数を用いて正規化対象分布に変換し、その後、ポリシーと対象分布との逆KL分散を最小化する。
論文 参考訳(メタデータ) (2025-09-18T17:56:36Z) - A Principled Loss Function for Direct Language Model Alignment [0.0]
本稿では,RLHF最適条件から直接導出した新しい損失関数を提案する。
提案した損失は,その差ではなく,基礎となる報酬によって規定される,ロジットの特定の有限値を対象としている。
この固有の安定性は、報酬のハッキングを防ぎ、より効果的なアライメントをもたらす。
論文 参考訳(メタデータ) (2025-08-10T01:56:58Z) - Explicit Preference Optimization: No Need for an Implicit Reward Model [18.225409932618657]
直接選好最適化(DPO)とそのオフシュートは、個別の報酬トレーニングステップの必要性を回避する。
DPOをベースとした目的は,しかしながら,準最適正規化や反直観的アーティファクトの対象であることを示す。
論文 参考訳(メタデータ) (2025-06-09T07:11:01Z) - Reinforcement Learning with Verifiable Rewards: GRPO's Effective Loss, Dynamics, and Success Amplification [10.617854230082896]
グループ相対政策最適化は、検証可能な(バイナリ)報酬の下でLLMの推論を促進するために最近導入された。
我々は、報酬正規化(平均のみ対平均+分散)とKL分散を用いた更新の正則化の仕方が異なる変種を解析する。
論文 参考訳(メタデータ) (2025-03-09T14:36:45Z) - Provably Mitigating Overoptimization in RLHF: Your SFT Loss is Implicitly an Adversarial Regularizer [52.09480867526656]
人間の嗜好を学習する際の分布変化と不確実性の一形態として,不一致の原因を同定する。
過度な最適化を緩和するために、まず、逆選択された報酬モデルに最適なポリシーを選択する理論アルゴリズムを提案する。
報奨モデルとそれに対応する最適ポリシーの等価性を用いて、優先最適化損失と教師付き学習損失を組み合わせた単純な目的を特徴とする。
論文 参考訳(メタデータ) (2024-05-26T05:38:50Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。