論文の概要: GIFT: Group-relative Implicit Fine Tuning Integrates GRPO with DPO and UNA
- arxiv url: http://arxiv.org/abs/2510.23868v1
- Date: Mon, 27 Oct 2025 21:18:19 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-10-29 15:35:36.519367
- Title: GIFT: Group-relative Implicit Fine Tuning Integrates GRPO with DPO and UNA
- Title(参考訳): GIFT: Group-relative Implicit Fine TuningがGRPOとDPOとUNAを統合した
- Authors: Zhichao Wang,
- Abstract要約: GIFTはアライメントのための新しい強化学習フレームワークである。
暗黙の報酬モデルと明示的な報酬モデルとの差を最小限にする。
数学的ベンチマークにおいて優れた推論とアライメント性能を達成する。
- 参考スコア(独自算出の注目度): 6.07907277934348
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: I propose \textbf{G}roup-relative \textbf{I}mplicit \textbf{F}ine \textbf{T}uning (GIFT), a novel reinforcement learning framework for aligning LLMs. Instead of directly maximizing cumulative rewards like PPO or GRPO, GIFT minimizes the discrepancy between implicit and explicit reward models. It combines three key ideas: (1) the online multi-response generation and normalization of GRPO, (2) the implicit reward formulation of DPO, and (3) the implicit-explicit reward alignment principle of UNA. By jointly normalizing the implicit and explicit rewards, GIFT eliminates an otherwise intractable term that prevents effective use of implicit rewards. This normalization transforms the complex reward maximization objective into a simple mean squared error (MSE) loss between the normalized reward functions, converting a non-convex optimization problem into a convex, stable, and analytically differentiable formulation. Unlike offline methods such as DPO and UNA, GIFT remains on-policy and thus retains exploration capability. Compared to GRPO, it requires fewer hyperparameters, converges faster, and generalizes better with significantly reduced training overfitting. Empirically, GIFT achieves superior reasoning and alignment performance on mathematical benchmarks while remaining computationally efficient.
- Abstract(参考訳): LLMを整合化するための新しい強化学習フレームワークである GIFT (textbf{G}roup-relative \textbf{I}mplicit \textbf{F}ine \textbf{T}uning) を提案する。
PPOやGRPOといった累積報酬を直接最大化する代わりに、GIFTは暗黙の報酬モデルと明示的な報酬モデルとの差を最小限にする。
1)オンラインマルチレスポンス生成とGRPOの正規化,(2)DPOの暗黙の報酬定式化,(3)UNAの暗黙の報酬アライメント原理の3つの主要な考え方が組み合わさっている。
暗黙の報酬と明示的な報酬を共同で正規化することにより、GIFTは暗黙の報酬を効果的に使用するのを防ぐ、他の難解な用語を排除している。
この正規化は、複素報酬最大化目標を正規化された報酬関数間の単純な平均二乗誤差(MSE)損失に変換し、非凸最適化問題を凸、安定、解析的に微分可能な定式化に変換する。
DPOやUNAのようなオフラインの方法とは異なり、GIFTは引き続き政治上にあり、探索能力を維持している。
GRPOと比較して、ハイパーパラメータを少なくし、より高速に収束し、トレーニングオーバーフィッティングを大幅に減らして、より良く一般化する。
経験的に、GIFTは計算効率を保ちながら、数学的ベンチマークにおいて優れた推論とアライメント性能を達成する。
関連論文リスト
- FedLoDrop: Federated LoRA with Dropout for Generalized LLM Fine-tuning [65.26899091946417]
大規模言語モデル(LLM)は、特定のタスクに汎用モデルを適用するために不可欠である。
本稿では,FedLoDropを用いたFederated LoRAを提案する。FedLoDropは,Federated LoRAのトレーニング可能な行列の行と列にドロップアウトを適用する新しいフレームワークである。
論文 参考訳(メタデータ) (2025-10-14T02:40:45Z) - FlowRL: Matching Reward Distributions for LLM Reasoning [69.88820066093798]
大規模言語モデル(LLM)強化学習(RL)において、報酬を最大化する代わりに、フローバランシングによる全報酬分布をマッチングするフローRLを提案する。
我々はスカラー報酬を学習可能な分割関数を用いて正規化対象分布に変換し、その後、ポリシーと対象分布との逆KL分散を最小化する。
論文 参考訳(メタデータ) (2025-09-18T17:56:36Z) - A Principled Loss Function for Direct Language Model Alignment [0.0]
本稿では,RLHF最適条件から直接導出した新しい損失関数を提案する。
提案した損失は,その差ではなく,基礎となる報酬によって規定される,ロジットの特定の有限値を対象としている。
この固有の安定性は、報酬のハッキングを防ぎ、より効果的なアライメントをもたらす。
論文 参考訳(メタデータ) (2025-08-10T01:56:58Z) - Explicit Preference Optimization: No Need for an Implicit Reward Model [18.225409932618657]
直接選好最適化(DPO)とそのオフシュートは、個別の報酬トレーニングステップの必要性を回避する。
DPOをベースとした目的は,しかしながら,準最適正規化や反直観的アーティファクトの対象であることを示す。
論文 参考訳(メタデータ) (2025-06-09T07:11:01Z) - Reinforcement Learning with Verifiable Rewards: GRPO's Effective Loss, Dynamics, and Success Amplification [10.617854230082896]
グループ相対政策最適化は、検証可能な(バイナリ)報酬の下でLLMの推論を促進するために最近導入された。
我々は、報酬正規化(平均のみ対平均+分散)とKL分散を用いた更新の正則化の仕方が異なる変種を解析する。
論文 参考訳(メタデータ) (2025-03-09T14:36:45Z) - Provably Mitigating Overoptimization in RLHF: Your SFT Loss is Implicitly an Adversarial Regularizer [52.09480867526656]
人間の嗜好を学習する際の分布変化と不確実性の一形態として,不一致の原因を同定する。
過度な最適化を緩和するために、まず、逆選択された報酬モデルに最適なポリシーを選択する理論アルゴリズムを提案する。
報奨モデルとそれに対応する最適ポリシーの等価性を用いて、優先最適化損失と教師付き学習損失を組み合わせた単純な目的を特徴とする。
論文 参考訳(メタデータ) (2024-05-26T05:38:50Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。