論文の概要: GFT: From Imitation to Reward Fine-Tuning with Unbiased Group Advantages and Dynamic Coefficient Rectification
- arxiv url: http://arxiv.org/abs/2604.14258v1
- Date: Wed, 15 Apr 2026 15:49:58 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-04-17 21:29:29.951505
- Title: GFT: From Imitation to Reward Fine-Tuning with Unbiased Group Advantages and Dynamic Coefficient Rectification
- Title(参考訳): GFT:不偏群アドバンテージと動的コネクティフィケーションを併用したリワードファインタニング
- Authors: Wangjie Gan, Miao Pan, Linbo Xi, Wenqi Zhang, Jintao Chen, Jianwei Yin, Xuhong Zhang,
- Abstract要約: Group Fine-Tuning (GFT) は、大規模言語モデルのための統合後トレーニングフレームワークである。
GFTは一貫してSFTベースの手法を超越し、その後のRLトレーニングとよりスムーズな統合を図っている。
- 参考スコア(独自算出の注目度): 37.24414986596345
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Large language models are typically post-trained using supervised fine-tuning (SFT) and reinforcement learning (RL), yet effectively unifying efficient knowledge injection with robust generalization remains challenging. In this work, we provide a training-dynamics analysis showing that SFT can be interpreted as a special case of policy gradient optimization with an extremely sparse implicit reward and unstable inverse-probability weighting, which together lead to single-path dependency, entropy collapse, and gradient explosion. Motivated by this diagnosis, we propose Group Fine-Tuning (GFT), a unified post-training framework that addresses these intrinsic limitations through two mechanisms: Group Advantage Learning, which constructs diverse response groups and derives normalized contrastive supervision to alleviate reward sparsity, and Dynamic Coefficient Rectification, which adaptively bounds inverse-probability weights to stabilize optimization while preserving efficient knowledge injection. Experiments demonstrate that GFT consistently surpasses SFT-based methods and yields policies that integrate more smoothly with subsequent RL training.
- Abstract(参考訳): 大規模言語モデルは通常、教師付き微調整(SFT)と強化学習(RL)を用いてポストトレーニングされるが、堅牢な一般化を伴う効率的な知識注入を効果的に統一することは困難である。
本研究では,SFTを政策勾配最適化の特別な場合として,極めて希薄な暗黙的な報酬と不安定な逆確率重み付けを併用することで,単一経路依存性,エントロピー崩壊,勾配爆発をもたらすことを示す。
この診断により,グループファインタニング(GFT)が提案される。グループアドバンテージ学習(Group Advantage Learning)は,多様な応答群を構築し,報酬の分散を緩和するための正規化されたコントラスト監督を導出し,動的係数の補正(Dynamic Coefficient Rectification)は,効率の良い知識注入を保ちながら,最適化を最適化するために逆確率重みを適応的に束縛する。
実験により、GFTはSFTベースの手法を一貫して超越し、その後のRLトレーニングとよりスムーズな統合を図った。
関連論文リスト
- Bridging SFT and RL: Dynamic Policy Optimization for Robust Reasoning [10.4404175363648]
大規模言語モデル(LLM)のポストトレーニングパラダイムは、基本的なジレンマに直面します。
SFTは安定性(低分散)を提供するが、高い適合バイアスに悩まされる一方、RLは探索(低バイアス)が可能であるが、高勾配のばらつきを持つ波紋である。
既存の統一最適化戦略では、これらの異なる勾配信号間の統計的衝突を見越して、単純な損失重み付けを用いることが多い。
我々は,この対立を構造的に緩和する統合フレームワークである textbfDYPO (Dynamic Policy Optimization) を提案する。
論文 参考訳(メタデータ) (2026-04-10T03:42:16Z) - SED-SFT: Selectively Encouraging Diversity in Supervised Fine-Tuning [54.393763477932474]
Supervised Fine-Tuning (SFT) と Reinforcement Learning (RL) は、大規模言語モデル(LLM)の標準訓練パラダイムとして登場した。
本稿では,トークン探索空間に基づく多様性を適応的に促進するSED-SFTを提案する。
このフレームワークは、選択的なマスキング機構を備えた選択エントロピー正規化項を最適化目的に導入する。
論文 参考訳(メタデータ) (2026-02-07T09:39:21Z) - Trust-Region Adaptive Policy Optimization [82.09255251747818]
後学習法は,大規模言語モデル(LLM)の複雑な推論能力の向上に重要な役割を果たしている。
トレーニングインスタンス毎に,Fun-Tuning(SFT)とReinforcement Learning(RL)をインターリーブするフレームワークであるTRAPOを紹介する。
5つの数学的推論ベンチマークの実験は、TRAPOが標準SFT、RL、SFT-then-RLパイプラインを一貫して上回っていることを示している。
論文 参考訳(メタデータ) (2025-12-19T14:37:07Z) - DaGRPO: Rectifying Gradient Conflict in Reasoning via Distinctiveness-Aware Group Relative Policy Optimization [20.66452395111739]
識別性を考慮したグループ相対ポリシー最適化(DaGRPO)を提案する。
DaGRPOは,(1)微粒なスコアリングを利用して,低差別性でサンプルペアを動的にマスキングするシーケンスレベルのグラディエント・リクティフィケーション,(2)高品質なアンカーを導入し,課題に対処するためのトレーニング信号の復元を行うオフ・ポリシー・データ・アジュメンテーションという2つのコアメカニズムを取り入れている。
詳細な分析により、DaGRPOは勾配の爆発を効果的に軽減し、長鎖推論能力の出現を加速することを確認した。
論文 参考訳(メタデータ) (2025-12-06T07:51:36Z) - ESPO: Entropy Importance Sampling Policy Optimization [7.2000276975120014]
エントロピー重要度サンプリングポリシー最適化は、きめ細かい制御とトレーニングの安定性を調整します。
ESPOは予測エントロピーに基づいて配列をグループに分解する。
数学的推論ベンチマークの実験は、ESPOが収束と最先端のパフォーマンスを達成することを示した。
論文 参考訳(メタデータ) (2025-11-29T14:09:38Z) - Anchored Supervised Fine-Tuning [26.17356786243252]
大規模言語モデルのポストトレーニングには、教師付き微調整と強化学習のトレードオフが含まれる。
Dynamic Fine-Tuning (DFT)は、最近、トークンの確率でSFTの目標を再重み付けする、有望な中核として登場した。
我々は, 軽量KL正則化によるDFTの再重み付けを向上し, 安定性を確保しつつ, 密度を維持したAnchored Supervised Fine-Tuning (ASFT)を提案する。
論文 参考訳(メタデータ) (2025-09-28T08:58:12Z) - On the Generalization of SFT: A Reinforcement Learning Perspective with Reward Rectification [61.607788999847564]
LLM(Large Language Model)のためのSFT(Supervised Fine-Tuning)の改良法を提案する。
標準SFT勾配は、モデルの一般化能力を著しく制限する問題のある報酬構造を暗黙的に符号化する。
本稿では,このトークンの確率で目的関数を動的に再スケーリングすることにより,各トークンの勾配を安定化する動的微調整(DFT)を提案する。
論文 参考訳(メタデータ) (2025-08-07T17:59:04Z) - Implicit Reward as the Bridge: A Unified View of SFT and DPO Connections [65.36449542323277]
本稿では,Large Language Model (LLM) 後の学習において,SFT(Supervised Fine-Tuning) と優先学習を統合した理論フレームワークを提案する。
そこで本研究では,学習率の簡易かつ効果的な削減手法を提案する。
論文 参考訳(メタデータ) (2025-06-15T05:42:29Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。