論文の概要: GIFT: Unlocking Global Optimality in Post-Training via Finite-Temperature Gibbs Initialization
- arxiv url: http://arxiv.org/abs/2601.09233v1
- Date: Wed, 14 Jan 2026 07:13:57 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-01-15 18:59:20.30412
- Title: GIFT: Unlocking Global Optimality in Post-Training via Finite-Temperature Gibbs Initialization
- Title(参考訳): GIFT: 有限温度ギブス初期化による後トレーニングにおけるグローバルな最適化
- Authors: Zhengyang Zhao, Lu Ma, Yizhen Jiang, Xiaochen Ma, Zimo Meng, Chengyu Shen, Lexiang Tang, Haoze Sun, Peng Pei, Wentao Zhang,
- Abstract要約: 統合後トレーニングフレームワーク内でのスーパービジョンファインチューニング(SFT)の再構築と,有限温度によるギブズ初期化(GIFT)の提案
GIFTは、有限温度のエネルギーポテンシャルとして監督を取り入れ、訓練後のパイプライン全体を通して客観的な一貫性を確保するための分散ブリッジを確立する。
- 参考スコア(独自算出の注目度): 9.388803723263392
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: The prevailing post-training paradigm for Large Reasoning Models (LRMs)--Supervised Fine-Tuning (SFT) followed by Reinforcement Learning (RL)--suffers from an intrinsic optimization mismatch: the rigid supervision inherent in SFT induces distributional collapse, thereby exhausting the exploration space necessary for subsequent RL. In this paper, we reformulate SFT within a unified post-training framework and propose Gibbs Initialization with Finite Temperature (GIFT). We characterize standard SFT as a degenerate zero-temperature limit that suppresses base priors. Conversely, GIFT incorporates supervision as a finite-temperature energy potential, establishing a distributional bridge that ensures objective consistency throughout the post-training pipeline. Our experiments demonstrate that GIFT significantly outperforms standard SFT and other competitive baselines when utilized for RL initialization, providing a mathematically principled pathway toward achieving global optimality in post-training. Our code is available at https://github.com/zzy1127/GIFT.
- Abstract(参考訳): 大規模推論モデル (LRMs) の訓練後パラダイムとして, 改良されたファインチューニング (SFT) と強化学習 (Reinforcement Learning, RL) が一般的であり, SFT に固有の厳格な監督は分布崩壊を誘発し, その後の RL に必要な探索空間を浪費する。
本稿では,SFTを統合後学習フレームワークに再編成し,Gibs Initialization with Finite Temperature (GIFT)を提案する。
我々は、標準SFTを、ベース先行を抑止する縮退ゼロ温度制限として特徴づける。
逆にGIFTは、有限温度のエネルギーポテンシャルとして監督を取り入れ、訓練後のパイプライン全体を通して客観的な一貫性を確保するための分散ブリッジを確立する。
実験の結果, GIFTはRLの初期化に使用する場合, 標準SFTや他の競争ベースラインよりも有意に優れており, ポストトレーニングにおける大域的最適性を達成するための数学的に原理化された経路を提供することができた。
私たちのコードはhttps://github.com/zzy1127/GIFT.comで利用可能です。
関連論文リスト
- Trust-Region Adaptive Policy Optimization [82.09255251747818]
後学習法は,大規模言語モデル(LLM)の複雑な推論能力の向上に重要な役割を果たしている。
トレーニングインスタンス毎に,Fun-Tuning(SFT)とReinforcement Learning(RL)をインターリーブするフレームワークであるTRAPOを紹介する。
5つの数学的推論ベンチマークの実験は、TRAPOが標準SFT、RL、SFT-then-RLパイプラインを一貫して上回っていることを示している。
論文 参考訳(メタデータ) (2025-12-19T14:37:07Z) - Rethinking Expert Trajectory Utilization in LLM Post-training [35.018182540417236]
我々は,この景観を基盤として,プラスチック・シーリング・フレームワークを提案する。
逐次SFT-then-RLパイプラインを優れた標準として確立する。
本研究は,専門家軌道から抽出した値の最大化のための実用的なガイドラインを提供する。
論文 参考訳(メタデータ) (2025-12-12T11:13:00Z) - On the Generalization of SFT: A Reinforcement Learning Perspective with Reward Rectification [61.607788999847564]
LLM(Large Language Model)のためのSFT(Supervised Fine-Tuning)の改良法を提案する。
標準SFT勾配は、モデルの一般化能力を著しく制限する問題のある報酬構造を暗黙的に符号化する。
本稿では,このトークンの確率で目的関数を動的に再スケーリングすることにより,各トークンの勾配を安定化する動的微調整(DFT)を提案する。
論文 参考訳(メタデータ) (2025-08-07T17:59:04Z) - AceReason-Nemotron 1.1: Advancing Math and Code Reasoning through SFT and RL Synergy [48.30596996677882]
強い推論モデルの開発において,教師付き微調整(SFT)と強化学習(RL)の相乗効果について検討した。
スケーリング戦略は 推理性能に顕著な改善をもたらします
我々のAceReason-Nemotron-1.1 7Bモデルは、Qwen2.5-7Bに基づく推論モデルにおいて、AceReason-Nemotron-1.0と新しい最先端性能を著しく上回っている。
論文 参考訳(メタデータ) (2025-06-16T09:27:48Z) - Implicit Reward as the Bridge: A Unified View of SFT and DPO Connections [65.36449542323277]
本稿では,Large Language Model (LLM) 後の学習において,SFT(Supervised Fine-Tuning) と優先学習を統合した理論フレームワークを提案する。
そこで本研究では,学習率の簡易かつ効果的な削減手法を提案する。
論文 参考訳(メタデータ) (2025-06-15T05:42:29Z) - UFT: Unifying Supervised and Reinforcement Fine-Tuning [27.786964046329455]
我々は、SFTとRFTを単一の統合プロセスに統合する新しいポストトレーニングパラダイムであるUnified Fine-Tuning(UFT)を提案する。
UFTは、インフォメーション・インフォメーション・シグナルを取り入れつつ、効果的に解を探索することを可能にする。
理論的には、UFTがRFT固有の指数的サンプル複雑性のボトルネックを破ることを示す。
論文 参考訳(メタデータ) (2025-05-22T17:53:57Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。