論文の概要: Towards On-Policy SFT: Distribution Discriminant Theory and its Applications in LLM Training
- arxiv url: http://arxiv.org/abs/2602.12222v1
- Date: Thu, 12 Feb 2026 17:59:58 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-02-13 21:07:25.969058
- Title: Towards On-Policy SFT: Distribution Discriminant Theory and its Applications in LLM Training
- Title(参考訳): オンポリティSFTに向けて:分布判別理論とLLMトレーニングへの応用
- Authors: Miaosen Zhang, Yishan Liu, Shuxia Lin, Xu Yang, Qi Dai, Chong Luo, Weihao Jiang, Peng Hou, Anxiang Zeng, Xin Geng, Baining Guo,
- Abstract要約: Supervised Fine-tuning (SFT) は計算効率が良いが、強化学習 (RL) に比べて一般化が劣ることが多い。
そこで我々は,オンポリシィSFTを有効にすることで,このシャームを橋渡しするフレームワークを提案する。
- 参考スコア(独自算出の注目度): 61.1421888242439
- License: http://creativecommons.org/publicdomain/zero/1.0/
- Abstract: Supervised fine-tuning (SFT) is computationally efficient but often yields inferior generalization compared to reinforcement learning (RL). This gap is primarily driven by RL's use of on-policy data. We propose a framework to bridge this chasm by enabling On-Policy SFT. We first present \textbf{\textit{Distribution Discriminant Theory (DDT)}}, which explains and quantifies the alignment between data and the model-induced distribution. Leveraging DDT, we introduce two complementary techniques: (i) \textbf{\textit{In-Distribution Finetuning (IDFT)}}, a loss-level method to enhance generalization ability of SFT, and (ii) \textbf{\textit{Hinted Decoding}}, a data-level technique that can re-align the training corpus to the model's distribution. Extensive experiments demonstrate that our framework achieves generalization performance on par with prominent offline RL algorithms, including DPO and SimPO, while maintaining the efficiency of an SFT pipeline. The proposed framework thus offers a practical alternative in domains where RL is infeasible. We open-source the code here: https://github.com/zhangmiaosen2000/Towards-On-Policy-SFT
- Abstract(参考訳): Supervised Fine-tuning (SFT) は計算効率が良いが、強化学習 (RL) に比べて一般化が劣ることが多い。
このギャップは、主にRLのオン・ポリティクスデータの使用によって引き起こされる。
そこで我々は,オンポリシィSFTを有効にすることで,このシャームを橋渡しするフレームワークを提案する。
最初に、データとモデル誘起分布のアライメントを説明し、定量化する「textbf{\textit{Distribution Discriminant Theory (DDT)}}を提示する。
DDTを活用して,2つの補完手法を導入する。
(i) SFTの一般化能力を高めるための損失レベル手法であるIDFT(textbf{\textit{In-Distribution Finetuning)
(ii) \textbf{\textit{Hinted Decoding}}は、トレーニングコーパスをモデルのディストリビューションに再アライメントすることのできる、データレベルのテクニックである。
SFTパイプラインの効率を保ちながら,DPOやSimPOを含むオフラインRLアルゴリズムと同等に一般化性能を実現できることを示す。
提案するフレームワークは、RLが実現不可能な領域において、実用的な代替手段を提供する。
https://github.com/zhangmiaosen2000/Towards-On-Policy-SFT
関連論文リスト
- Trust-Region Adaptive Policy Optimization [82.09255251747818]
後学習法は,大規模言語モデル(LLM)の複雑な推論能力の向上に重要な役割を果たしている。
トレーニングインスタンス毎に,Fun-Tuning(SFT)とReinforcement Learning(RL)をインターリーブするフレームワークであるTRAPOを紹介する。
5つの数学的推論ベンチマークの実験は、TRAPOが標準SFT、RL、SFT-then-RLパイプラインを一貫して上回っていることを示している。
論文 参考訳(メタデータ) (2025-12-19T14:37:07Z) - Self-Rewarding PPO: Aligning Large Language Models with Demonstrations Only [70.43369087819332]
Supervised Fine-tuning (SFT) は、大規模な言語モデルと人間のアノテーションによる実演を整合させる重要な方法として登場した。
本稿では, 自己回帰型PPOを提案する。
論文 参考訳(メタデータ) (2025-10-24T02:02:13Z) - UniAPL: A Unified Adversarial Preference Learning Framework for Instruct-Following [12.924923059340395]
トレーニング後のアライメントは基本的には、参照学習の統一的な問題である、と我々は主張する。
UniAPLは、SFTと嗜好データの混合バッチから共同で学習する、単一段階の統合トレーニング目標を実装している。
論文 参考訳(メタデータ) (2025-09-29T17:53:09Z) - AMFT: Aligning LLM Reasoners by Meta-Learning the Optimal Imitation-Exploration Balance [7.685078284407324]
大規模言語モデル(LLM)は通常、2段階のパイプライン(SFT)と強化学習(RL)による推論タスクのために微調整される。
最近の単段法では、SFTとRLを原理的に統一しようとするが、2つのパラダイムを動的にバランスさせるメカニズムが欠如している。
我々は,SFTの暗黙的,パスレベルの報酬とRLの明示的,結果に基づく報酬との最適バランスを学習する,新しいシングルステージアルゴリズムである textbf Meta Fine-Tuning (AMFT) を紹介する。
論文 参考訳(メタデータ) (2025-08-09T11:40:54Z) - Implicit Reward as the Bridge: A Unified View of SFT and DPO Connections [65.36449542323277]
本稿では,Large Language Model (LLM) 後の学習において,SFT(Supervised Fine-Tuning) と優先学習を統合した理論フレームワークを提案する。
そこで本研究では,学習率の簡易かつ効果的な削減手法を提案する。
論文 参考訳(メタデータ) (2025-06-15T05:42:29Z) - Towards Deployment-Efficient Reinforcement Learning: Lower Bound and
Optimality [141.89413461337324]
展開効率は、強化学習(RL)の多くの実世界の応用にとって重要な基準である
本稿では,「制約付き最適化」の観点から,デプロイ効率の高いRL(DE-RL)の理論的定式化を提案する。
論文 参考訳(メタデータ) (2022-02-14T01:31:46Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。