論文の概要: Anchored Supervised Fine-Tuning
- arxiv url: http://arxiv.org/abs/2509.23753v2
- Date: Fri, 03 Oct 2025 08:30:05 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-10-06 14:21:29.903023
- Title: Anchored Supervised Fine-Tuning
- Title(参考訳): Anchored Supervised Fine-Tuning
- Authors: He Zhu, Junyou Su, Peng Lai, Ren Ma, Wenjia Zhang, Linyi Yang, Guanhua Chen,
- Abstract要約: 大規模言語モデルのポストトレーニングには、教師付き微調整と強化学習のトレードオフが含まれる。
Dynamic Fine-Tuning (DFT)は、最近、トークンの確率でSFTの目標を再重み付けする、有望な中核として登場した。
我々は, 軽量KL正則化によるDFTの再重み付けを向上し, 安定性を確保しつつ, 密度を維持したAnchored Supervised Fine-Tuning (ASFT)を提案する。
- 参考スコア(独自算出の注目度): 26.17356786243252
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Post-training of large language models involves a fundamental trade-off between supervised fine-tuning (SFT), which efficiently mimics demonstrations but tends to memorize, and reinforcement learning (RL), which achieves better generalization at higher computational cost. Dynamic Fine-Tuning (DFT) recently emerged as a promising middle ground, reweighting SFT objectives with token probabilities and achieving improvements in certain reasoning domains, though it exhibits instability in other tasks. We provide a analysis of DFT through the reward-weighted regression (RWR) framework, revealing that it corresponds to a specific auxiliary distribution choice that yields provably tighter RL bounds than standard SFT. However, our analysis also uncovers a critical limitation: this construction lacks distributional anchoring, leading to progressive drift that undermines training stability. To address this, we propose Anchored Supervised Fine-Tuning (ASFT), which augments DFT's reweighting with lightweight KL regularization to preserve tightness while ensuring stability. Empirically, ASFT consistently outperforms both SFT and DFT across mathematical reasoning, medical knowledge grounding, and code generation, achieving substantial improvements with minimal computational overhead. Our RWR framework provides a systematic lens for understanding post-training methods and demonstrates that principled theoretical analysis leads to both stronger guarantees and practical gains.
- Abstract(参考訳): 大規模言語モデルのポストトレーニングには、デモを効率的に模倣するが記憶する傾向がある教師付き微調整(SFT)と、より高い計算コストでより良い一般化を実現する強化学習(RL)との基本的なトレードオフが含まれる。
Dynamic Fine-Tuning (DFT)は、最近、有望な中核として現れ、トークン確率でSFTの目標を再重み付けし、特定の推論領域の改善を実現しているが、他のタスクでは不安定である。
本稿では、報酬重み付け回帰(RWR)フレームワークを用いてDFTの分析を行い、標準のSFTよりも高いRL境界が得られる特定の補助分布選択に対応することを示した。
この構造は分布的アンカーを欠き、訓練の安定性を損なう進行的なドリフトを引き起こす。
そこで本稿では,DFT の軽量 KL 正規化による再重み付けを強化し,安定性を確保しつつ厳密性を維持する Anchored Supervised Fine-Tuning (ASFT) を提案する。
経験的には、ASFTは数学的推論、医学的知識基盤、コード生成においてSFTとDFTを一貫して上回り、計算オーバーヘッドを最小限に抑えて大幅に改善されている。
我々のRWRフレームワークは、学習後手法を理解するためのシステマティックレンズを提供し、理論解析がより強力な保証と実用的な利益をもたらすことを示す。
関連論文リスト
- AMFT: Aligning LLM Reasoners by Meta-Learning the Optimal Imitation-Exploration Balance [5.748208737701793]
大規模言語モデル(LLM)は通常、2段階のパイプライン(SFT)と強化学習(RL)による推論タスクのために微調整される。
最近の単段法では、SFTとRLを原理的に統一しようとするが、2つのパラダイムを動的にバランスさせるメカニズムが欠如している。
我々は,SFTの暗黙的,パスレベルの報酬とRLの明示的,結果に基づく報酬との最適バランスを学習する,新しいシングルステージアルゴリズムである textbf Meta Fine-Tuning (AMFT) を紹介する。
論文 参考訳(メタデータ) (2025-08-09T11:40:54Z) - On the Generalization of SFT: A Reinforcement Learning Perspective with Reward Rectification [50.30835290642069]
LLM(Large Language Model)のためのSFT(Supervised Fine-Tuning)の改良法を提案する。
標準SFT勾配は、モデルの一般化能力を著しく制限する問題のある報酬構造を暗黙的に符号化する。
本稿では,このトークンの確率で目的関数を動的に再スケーリングすることにより,各トークンの勾配を安定化する動的微調整(DFT)を提案する。
論文 参考訳(メタデータ) (2025-08-07T17:59:04Z) - Reinforcement Fine-Tuning Naturally Mitigates Forgetting in Continual Post-Training [36.69514399442043]
本稿では,教師付きファインチューニング(SFT)と強化ファインチューニング(RFT)の2つのコアポストトレーニングパラダイムの比較分析を行った。
本実験は,7つの多様なマルチモーダルタスクからなるベンチマークで実施した。
論文 参考訳(メタデータ) (2025-07-07T18:17:06Z) - Why Reinforcement Fine-Tuning Enables MLLMs Preserve Prior Knowledge Better: A Data Perspective [98.45690529036848]
Supervised Fine-Tuning (SFT) や Reinforcement Fine-Tuning (RFT) といったポストトレーニングアルゴリズムは、マルチモーダルな大規模言語モデルを下流タスクに適応するために広く使われている。
タスク適応には有効であるが、以前の知識に対する影響はいまだ不明である。
論文 参考訳(メタデータ) (2025-06-30T04:15:01Z) - Implicit Reward as the Bridge: A Unified View of SFT and DPO Connections [65.36449542323277]
本稿では,Large Language Model (LLM) 後の学習において,SFT(Supervised Fine-Tuning) と優先学習を統合した理論フレームワークを提案する。
そこで本研究では,学習率の簡易かつ効果的な削減手法を提案する。
論文 参考訳(メタデータ) (2025-06-15T05:42:29Z) - Doubly Robust Instance-Reweighted Adversarial Training [107.40683655362285]
本稿では,2重のインスタンス再重み付き対向フレームワークを提案する。
KL偏差正規化損失関数の最適化により重みを求める。
提案手法は, 平均ロバスト性能において, 最先端のベースライン法よりも優れた性能を示す。
論文 参考訳(メタデータ) (2023-08-01T06:16:18Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。