論文の概要: TMS: Trajectory-Mixed Supervision for Reward-Free, On-Policy SFT
- arxiv url: http://arxiv.org/abs/2602.03073v1
- Date: Tue, 03 Feb 2026 04:01:26 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-02-04 18:37:15.233514
- Title: TMS: Trajectory-Mixed Supervision for Reward-Free, On-Policy SFT
- Title(参考訳): TMS: Reward-free, On-Policy SFTのためのトラジェクトリ・ミキシング・スーパービジョン
- Authors: Rana Muhammad Shahroz Khan, Zijie Liu, Zhen Tan, Charles Fleming, Tianlong Chen,
- Abstract要約: Reinforcement Learning (RL) と Supervised Fine-Tuning (SFT) は、下流タスクにおいてLLM(Large Language Model) のパフォーマンスを向上させる2つの主要なパラダイムである。
対照的に、SFT は効率的だが脆く、しばしば $textbf Supervision Mismatch$ による破滅的な忘れ込みに悩まされる。
我々は、このトレードオフを、モデル自身の過去のチェックポイントから動的カリキュラムを作成することで、RLのオンラインメリットを近似する報酬のないフレームワークであるtextbfTrajectory-Mixed Supervision (TMS)$で解決する。
- 参考スコア(独自算出の注目度): 42.39480783930987
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Reinforcement Learning (RL) and Supervised Fine-Tuning (SFT) are the two dominant paradigms for enhancing Large Language Model (LLM) performance on downstream tasks. While RL generally preserves broader model capabilities (retention) better than SFT, it comes with significant costs: complex reward engineering, instability, and expensive on-policy sampling. In contrast, SFT is efficient but brittle, often suffering from catastrophic forgetting due to $\textbf{Supervision Mismatch}$: the divergence between the model's evolving policy and static training labels. We address this trade-off with $\textbf{Trajectory-Mixed Supervision (TMS)}$, a reward-free framework that approximates the on-policy benefits of RL by creating a dynamic curriculum from the model's own historical checkpoints. TMS minimizes $\textit{Policy-Label Divergence (PLD)}$, preventing the mode collapse that drives forgetting in standard SFT. Experiments across reasoning (MATH, GSM8K) and instruction-following benchmarks demonstrate that TMS effectively shifts the accuracy--retention Pareto frontier. While RL remains the gold standard for retention, TMS significantly outperforms standard and iterative SFT, bridging the gap to RL without requiring reward models or verifiers. Mechanistic analysis confirms that PLD drift accurately predicts forgetting and that TMS successfully mitigates this drift.
- Abstract(参考訳): Reinforcement Learning (RL) と Supervised Fine-Tuning (SFT) は、下流タスクにおいてLLM(Large Language Model) のパフォーマンスを向上させる2つの主要なパラダイムである。
RLは一般的にSFTよりも広いモデル能力(保持性)を保っているが、複雑な報酬工学、不安定性、高価なオンラインサンプリングといった大きなコストが伴っている。
対照的に、SFTは効率的だが脆く、しばしば$\textbf{Supervision Mismatch}$:モデルの進化するポリシーと静的なトレーニングラベルの相違による破滅的な忘れ込みに悩まされる。
このトレードオフは、モデル自身の過去のチェックポイントから動的カリキュラムを作成することで、RLの政治上の利点を近似する報酬のないフレームワークである$\textbf{Trajectory-Mixed Supervision (TMS)$で対処する。
TMSは$\textit{Policy-Label Divergence (PLD)$を最小化する。
推論(MATH, GSM8K)と命令追従ベンチマークによる実験は、TMSが精度-保持パレートフロンティアを効果的にシフトすることを示した。
RLは保持のための金の標準であり続けているが、TMSは標準と反復SFTを著しく上回り、報酬モデルや検証を必要とせずにRLとのギャップを埋める。
力学解析により、PDDドリフトが正確に忘れを予測し、TMSがこのドリフトを緩和することを確認した。
関連論文リスト
- Trust-Region Adaptive Policy Optimization [82.09255251747818]
後学習法は,大規模言語モデル(LLM)の複雑な推論能力の向上に重要な役割を果たしている。
トレーニングインスタンス毎に,Fun-Tuning(SFT)とReinforcement Learning(RL)をインターリーブするフレームワークであるTRAPOを紹介する。
5つの数学的推論ベンチマークの実験は、TRAPOが標準SFT、RL、SFT-then-RLパイプラインを一貫して上回っていることを示している。
論文 参考訳(メタデータ) (2025-12-19T14:37:07Z) - Anchored Supervised Fine-Tuning [26.17356786243252]
大規模言語モデルのポストトレーニングには、教師付き微調整と強化学習のトレードオフが含まれる。
Dynamic Fine-Tuning (DFT)は、最近、トークンの確率でSFTの目標を再重み付けする、有望な中核として登場した。
我々は, 軽量KL正則化によるDFTの再重み付けを向上し, 安定性を確保しつつ, 密度を維持したAnchored Supervised Fine-Tuning (ASFT)を提案する。
論文 参考訳(メタデータ) (2025-09-28T08:58:12Z) - AMFT: Aligning LLM Reasoners by Meta-Learning the Optimal Imitation-Exploration Balance [7.685078284407324]
大規模言語モデル(LLM)は通常、2段階のパイプライン(SFT)と強化学習(RL)による推論タスクのために微調整される。
最近の単段法では、SFTとRLを原理的に統一しようとするが、2つのパラダイムを動的にバランスさせるメカニズムが欠如している。
我々は,SFTの暗黙的,パスレベルの報酬とRLの明示的,結果に基づく報酬との最適バランスを学習する,新しいシングルステージアルゴリズムである textbf Meta Fine-Tuning (AMFT) を紹介する。
論文 参考訳(メタデータ) (2025-08-09T11:40:54Z) - On the Generalization of SFT: A Reinforcement Learning Perspective with Reward Rectification [61.607788999847564]
LLM(Large Language Model)のためのSFT(Supervised Fine-Tuning)の改良法を提案する。
標準SFT勾配は、モデルの一般化能力を著しく制限する問題のある報酬構造を暗黙的に符号化する。
本稿では,このトークンの確率で目的関数を動的に再スケーリングすることにより,各トークンの勾配を安定化する動的微調整(DFT)を提案する。
論文 参考訳(メタデータ) (2025-08-07T17:59:04Z) - Understanding the Difficulty of Training Transformers [120.99980924577787]
バランスの取れない勾配がトレーニングの不安定性の根本原因ではないことを示す。
我々は,早期段階のトレーニングを安定させ,後期段階においてその潜在能力を最大限に活用するためのアドミンを提案する。
論文 参考訳(メタデータ) (2020-04-17T13:59:07Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。