論文の概要: Debunk the Myth of SFT Generalization
- arxiv url: http://arxiv.org/abs/2510.00237v1
- Date: Tue, 30 Sep 2025 20:01:09 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-10-03 16:59:20.237383
- Title: Debunk the Myth of SFT Generalization
- Title(参考訳): SFT一般化の神話
- Authors: Xiaofeng Lin, Hejian Sang, Zhipeng Wang, Xuezhou Zhang,
- Abstract要約: 一般的な見解では、教師付き微調整(SFT)は一般化に失敗するが、強化学習(RL)はより広範な堅牢性を実現する。
SFTが認識する障害の多くは凍結急激な人工物によるものであることを示す。
SFTがより厳密なタスクを一般化できるかどうかを問う。
- 参考スコア(独自算出の注目度): 13.700645417996412
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: A prevailing view holds that supervised fine-tuning (SFT) memorizes training data and fails to generalize, whereas reinforcement learning (RL) attains broader robustness. We revisit this claim through a systematic evaluation on two decision-making benchmarks, Sokoban and General Points, and arrive at a different conclusion. We show that much of SFT's perceived failure stems from frozen-prompt artifacts: when trained on fixed instruction templates, SFT models cling to training semantics rather than adapting to new ones. Introducing prompt diversity during training breaks this shortcut and yields strong generalization to unseen instruction variants without harming in-distribution performance. Beyond instruction shifts, we ask whether SFT can generalize to strictly harder tasks. Here, chain-of-thought (CoT) supervision provides an algorithmic scaffold that markedly improves transfer to more difficult regimes, such as larger Sokoban grids with additional boxes and arithmetic with out-of-distribution values or five-card compositions that increase combinatorial complexity. Finally, combining prompt diversity with CoT achieves the best of both worlds: robust generalization across both instruction-variant and difficulty-variant settings, matching or surpassing RL baselines on our benchmarks while retaining SFT's simplicity and stability. These findings challenge the narrative that SFT is inherently inferior to RL and support a data-centric perspective: with appropriately curated demonstrations, vanilla SFT can generalize as strongly as RL. Code reproducing the results in the paper can be found at: https://github.com/XiaofengLin7/debunking-sft-generalization.
- Abstract(参考訳): 一般的な見解では、教師付き微調整(SFT)はトレーニングデータを記憶し、一般化に失敗するが、強化学習(RL)はより広範な堅牢性を実現する。
我々は、この主張を、ソコバンとジェネラルポイントという2つの意思決定ベンチマークの体系的な評価を通じて再検討し、異なる結論に達した。
固定的な命令テンプレートでトレーニングすると、SFTモデルは、新しいものに適応するのではなく、セマンティクスのトレーニングに固執する。
トレーニング中に急激な多様性を導入することは、このショートカットを破り、分配性能を損なうことなく、目に見えない命令変種に強力な一般化をもたらす。
命令シフト以外にも、SFTがより難しいタスクに一般化できるかどうかを問う。
ここで、チェーン・オブ・シンクレット(CoT)の監督は、より大きなソコバン・グリッドに追加のボックスを追加したり、アウト・オブ・ディストリビューション値を持つ算術や、組合せ複雑性を増大させる5枚のカード構成といった、より困難な状態への転送を著しく改善するアルゴリズム的な足場を提供する。
最後に、急激な多様性をCoTと組み合わせることで、SFTの単純さと安定性を維持しながら、我々のベンチマーク上のRLベースラインに適合または超えるような、命令変種と難変種の両方で堅牢な一般化を実現することができる。
これらの知見は、SFTが本質的にRLよりも劣り、データ中心の視点を支えているという物語に挑戦する: 適切にキュレートされたデモでは、バニラSFTはRLと同じくらい強く一般化できる。
論文の結果を再現するコードは、https://github.com/XiaofengLin7/debunking-sft- generalizationにある。
関連論文リスト
- Why Does RL Generalize Better Than SFT? A Data-Centric Perspective on VLM Post-Training [18.926351241813425]
大規模ビジョン・ランゲージモデル(VLM)は、スーパーバイザード・ファインチューニング(SFT)で訓練されたモデルと比較して、OOD(out-of-distriion)の性能を一貫して向上させる。
本稿では、この現象をデータ中心で説明し、RLの一般化の優位性は、本来は中分散学習サンプルを優先する暗黙のデータフィルタリング機構から生じることを主張する。
実験により、Difficulty-Curated SFT は標準 SFT よりも OOD の一般化を大幅に促進するだけでなく、RL ベースのトレーニングの性能を上回り、安定性と計算効率を向上させることが示されている。
論文 参考訳(メタデータ) (2026-02-11T12:55:15Z) - SED-SFT: Selectively Encouraging Diversity in Supervised Fine-Tuning [54.393763477932474]
Supervised Fine-Tuning (SFT) と Reinforcement Learning (RL) は、大規模言語モデル(LLM)の標準訓練パラダイムとして登場した。
本稿では,トークン探索空間に基づく多様性を適応的に促進するSED-SFTを提案する。
このフレームワークは、選択的なマスキング機構を備えた選択エントロピー正規化項を最適化目的に導入する。
論文 参考訳(メタデータ) (2026-02-07T09:39:21Z) - CoT-Saliency: Unified Chain-of-Thought Reasoning for Heterogeneous Saliency Tasks [96.64597365827046]
本稿では,3つの運用上不均一なサリエンシタスクを共同で処理する,最初の統合フレームワークを提案する。
タスクの不均一性を橋渡しする視覚言語モデル(VLM)において、チェーン・オブ・ソート(CoT)推論プロセスを導入する。
我々は,全タスクにまたがる特別なSOTA手法と強力なクローズドソースVLMの整合性を示す。
論文 参考訳(メタデータ) (2025-11-01T04:37:01Z) - Supervised Fine-Tuning or Contrastive Learning? Towards Better Multimodal LLM Reranking [56.46309219272326]
大型言語モデル(LLM)では、教師付き微調整(SFT)による分類は、関連する(非関連)ペアに対して'yes' (resp. ''no')トークンを予測する。
この分散は中心的な疑問を提起する:どの目的がLLMベースのリランクに本質的に適しているか、どのメカニズムが違いの根底にあるのか?
我々はCLとSFTの総合的な比較と分析を行い、ユニバーサルマルチモーダル検索(UMR)を実験場とした。
論文 参考訳(メタデータ) (2025-10-16T16:02:27Z) - On the Generalization of SFT: A Reinforcement Learning Perspective with Reward Rectification [50.30835290642069]
LLM(Large Language Model)のためのSFT(Supervised Fine-Tuning)の改良法を提案する。
標準SFT勾配は、モデルの一般化能力を著しく制限する問題のある報酬構造を暗黙的に符号化する。
本稿では,このトークンの確率で目的関数を動的に再スケーリングすることにより,各トークンの勾配を安定化する動的微調整(DFT)を提案する。
論文 参考訳(メタデータ) (2025-08-07T17:59:04Z) - The Synergy Dilemma of Long-CoT SFT and RL: Investigating Post-Training Techniques for Reasoning VLMs [66.17068546293487]
大規模視覚言語モデル(VLM)は、高度な推論を引き出すために、長いチェーン・オブ・シークレット(CoT)による微調整(SFT)や強化学習(RL)といったポストトレーニング技術を採用する傾向にある。
本稿では,複数のマルチモーダル推論ベンチマークを用いて,長いCoT SFTとRLの異なる役割と相互作用を系統的に検討する。
SFTは難解な問題に対して,奥行き,構造的推論によって性能を向上するが,冗長性を導入し,より単純な問題に対して性能を低下させる。
論文 参考訳(メタデータ) (2025-07-10T09:05:49Z) - RL for Reasoning by Adaptively Revealing Rationales [36.50924054394857]
監督された微調整(SFT)は密度の高い地下構造ラベルに依存しており、シーケンスの長さが大きくなるにつれてコストが増大する。
AdaBack(アダプティブ・バックトラック)は,学習中の目標出力の部分的なプレフィックスのみを明らかにする,サンプルごとのカリキュラム学習アルゴリズムである。
部分解に対する適応的なカリキュラムは、そうでなければ難解な問題を確実に解決することを示します。
論文 参考訳(メタデータ) (2025-06-22T17:46:14Z) - SFT Memorizes, RL Generalizes: A Comparative Study of Foundation Model Post-training [127.47044960572659]
ファウンデーションモデルでは、教師付き微調整(SFT)と強化学習(RL)がポストトレーニング技術として広く使われている。
本稿では,一般化と記憶におけるSFTとRLの違いについて検討する。
RLは、特に結果に基づく報酬で訓練された場合、ルールベースのテキストと視覚的バリエーションの両方で一般化されることを示す。
論文 参考訳(メタデータ) (2025-01-28T18:59:44Z) - ReFT: Reasoning with Reinforced Fine-Tuning [9.80361828538909]
本稿では,Reinforced Fine-Tuning (ReFT) というシンプルな手法を提案する。
ReFTはまずSFTを用いてモデルをウォームアップし,さらにオンライン強化学習,特に本論文のPPOアルゴリズムを用いる。
GSM8K、MathQA、SVAMPデータセットの実験では、ReFTがSFTを大幅に上回っている。
論文 参考訳(メタデータ) (2024-01-17T04:43:21Z) - Self-regulating Prompts: Foundational Model Adaptation without
Forgetting [112.66832145320434]
本稿では,PromptSRCと呼ばれる自己正規化フレームワークを提案する。
PromptSRCはタスク固有の汎用表現とタスクに依存しない汎用表現の両方に最適化するプロンプトを導く。
論文 参考訳(メタデータ) (2023-07-13T17:59:35Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。