Fugu-MT 論文翻訳(概要): Rethinking Generalization in Reasoning SFT: A Conditional Analysis on Optimization, Data, and Model Capability

論文の概要: Rethinking Generalization in Reasoning SFT: A Conditional Analysis on Optimization, Data, and Model Capability

arxiv url: http://arxiv.org/abs/2604.06628v1
Date: Wed, 08 Apr 2026 03:11:16 GMT
ステータス: 翻訳完了
システム内更新日: 2026-04-09 17:30:51.318049
Title: Rethinking Generalization in Reasoning SFT: A Conditional Analysis on Optimization, Data, and Model Capability
Title（参考訳）: 推論SFTにおける一般化の再考:最適化・データ・モデル能力に関する条件解析
Authors: Qihan Ren, Peng Wang, Ruikun Cai, Shuai Shao, Dadi Guo, Yuejin Xie, Yafu Li, Quanshi Zhang, Xia Hu, Jing Shao, Dongrui Liu,
Abstract要約: LLMポストトレーニングでは、教師付き微調整(SFT)が記憶し、強化学習(RL)が一般化される。我々は、長いチェーン・オブ・シークレット(CoT)の監督でSFTを推論するこの主張を再考し、クロスドメインの一般化は欠落ではなく条件付きであることを見出した。
参考スコア（独自算出の注目度）: 64.97610656176981
License: http://creativecommons.org/licenses/by/4.0/
Abstract: A prevailing narrative in LLM post-training holds that supervised finetuning (SFT) memorizes while reinforcement learning (RL) generalizes. We revisit this claim for reasoning SFT with long chain-of-thought (CoT) supervision and find that cross-domain generalization is not absent but conditional, jointly shaped by optimization dynamics, training data, and base-model capability. Some reported failures are under-optimization artifacts: cross-domain performance first degrades before recovering and improving with extended training (a dip-and-recovery pattern), so shorttraining checkpoints can underestimate generalization. Data quality and structure both matter: low-quality solutions broadly hurt generalization,while verified long-CoT traces yield consistent cross-domain gains. Model capability is essential: stronger models internalize transferable procedural patterns (e.g., backtracking) even from a toy arithmetic game, while weaker ones imitate surface verbosity. This generalization is asymmetric, however: reasoning improves while safety degrades, reframing the question from whether reasoning SFT generalizes to under what conditions and at what cost.
Abstract（参考訳）: LLMポストトレーニングでは、教師付き微調整(SFT)が記憶し、強化学習(RL)が一般化される。我々は、長いチェーン・オブ・シークレット(CoT)の監督でSFTを推論するこの主張を再考し、クロスドメインの一般化は欠落ではなく、最適化力学、トレーニングデータ、ベースモデル能力によって形づくられた条件付きであることを示した。クロスドメインパフォーマンスは、回復前に最初に劣化し、拡張トレーニング(ディップ&リカバリパターン)によって改善されるため、チェックポイントの短縮は、一般化を過小評価することができる。データ品質と構造の両方が重要: 低品質のソリューションは一般化を広範囲に損なう一方、検証された長いCoTトレースは整合性のあるクロスドメインゲインをもたらす。より強力なモデルは転送可能な手続きパターン(例えば、バックトラック)をおもちゃの算術ゲームからでも内部化し、弱いものは表面の冗長性を模倣する。しかし、この一般化は非対称であり、推論は改善され、安全性は低下する。

論文の概要: Rethinking Generalization in Reasoning SFT: A Conditional Analysis on Optimization, Data, and Model Capability

関連論文リスト