論文の概要: Rethinking Generalization in Reasoning SFT: A Conditional Analysis on Optimization, Data, and Model Capability
- arxiv url: http://arxiv.org/abs/2604.06628v1
- Date: Wed, 08 Apr 2026 03:11:16 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-04-09 17:30:51.318049
- Title: Rethinking Generalization in Reasoning SFT: A Conditional Analysis on Optimization, Data, and Model Capability
- Title(参考訳): 推論SFTにおける一般化の再考:最適化・データ・モデル能力に関する条件解析
- Authors: Qihan Ren, Peng Wang, Ruikun Cai, Shuai Shao, Dadi Guo, Yuejin Xie, Yafu Li, Quanshi Zhang, Xia Hu, Jing Shao, Dongrui Liu,
- Abstract要約: LLMポストトレーニングでは、教師付き微調整(SFT)が記憶し、強化学習(RL)が一般化される。
我々は、長いチェーン・オブ・シークレット(CoT)の監督でSFTを推論するこの主張を再考し、クロスドメインの一般化は欠落ではなく条件付きであることを見出した。
- 参考スコア(独自算出の注目度): 64.97610656176981
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: A prevailing narrative in LLM post-training holds that supervised finetuning (SFT) memorizes while reinforcement learning (RL) generalizes. We revisit this claim for reasoning SFT with long chain-of-thought (CoT) supervision and find that cross-domain generalization is not absent but conditional, jointly shaped by optimization dynamics, training data, and base-model capability. Some reported failures are under-optimization artifacts: cross-domain performance first degrades before recovering and improving with extended training (a dip-and-recovery pattern), so shorttraining checkpoints can underestimate generalization. Data quality and structure both matter: low-quality solutions broadly hurt generalization,while verified long-CoT traces yield consistent cross-domain gains. Model capability is essential: stronger models internalize transferable procedural patterns (e.g., backtracking) even from a toy arithmetic game, while weaker ones imitate surface verbosity. This generalization is asymmetric, however: reasoning improves while safety degrades, reframing the question from whether reasoning SFT generalizes to under what conditions and at what cost.
- Abstract(参考訳): LLMポストトレーニングでは、教師付き微調整(SFT)が記憶し、強化学習(RL)が一般化される。
我々は、長いチェーン・オブ・シークレット(CoT)の監督でSFTを推論するこの主張を再考し、クロスドメインの一般化は欠落ではなく、最適化力学、トレーニングデータ、ベースモデル能力によって形づくられた条件付きであることを示した。
クロスドメインパフォーマンスは、回復前に最初に劣化し、拡張トレーニング(ディップ&リカバリパターン)によって改善されるため、チェックポイントの短縮は、一般化を過小評価することができる。
データ品質と構造の両方が重要: 低品質のソリューションは一般化を広範囲に損なう一方、検証された長いCoTトレースは整合性のあるクロスドメインゲインをもたらす。
より強力なモデルは転送可能な手続きパターン(例えば、バックトラック)をおもちゃの算術ゲームからでも内部化し、弱いものは表面の冗長性を模倣する。
しかし、この一般化は非対称であり、推論は改善され、安全性は低下する。
関連論文リスト
- REAL: Regression-Aware Reinforcement Learning for LLM-as-a-Judge [83.2858110368572]
回帰報酬を最適化するための原則的RLフレームワークである textbfREAL (underlineREgression-underlineAware Reinforcement underlineLThought) を提案する。
我々は,REALがレグレッション対応SFTベースラインと標準RL法の両方を一貫して上回ることを示す。
論文 参考訳(メタデータ) (2026-03-17T21:19:08Z) - Breaking Contextual Inertia: Reinforcement Learning with Single-Turn Anchors for Stable Multi-Turn Interaction [49.03500737694832]
textbfReinforcement textbfLearning with textbfTurn textbfRLSTA。
実験の結果,RTSTAは標準微調整法や禁忌法よりも有意に優れていた。
論文 参考訳(メタデータ) (2026-03-05T04:04:59Z) - How and Why LLMs Generalize: A Fine-Grained Analysis of LLM Reasoning from Cognitive Behaviors to Low-Level Patterns [51.02752099869218]
大きな言語モデル(LLM)は、非常に異なる一般化の振る舞いを示す。
推論を原子核スキルに分解する新しいベンチマークを導入する。
SFTモデルはよりシャープなドリフトと表面パターンへの過度な適合を示すのに対し、RL型モデルはより安定した行動プロファイルを維持し、推論スキルの崩壊に抵抗することを示す。
論文 参考訳(メタデータ) (2025-12-30T08:16:20Z) - Nemotron-Cascade: Scaling Cascaded Reinforcement Learning for General-Purpose Reasoning Models [71.9060068259379]
汎用推論モデルを構築するために,ケースド・ドメインワイド強化学習を提案する。
私たちの14Bモデルは、RLの後、LiveCodeBench v5/v6 ProでSFTの教師であるDeepSeek-R1-0528を上回り、インフォマティクスにおける2025 International Olympiad in Informatics (IOI)における銀の医療性能を上回りました。
論文 参考訳(メタデータ) (2025-12-15T18:02:35Z) - Does Math Reasoning Improve General LLM Capabilities? Understanding Transferability of LLM Reasoning [75.31797502976802]
幅広いタスクからなる20以上のオープンウェイト推論チューニングモデルを評価した。
数学で成功するほとんどのモデルは、利得を他の領域に移すことができない。
以上の結果から,標準のポストトレーニングレシピを再考する必要性が示唆された。
論文 参考訳(メタデータ) (2025-07-01T05:23:05Z) - ReFT: Reasoning with Reinforced Fine-Tuning [9.80361828538909]
本稿では,Reinforced Fine-Tuning (ReFT) というシンプルな手法を提案する。
ReFTはまずSFTを用いてモデルをウォームアップし,さらにオンライン強化学習,特に本論文のPPOアルゴリズムを用いる。
GSM8K、MathQA、SVAMPデータセットの実験では、ReFTがSFTを大幅に上回っている。
論文 参考訳(メタデータ) (2024-01-17T04:43:21Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。