論文の概要: On the Role of Reasoning Patterns in the Generalization Discrepancy of Long Chain-of-Thought Supervised Fine-Tuning
- arxiv url: http://arxiv.org/abs/2604.01702v1
- Date: Thu, 02 Apr 2026 07:00:54 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-04-03 14:21:10.578176
- Title: On the Role of Reasoning Patterns in the Generalization Discrepancy of Long Chain-of-Thought Supervised Fine-Tuning
- Title(参考訳): ロングチェーン・オブ・ソート・スーパーバイザード・ファインチューニングの一般化における推論パターンの役割について
- Authors: Zhaoyi Li, Xiangyu Xi, Zhengyu Chen, Wei Wang, Gangwei Jiang, Ranran Shen, Linqi Song, Ying Wei, Defu Lian,
- Abstract要約: 長いチェーン・オブ・ソート(CoT)軌道上でのSFT(Supervised Fine-Tuning)は、大きな推論モデルを構築する上で重要なフェーズとなっている。
2つの競合モデルによって生成された2つの検証されたCoT軌道源を用いて比較研究を行う。
textttDeepSeek-R1-0528データ上のSFTは、トレーニング損失を著しく低減するが、一般化性能は著しく低下する。
- 参考スコア(独自算出の注目度): 63.41902113656453
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Supervised Fine-Tuning (SFT) on long Chain-of-Thought (CoT) trajectories has become a pivotal phase in building large reasoning models. However, how CoT trajectories from different sources influence the generalization performance of models remains an open question. In this paper, we conduct a comparative study using two sources of verified CoT trajectories generated by two competing models, \texttt{DeepSeek-R1-0528} and \texttt{gpt-oss-120b}, with their problem sets controlled to be identical. Despite their comparable performance, we uncover a striking paradox: lower training loss does not translate to better generalization. SFT on \texttt{DeepSeek-R1-0528} data achieves remarkably lower training loss, yet exhibits significantly worse generalization performance on reasoning benchmarks compared to those trained on \texttt{gpt-oss-120b}. To understand this paradox, we perform a multi-faceted analysis probing token-level SFT loss and step-level reasoning behaviors. Our analysis reveals a difference in reasoning patterns. \texttt{gpt-oss-120b} exhibits highly convergent and deductive trajectories, whereas \texttt{DeepSeek-R1-0528} favors a divergent and branch-heavy exploration pattern. Consequently, models trained with \texttt{DeepSeek-R1} data inherit inefficient exploration behaviors, often getting trapped in redundant exploratory branches that hinder them from reaching correct solutions. Building upon this insight, we propose a simple yet effective remedy of filtering out frequently branching trajectories to improve the generalization of SFT. Experiments show that training on selected \texttt{DeepSeek-R1-0528} subsets surprisingly improves reasoning performance by up to 5.1% on AIME25, 5.5% on BeyondAIME, and on average 3.6% on five benchmarks.
- Abstract(参考訳): 長いチェーン・オブ・ソート(CoT)軌道上でのSFT(Supervised Fine-Tuning)は、大きな推論モデルを構築する上で重要なフェーズとなっている。
しかし、異なるソースからのCoT軌道がモデルの一般化性能にどのように影響するかは、未解決の問題である。
本稿では,2つの競合モデル, \texttt{DeepSeek-R1-0528} と \texttt{gpt-oss-120b} が生成する2つの検証されたCoT軌道源を用いて比較研究を行う。
同等のパフォーマンスにもかかわらず、私たちは顕著なパラドックスを発見しました。
SFT on \texttt{DeepSeek-R1-0528} は、トレーニング損失を著しく低減するが、推論ベンチマークでの一般化性能は、 \textt{gpt-oss-120b} で訓練されたものに比べて著しく低下する。
このパラドックスを理解するために、トークンレベルのSFT損失とステップレベルの推論挙動を探索する多面解析を行う。
我々の分析は推論パターンの違いを明らかにしている。
\texttt{gpt-oss-120b} は高度に収束し、誘引的な軌道を示し、一方 \texttt{DeepSeek-R1-0528} は分岐重みのある探索パターンを好んでいる。
その結果、‘texttt{DeepSeek-R1}データでトレーニングされたモデルは、非効率な探索動作を継承する。
この知見に基づいて、SFTの一般化を改善するために、頻繁に分岐する軌道をフィルタリングする簡単な効果的な方法を提案する。
実験の結果、選択した \texttt{DeepSeek-R1-0528} サブセットのトレーニングでは、AIME25 では5.1%、BeyondAIME では5.5%、平均5つのベンチマークでは3.6% の推論性能が驚くほど向上した。
関連論文リスト
- Fractured Chain-of-Thought Reasoning [61.647243580650446]
完全CoTと解のみのサンプリングを補間する統合推論時間戦略であるフラクチャードサンプリングを導入する。
フラクチャードサンプリングは、Pass@kとトークンの予算に対して、急激なログ線形スケーリングゲインをもたらすため、優れた精度とコストのトレードオフを一貫して達成できることを示す。
論文 参考訳(メタデータ) (2025-05-19T11:30:41Z) - Long-Short Chain-of-Thought Mixture Supervised Fine-Tuning Eliciting Efficient Reasoning in Large Language Models [23.34070841541423]
LS-Mixture SFT(Long-Short Chain-of-Thought Mixture Supervised Fine-Tuning)を提案する。
LS-Mixture SFTでトレーニングしたモデルと直接SFTでトレーニングしたモデルでは,平均精度が2.3%向上した。
この研究は、教師付き微調整によって推論能力を持つ非推論モデルを実現するアプローチを提供する。
論文 参考訳(メタデータ) (2025-05-06T12:18:11Z) - SEAL: Steerable Reasoning Calibration of Large Language Models for Free [58.931194824519935]
大規模言語モデル(LLM)は、拡張チェーン・オブ・ソート(CoT)推論機構を通じて複雑な推論タスクに魅力的な機能を示した。
最近の研究では、CoT推論トレースにかなりの冗長性が示されており、これはモデル性能に悪影響を及ぼす。
我々は,CoTプロセスをシームレスに校正し,高い効率性を示しながら精度を向上する,トレーニング不要なアプローチであるSEALを紹介した。
論文 参考訳(メタデータ) (2025-04-07T02:42:07Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。