論文の概要: Through the Valley: Path to Effective Long CoT Training for Small Language Models
- arxiv url: http://arxiv.org/abs/2506.07712v1
- Date: Mon, 09 Jun 2025 12:56:41 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-06-10 16:33:10.953351
- Title: Through the Valley: Path to Effective Long CoT Training for Small Language Models
- Title(参考訳): バレーを抜ける:小さな言語モデルのための効果的な長いCoTトレーニングへの道
- Authors: Renjie Luo, Jiaxi Li, Chen Huang, Wei Lu,
- Abstract要約: ロングチェーン・オブ・思想(CoT)の監督は、言語モデルにおける推論を強化する共通の戦略となっている。
私たちはLong CoT Degradationと呼ぶ現象を特定し、小さな言語モデル(SLM)が限られた長いCoTデータでトレーニングされた場合、性能が著しく低下する。
- 参考スコア(独自算出の注目度): 9.673301245621802
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Long chain-of-thought (CoT) supervision has become a common strategy to enhance reasoning in language models. While effective for large models, we identify a phenomenon we call Long CoT Degradation, in which small language models (SLMs; <=3B parameters) trained on limited long CoT data experience significant performance deterioration. Through extensive experiments on the Qwen2.5, LLaMA3 and Gemma3 families, we demonstrate that this degradation is widespread across SLMs. In some settings, models trained on only 8k long CoT examples lose up to 75% of their original performance before fine-tuning. Strikingly, we further observe that for some particularly small models, even training on 220k long CoT examples fails to recover or surpass their original performance prior to fine-tuning. Our analysis attributes this effect to error accumulation: while longer responses increase the capacity for multi-step reasoning, they also amplify the risk of compounding mistakes. Furthermore, we find that Long CoT Degradation may negatively impacts downstream reinforcement learning (RL), although this can be alleviated by sufficiently scaled supervised fine-tuning (SFT). Our findings challenge common assumptions about the benefits of long CoT training for SLMs and offer practical guidance for building more effective small-scale reasoning models.
- Abstract(参考訳): ロングチェーン・オブ・思想(CoT)の監督は、言語モデルにおける推論を強化する共通の戦略となっている。
大規模モデルでは有効であるが,小型言語モデル (SLM; <=3B パラメータ) が限られた長いCoTデータで訓練された場合,性能が著しく低下する現象をLong CoT Degradationと呼ぶ。
Qwen2.5, LLaMA3, Gemma3ファミリーに関する広範な実験を通じて、この劣化がSLMにまたがっていることを実証した。
いくつかの設定では、8kのCoTサンプルでトレーニングされたモデルは、微調整前に元のパフォーマンスの75%を失う。
興味深いことに、特に小さなモデルでは、220kのCoTサンプルのトレーニングでさえ、微調整前に元のパフォーマンスを回復または超越することができない。
より長い応答は多段階推論のキャパシティを増大させるが、それらは誤りを複雑化するリスクを増幅する。
さらに,Long CoT の劣化が下流強化学習(RL)に悪影響を及ぼす可能性が示唆された。
本研究は, SLMの長期CoTトレーニングの利点に関する一般的な仮定に挑戦し, より効果的な小規模推論モデル構築のための実践的ガイダンスを提供する。
関連論文リスト
- Long-Short Chain-of-Thought Mixture Supervised Fine-Tuning Eliciting Efficient Reasoning in Large Language Models [23.34070841541423]
LS-Mixture SFT(Long-Short Chain-of-Thought Mixture Supervised Fine-Tuning)を提案する。
LS-Mixture SFTでトレーニングしたモデルと直接SFTでトレーニングしたモデルでは,平均精度が2.3%向上した。
この研究は、教師付き微調整によって推論能力を持つ非推論モデルを実現するアプローチを提供する。
論文 参考訳(メタデータ) (2025-05-06T12:18:11Z) - Overtrained Language Models Are Harder to Fine-Tune [64.44743256512237]
大規模言語モデルは、成長を続けるトークン予算に基づいて事前訓練されている。
事前トレーニングの拡張により、モデルを微調整しにくくなり、最終的なパフォーマンスが低下することを示した。
論文 参考訳(メタデータ) (2025-03-24T23:11:56Z) - LLMs Can Easily Learn to Reason from Demonstrations Structure, not content, is what matters! [53.84130385074551]
大推論モデル(LRM)は、長いチェーン・オブ・シント(Long CoT)に従うことによって複雑な推論問題に取り組む
また,Large Language Model (LLM) は,データ効率の教師付き微調整 (SFT) とパラメータ効率の低い低ランク適応 (LoRA) により,Long CoT推論を効果的に学習できることを見出した。
たった17kのCoTトレーニングサンプルで、Qwen2.5-32B-Instructモデルは、幅広い数学およびコーディングベンチマークで大幅に改善されている。
論文 参考訳(メタデータ) (2025-02-11T08:48:48Z) - When More is Less: Understanding Chain-of-Thought Length in LLMs [51.631483479081645]
大規模言語モデル(LLM)は複雑な問題を分解するためにChain-of-Thought(CoT)推論を用いる。
本稿は、長いCoTがより優れていると仮定されることがしばしばあり、長いCoTが常に優れているとは限らない、と論じる。
論文 参考訳(メタデータ) (2025-02-11T05:28:59Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。