論文の概要: Long-Short Chain-of-Thought Mixture Supervised Fine-Tuning Eliciting Efficient Reasoning in Large Language Models
- arxiv url: http://arxiv.org/abs/2505.03469v2
- Date: Wed, 21 May 2025 06:17:56 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-05-22 15:42:58.508487
- Title: Long-Short Chain-of-Thought Mixture Supervised Fine-Tuning Eliciting Efficient Reasoning in Large Language Models
- Title(参考訳): 大規模言語モデルにおける高精度推論の高速化をめざした長短連鎖混合法
- Authors: Bin Yu, Hang Yuan, Haotian Li, Xueyin Xu, Yuliang Wei, Bailing Wang, Weizhen Qi, Kai Chen,
- Abstract要約: LS-Mixture SFT(Long-Short Chain-of-Thought Mixture Supervised Fine-Tuning)を提案する。
LS-Mixture SFTでトレーニングしたモデルと直接SFTでトレーニングしたモデルでは,平均精度が2.3%向上した。
この研究は、教師付き微調整によって推論能力を持つ非推論モデルを実現するアプローチを提供する。
- 参考スコア(独自算出の注目度): 23.34070841541423
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Recent advances in large language models have demonstrated that Supervised Fine-Tuning (SFT) with Chain-of-Thought (CoT) reasoning data distilled from large reasoning models (e.g., DeepSeek R1) can effectively transfer reasoning capabilities to non-reasoning models. However, models fine-tuned with this approach inherit the "overthinking" problem from teacher models, producing verbose and redundant reasoning chains during inference. To address this challenge, we propose Long-Short Chain-of-Thought Mixture Supervised Fine-Tuning (LS-Mixture SFT), which combines long CoT reasoning dataset with their short counterparts obtained through structure-preserved rewriting. Our experiments demonstrate that models trained using the LS-Mixture SFT method, compared to those trained with direct SFT, achieved an average accuracy improvement of 2.3% across various benchmarks while substantially reducing model response length by approximately 47.61%. This work offers an approach to endow non-reasoning models with reasoning capabilities through supervised fine-tuning while avoiding the inherent overthinking problems inherited from teacher models, thereby enabling efficient reasoning in the fine-tuned models.
- Abstract(参考訳): 大規模言語モデルの最近の進歩は、大型推論モデル(例えば、DeepSeek R1)から抽出したCoT(Chain-of-Thought)推論データを用いたSFT(Supervised Fine-Tuning)が、推論能力を非推論モデルに効果的に転送できることを実証している。
しかし、このアプローチで微調整されたモデルは、教師モデルから「過度に考える」問題を継承し、推論中に冗長で冗長な推論連鎖を生成する。
この課題に対処するために、長いCoT推論データセットと構造保存された書き換えによって得られた短いデータを組み合わせたLong-Short Chain-of-Thought Mixture Supervised Fine-Tuning (LS-Mixture SFT)を提案する。
実験の結果,LS-Mixture SFT法を用いてトレーニングしたモデルは,直接SFT法と比較して,各ベンチマークの平均精度が2.3%向上し,モデル応答長は約47.61%減少した。
この研究は教師による微調整を通じて推論能力を持つ非推論モデルを実現するためのアプローチであり、教師モデルから受け継がれた固有の過大な問題を回避し、微調整モデルにおける効率的な推論を可能にする。
関連論文リスト
- Towards Widening The Distillation Bottleneck for Reasoning Models [39.22557129190619]
LRMの生成したデータに基づく蒸留は、より小さなモデルの推論能力を高めるための、単純かつ効果的な方法である。
蒸留された長いCoTデータは、小さなモデルでは学習が困難であり、バイアスの継承につながることがわかった。
我々はモンテカルロ木探索を用いて木に基づくCOTデータを構築することを提案する。
論文 参考訳(メタデータ) (2025-03-03T12:17:36Z) - Can Large Language Models Detect Errors in Long Chain-of-Thought Reasoning? [57.17826305464394]
o1-likeモデルは、既存のLarge Language Models(LLM)の推論能力を改善するための長いチェーン・オブ・ソート(CoT)推論ステップを生成する。
DeltaBenchを導入し、異なる推論タスクのために異なるo1-likeモデルから生成された長いCoTを含む。
DeltaBenchに基づいて、生成した長いCoTのきめ細かい分析を行い、異なるo1モデルの有効性と効率を明らかにする。
論文 参考訳(メタデータ) (2025-02-26T17:59:27Z) - Fine-Tuning with Divergent Chains of Thought Boosts Reasoning Through Self-Correction in Language Models [63.36637269634553]
本稿では,複数の推論連鎖を比較するためにモデルを必要とすることによって,性能を向上する新しい手法を提案する。
DCoTデータセットの命令チューニングにより、より小さく、よりアクセスしやすい言語モデルの性能が向上することがわかった。
論文 参考訳(メタデータ) (2024-07-03T15:01:18Z) - ChainLM: Empowering Large Language Models with Improved Chain-of-Thought Prompting [124.69672273754144]
CoT(Chain-of-Thought)のプロンプトにより,大規模言語モデル(LLM)の推論能力が向上する
既存のCoTアプローチは通常、単純な推論タスクに重点を置いており、結果として低品質で一貫性のないCoTプロンプトをもたらす。
優れたCoTプロンプトの自動生成のための新しいフレームワークであるCoTGeniusを紹介する。
論文 参考訳(メタデータ) (2024-03-21T11:34:26Z) - Diffusion of Thoughts: Chain-of-Thought Reasoning in Diffusion Language Models [100.53662473219806]
Diffusion-of-Thought (DoT) は、拡散モデルとChain-of-Thoughtを統合する新しいアプローチである。
DoTは、拡散言語モデルを通じて、時間とともに推論ステップが拡散することを可能にする。
本研究は,多桁乗算,論理学,小学校数学におけるDoTの有効性を示すものである。
論文 参考訳(メタデータ) (2024-02-12T16:23:28Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。