論文の概要: Long-Short Chain-of-Thought Mixture Supervised Fine-Tuning Eliciting Efficient Reasoning in Large Language Models
- arxiv url: http://arxiv.org/abs/2505.03469v1
- Date: Tue, 06 May 2025 12:18:11 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-05-07 18:50:11.363739
- Title: Long-Short Chain-of-Thought Mixture Supervised Fine-Tuning Eliciting Efficient Reasoning in Large Language Models
- Title(参考訳): 大規模言語モデルにおける高精度推論の高速化をめざした長短連鎖混合法
- Authors: Bin Yu, Hang Yuan, Yuliang Wei, Bailing Wang, Weizhen Qi, Kai Chen,
- Abstract要約: textbfLong-textbfShort Chain-of-Thought textbfMixture textbfSupervised textbfFine-textbfTuningを提案する。
LS-Mixture SFT法を用いてトレーニングしたモデルは,直接SFT法と比較すると平均精度が2.3%向上した。
- 参考スコア(独自算出の注目度): 22.423202755603768
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Recent advances in large language models have demonstrated that Supervised Fine-Tuning (SFT) with Chain-of-Thought (CoT) reasoning data distilled from large reasoning models (e.g., DeepSeek R1) can effectively transfer reasoning capabilities to non-reasoning models. However, models fine-tuned with this approach inherit the "overthinking" problem from teacher models, producing verbose and redundant reasoning chains during inference. To address this challenge, we propose \textbf{L}ong-\textbf{S}hort Chain-of-Thought \textbf{Mixture} \textbf{S}upervised \textbf{F}ine-\textbf{T}uning (\textbf{LS-Mixture SFT}), which combines long CoT reasoning dataset with their short counterparts obtained through structure-preserved rewriting. Our experiments demonstrate that models trained using the LS-Mixture SFT method, compared to those trained with direct SFT, achieved an average accuracy improvement of 2.3\% across various benchmarks while substantially reducing model response length by approximately 47.61\%. This work offers an approach to endow non-reasoning models with reasoning capabilities through supervised fine-tuning while avoiding the inherent overthinking problems inherited from teacher models, thereby enabling efficient reasoning in the fine-tuned models.
- Abstract(参考訳): 大規模言語モデルにおける最近の進歩は,大規模な推論モデル(例えばDeepSeek R1)から抽出した推論データをチェイン・オブ・ソート(CoT)を用いたスーパービジョンファインチューニング(SFT)が,推論能力を非推論モデルに効果的に転送できることを実証している。
しかし、このアプローチで微調整されたモデルは、教師モデルから「過度に考える」問題を継承し、推論中に冗長で冗長な推論連鎖を生成する。
この課題に対処するために、長いCoT推論データセットと、構造保存された書き換えによって得られた短文のCoT推論データセットを組み合わせた、 \textbf{L}ong-\textbf{S}hort Chain-of-Thought \textbf{Mixture} \textbf{S}upervised \textbf{F}ine-\textbf{T}uning (\textbf{LS-Mixture SFT})を提案する。
実験の結果,LS-Mixture SFT法を用いてトレーニングしたモデルと直接SFT法を用いてトレーニングしたモデルでは,各ベンチマークの平均精度が2.3\%向上し,モデル応答長は約47.61\%低下した。
この研究は教師による微調整を通じて推論能力を持つ非推論モデルを実現するためのアプローチであり、教師モデルから受け継がれた固有の過大な問題を回避し、微調整モデルにおける効率的な推論を可能にする。
関連論文リスト
- Don't Overthink It: A Survey of Efficient R1-style Large Reasoning Models [49.598776427454176]
大規模共振モデル (LRM) は, 複雑なタスクの処理性能に優れていたため, 徐々に研究ホットスポットになりつつある。
しかし、これらのモデルが広く適用されたことにより、過度に考え直すという問題が徐々に顕在化していった。
モデル性能と推論能力を損なうことなく、推論経路の長さを短縮することを目的とした、様々な効率的な推論手法が提案されている。
論文 参考訳(メタデータ) (2025-08-04T06:54:31Z) - Large Reasoning Models are not thinking straight: on the unreliability of thinking trajectories [0.0]
強化学習(RL)を通じてトレーニングされたLarge Language Models(LLMs)は、最近、推論ベンチマークで印象的な結果を得た。
しかし、成長する証拠は、これらのモデルがしばしば長いが効果のない思考の連鎖(CoT)を生成することを示している。
モデルが明示的に提供しても正しい解を無視し、代わりに不要な推論ステップを生成し続けるという、過度な考えの新たな証拠を提示する。
論文 参考訳(メタデータ) (2025-07-01T12:14:22Z) - Lost at the Beginning of Reasoning [82.18834329384514]
第1の推論ステップが最終予測に不当に大きな影響を与えることを示す。
本稿では、報酬モデルを利用して高品質な第1推論ステップを特定し、維持する効率的なサンプリング戦略を提案する。
モデル自己補正能力を体系的に評価するために、意図的に欠陥のある第1の推論ステップで構築された新しいベンチマークを導入する。
論文 参考訳(メタデータ) (2025-06-27T09:53:57Z) - QFFT, Question-Free Fine-Tuning for Adaptive Reasoning [46.60300066127707]
Question-Free Fine-Tuning (QFFT)は、トレーニング中に入力された質問を取り除き、Long CoTレスポンスからのみ学習する、微調整のアプローチである。
QFFTは平均応答長を50%以上削減し、性能はSupervised Fine-Tuning (SFT)に匹敵する。
論文 参考訳(メタデータ) (2025-06-15T14:21:28Z) - Through the Valley: Path to Effective Long CoT Training for Small Language Models [9.673301245621802]
ロングチェーン・オブ・思想(CoT)の監督は、言語モデルにおける推論を強化する共通の戦略となっている。
私たちはLong CoT Degradationと呼ぶ現象を特定し、小さな言語モデル(SLM)が限られた長いCoTデータでトレーニングされた場合、性能が著しく低下する。
論文 参考訳(メタデータ) (2025-06-09T12:56:41Z) - Accelerated Test-Time Scaling with Model-Free Speculative Sampling [58.69141724095398]
STAND(Stochastic Adaptive N-gram Drafting)は,新しいモデルフリーな投機的デコード手法である。
従来の自己回帰復号法と比較して,STANDは推論遅延を60~65%削減することを示した。
モデルフリーのアプローチとして、STANDは追加のトレーニングなしで既存の言語モデルに適用できる。
論文 参考訳(メタデータ) (2025-06-05T07:31:18Z) - Towards Widening The Distillation Bottleneck for Reasoning Models [39.22557129190619]
LRMの生成したデータに基づく蒸留は、より小さなモデルの推論能力を高めるための、単純かつ効果的な方法である。
蒸留された長いCoTデータは、小さなモデルでは学習が困難であり、バイアスの継承につながることがわかった。
我々はモンテカルロ木探索を用いて木に基づくCOTデータを構築することを提案する。
論文 参考訳(メタデータ) (2025-03-03T12:17:36Z) - Can Large Language Models Detect Errors in Long Chain-of-Thought Reasoning? [57.17826305464394]
o1-likeモデルは、既存のLarge Language Models(LLM)の推論能力を改善するための長いチェーン・オブ・ソート(CoT)推論ステップを生成する。
DeltaBenchを導入し、異なる推論タスクのために異なるo1-likeモデルから生成された長いCoTを含む。
DeltaBenchに基づいて、生成した長いCoTのきめ細かい分析を行い、異なるo1モデルの有効性と効率を明らかにする。
論文 参考訳(メタデータ) (2025-02-26T17:59:27Z) - Towards Thinking-Optimal Scaling of Test-Time Compute for LLM Reasoning [113.49074603075032]
近年の研究では、モデルをより長い思考の連鎖(CoTs)を通して考える時間を増やすことで、複雑な推論タスクにおいて大幅な改善が得られることが示されている。
より長いCoTによるスケーリングが、特定のドメインにおけるLarge Language Model(LLM)の推論性能を損なうかどうかを考察する。
論文 参考訳(メタデータ) (2025-02-25T10:48:05Z) - Small Models Struggle to Learn from Strong Reasoners [14.895026967556088]
小さなモデルは、大きなモデルからの長い連鎖推論や蒸留の恩恵を受けない。
我々は、長いCoTの例と短いCoTの例を組み合わせて推論の複雑さをバランスさせる戦略であるMix Distillationを提案する。
実験により, 混合蒸留は, いずれのデータ単独でのトレーニングよりも, 小型モデル推算性能を著しく向上させることが示された。
論文 参考訳(メタデータ) (2025-02-17T18:56:15Z) - Fine-Tuning with Divergent Chains of Thought Boosts Reasoning Through Self-Correction in Language Models [63.36637269634553]
本稿では,複数の推論連鎖を比較するためにモデルを必要とすることによって,性能を向上する新しい手法を提案する。
DCoTデータセットの命令チューニングにより、より小さく、よりアクセスしやすい言語モデルの性能が向上することがわかった。
論文 参考訳(メタデータ) (2024-07-03T15:01:18Z) - ChainLM: Empowering Large Language Models with Improved Chain-of-Thought Prompting [124.69672273754144]
CoT(Chain-of-Thought)のプロンプトにより,大規模言語モデル(LLM)の推論能力が向上する
既存のCoTアプローチは通常、単純な推論タスクに重点を置いており、結果として低品質で一貫性のないCoTプロンプトをもたらす。
優れたCoTプロンプトの自動生成のための新しいフレームワークであるCoTGeniusを紹介する。
論文 参考訳(メタデータ) (2024-03-21T11:34:26Z) - Diffusion of Thoughts: Chain-of-Thought Reasoning in Diffusion Language Models [100.53662473219806]
Diffusion-of-Thought (DoT) は、拡散モデルとChain-of-Thoughtを統合する新しいアプローチである。
DoTは、拡散言語モデルを通じて、時間とともに推論ステップが拡散することを可能にする。
本研究は,多桁乗算,論理学,小学校数学におけるDoTの有効性を示すものである。
論文 参考訳(メタデータ) (2024-02-12T16:23:28Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。