論文の概要: Efficient Long CoT Reasoning in Small Language Models
- arxiv url: http://arxiv.org/abs/2505.18440v2
- Date: Wed, 18 Jun 2025 06:11:08 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-06-19 16:34:05.426868
- Title: Efficient Long CoT Reasoning in Small Language Models
- Title(参考訳): 小言語モデルにおける効率的な長いCoT推論
- Authors: Zhaoyang Wang, Jinqi Jiang, Tian Qiu, Hui Liu, Xianfeng Tang, Huaxiu Yao,
- Abstract要約: 小さな言語モデル(SLM)を直接トレーニングして、長いチェーン・オブ・シークレット(CoT)推論ステップを創出することは困難である。
提案手法では, 不要なステップを長いCoTで実行し, 有効かつ有用なCoTトレーニングデータをキュレートするために, SLM自体の法則を用いる。
- 参考スコア(独自算出の注目度): 26.579760423359673
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Recent large reasoning models such as DeepSeek-R1 exhibit strong complex problems solving abilities by generating long chain-of-thought (CoT) reasoning steps. It is challenging to directly train small language models (SLMs) to emerge long CoT. Thus, distillation becomes a practical method to enable SLMs for such reasoning ability. However, the long CoT often contains a lot of redundant contents (e.g., overthinking steps) which may make SLMs hard to learn considering their relatively poor capacity and generalization. To address this issue, we propose a simple-yet-effective method to prune unnecessary steps in long CoT, and then employ an on-policy method for the SLM itself to curate valid and useful long CoT training data. In this way, SLMs can effectively learn efficient long CoT reasoning and preserve competitive performance at the same time. Experimental results across a series of mathematical reasoning benchmarks demonstrate the effectiveness of the proposed method in distilling long CoT reasoning ability into SLMs which maintains the competitive performance but significantly reduces generating redundant reasoning steps.
- Abstract(参考訳): 近年のDeepSeek-R1のような大きな推論モデルは、長いチェーン・オブ・シークレット(CoT)の推論ステップを生成することによって、強力な複雑な問題解決能力を示す。
小さな言語モデル(SLM)を直接トレーニングして、長いCoTを発生させることは難しい。
したがって、蒸留はそのような推論能力のためにSLMを有効にするための実践的な方法となる。
しかし、長いCoTには多くの冗長な内容(例:過度に考えるステップ)が含まれており、SLMの能力と一般化が比較的低いことを考えると、学習が困難になる可能性がある。
この問題に対処するため、我々は、不要なステップを長いCoTで実行し、SLM自体に対して、有効で有用なCoTトレーニングデータをキュレートする、シンプルなyet- Effective法を提案する。
このようにして、SLMは効率の良い長いCoT推論を効果的に学習し、同時に競争性能を維持することができる。
一連の数学的推論ベンチマークによる実験結果から,競争性能は維持するが冗長な推論ステップの生成を著しく低減するSLMへの長いCoT推論能力を蒸留する手法の有効性が示された。
関連論文リスト
- SynAdapt: Learning Adaptive Reasoning in Large Language Models via Synthetic Continuous Chain-of-Thought [8.287063165175667]
CoT(Chain-of-Thought)推論は、離散CoTトークン(DCoT)の生成によってかなりの時間コストを発生させる
既存のContinuous CoTメソッドは、間接的な微調整、限定されたアライメント、一貫性のないターゲットによって妨げられます。
我々は、革新的な効率的な推論フレームワークである textitSynAdapt を提案する。
論文 参考訳(メタデータ) (2025-08-01T12:17:35Z) - AutoL2S: Auto Long-Short Reasoning for Efficient Large Language Models [56.063571989395946]
推論可能な大規模言語モデル(LLM)は、複雑な推論タスクにおいて強力な性能を示す。
最近のアプローチでは、長い推論や短い推論をいつ適用すべきかを手動で決めることによって、この問題に対処しようとしている。
本稿では,LLMが生成した推論経路を動的に圧縮できる動的かつモデルに依存しないフレームワークであるAuto Long-Short Reasoning (AutoL2S)を提案する。
論文 参考訳(メタデータ) (2025-05-28T17:59:53Z) - TACO: Think-Answer Consistency for Optimized Long-Chain Reasoning and Efficient Data Learning via Reinforcement Learning in LVLMs [50.820065021136024]
DeepSeek R1には、大規模言語モデル(LLM)のためのかなり高度な複雑な推論がある。
最近の手法は、R1の推論能力をマルチモーダルな設定で再現しようと試みている。
視覚推論のための新しい強化学習アルゴリズムTACOを提案する。
論文 参考訳(メタデータ) (2025-05-27T06:30:48Z) - Unlocking General Long Chain-of-Thought Reasoning Capabilities of Large Language Models via Representation Engineering [59.34894142132706]
既存の作業では、いくつかの例だけをチューニングすることで、長いCoT推論の能力を効率的に引き出すことができる。
このことは、LLMの一般的な能力であるCoT推論の長さを調査する動機となっている。
LLMの一般的な長大CoT推論能力を解き放つ新しい表現工学手法であるGLoREを提案する。
論文 参考訳(メタデータ) (2025-03-14T11:30:37Z) - Stepwise Perplexity-Guided Refinement for Efficient Chain-of-Thought Reasoning in Large Language Models [56.37421741507468]
CoT推論は大規模言語モデル(LLM)の性能を大幅に向上させた。
本稿では,その重要性の尺度としてパープレキシティを用いた批判的推論ステップの同定手法を提案する。
論文 参考訳(メタデータ) (2025-02-18T20:04:51Z) - When More is Less: Understanding Chain-of-Thought Length in LLMs [53.77747102201451]
大規模言語モデル(LLM)は複雑な問題を分解するためにChain-of-Thought(CoT)推論を用いる。
本稿は、長いCoTがより優れていると仮定されることがしばしばあり、長いCoTが常に優れているとは限らない、と論じる。
論文 参考訳(メタデータ) (2025-02-11T05:28:59Z) - Markov Chain of Thought for Efficient Mathematical Reasoning [10.678633785012691]
多段階の思考の連鎖(CoT)は、推論ステップとタスク固有のアクションの論理構造から恩恵を受ける。
我々は、標準多段階CoTを思考のマルコフ連鎖(MCoT)として概念化する。
我々のMCoTは、従来の推論ステップを単純化した質問に圧縮し、効率的な次ステップ推論を可能にすることを目的としている。
論文 参考訳(メタデータ) (2024-10-23T07:53:29Z) - Break the Chain: Large Language Models Can be Shortcut Reasoners [18.047917626825548]
CoT(Chain-of-Thought)推論は複雑なモジュールを利用するが、高いトークン消費、適用可能性の制限、思考上の課題によって妨げられる。
本稿では、複雑な論理的および常識的推論タスクを含む算術を超えて、CoTプロンプトの批判的評価を行う。
そこで我々は,「チェーンを破る」戦略を通じて,人型やショートカットを言語モデル(LM)に統合することを提案する。
論文 参考訳(メタデータ) (2024-06-04T14:02:53Z) - The Impact of Reasoning Step Length on Large Language Models [40.546685248243534]
思考の連鎖(CoT)は、大きな言語モデルの推論能力を改善する上で重要である。
プロンプトにおけるCoTの有効性と推論ステップの長さの相関について検討した。
論文 参考訳(メタデータ) (2024-01-10T04:37:38Z) - Towards Understanding Chain-of-Thought Prompting: An Empirical Study of
What Matters [82.84696222087396]
CoT(Chain-of-Thought)の促進により,大規模言語モデル(LLM)の多段階推論能力が劇的に向上する
無効な実演でもCoT推論が可能であることを示す。
論文 参考訳(メタデータ) (2022-12-20T05:20:54Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。