論文の概要: Efficient Long CoT Reasoning in Small Language Models
- arxiv url: http://arxiv.org/abs/2505.18440v1
- Date: Sat, 24 May 2025 00:22:52 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-05-27 16:58:42.422659
- Title: Efficient Long CoT Reasoning in Small Language Models
- Title(参考訳): 小言語モデルにおける効率的な長いCoT推論
- Authors: Zhaoyang Wang, Jinqi Jiang, Tian Qiu, Hui Liu, Xianfeng Tang, Huaxiu Yao,
- Abstract要約: 小さな言語モデル(SLM)を直接トレーニングして、長いチェーン・オブ・シークレット(CoT)推論ステップを創出することは困難である。
提案手法では, 不要なステップを長いCoTで実行し, 有効かつ有用なCoTトレーニングデータをキュレートするために, SLM自体の法則を用いる。
- 参考スコア(独自算出の注目度): 26.579760423359673
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Recent large reasoning models such as DeepSeek-R1 exhibit strong complex problems solving abilities by generating long chain-of-thought (CoT) reasoning steps. It is challenging to directly train small language models (SLMs) to emerge long CoT. Thus, distillation becomes a practical method to enable SLMs for such reasoning ability. However, the long CoT often contains a lot of redundant contents (e.g., overthinking steps) which may make SLMs hard to learn considering their relatively poor capacity and generalization. To address this issue, we propose a simple-yet-effective method to prune unnecessary steps in long CoT, and then employ an on-policy method for the SLM itself to curate valid and useful long CoT training data. In this way, SLMs can effectively learn efficient long CoT reasoning and preserve competitive performance at the same time. Experimental results across a series of mathematical reasoning benchmarks demonstrate the effectiveness of the proposed method in distilling long CoT reasoning ability into SLMs which maintains the competitive performance but significantly reduces generating redundant reasoning steps.
- Abstract(参考訳): 近年のDeepSeek-R1のような大きな推論モデルは、長いチェーン・オブ・シークレット(CoT)の推論ステップを生成することによって、強力な複雑な問題解決能力を示す。
小さな言語モデル(SLM)を直接トレーニングして、長いCoTを発生させることは難しい。
したがって、蒸留はそのような推論能力のためにSLMを有効にするための実践的な方法となる。
しかし、長いCoTには多くの冗長な内容(例:過度に考えるステップ)が含まれており、SLMの能力と一般化が比較的低いことを考えると、学習が困難になる可能性がある。
この問題に対処するため、我々は、不要なステップを長いCoTで実行し、SLM自体に対して、有効で有用なCoTトレーニングデータをキュレートする、シンプルなyet- Effective法を提案する。
このようにして、SLMは効率の良い長いCoT推論を効果的に学習し、同時に競争性能を維持することができる。
一連の数学的推論ベンチマークによる実験結果から,競争性能は維持するが冗長な推論ステップの生成を著しく低減するSLMへの長いCoT推論能力を蒸留する手法の有効性が示された。
関連論文リスト
- Unlocking General Long Chain-of-Thought Reasoning Capabilities of Large Language Models via Representation Engineering [59.34894142132706]
既存の作業では、いくつかの例だけをチューニングすることで、長いCoT推論の能力を効率的に引き出すことができる。
このことは、LLMの一般的な能力であるCoT推論の長さを調査する動機となっている。
LLMの一般的な長大CoT推論能力を解き放つ新しい表現工学手法であるGLoREを提案する。
論文 参考訳(メタデータ) (2025-03-14T11:30:37Z) - Stepwise Perplexity-Guided Refinement for Efficient Chain-of-Thought Reasoning in Large Language Models [56.37421741507468]
CoT推論は大規模言語モデル(LLM)の性能を大幅に向上させた。
本稿では,その重要性の尺度としてパープレキシティを用いた批判的推論ステップの同定手法を提案する。
論文 参考訳(メタデータ) (2025-02-18T20:04:51Z) - When More is Less: Understanding Chain-of-Thought Length in LLMs [53.77747102201451]
大規模言語モデル(LLM)は複雑な問題を分解するためにChain-of-Thought(CoT)推論を用いる。
本稿は、長いCoTがより優れていると仮定されることがしばしばあり、長いCoTが常に優れているとは限らない、と論じる。
論文 参考訳(メタデータ) (2025-02-11T05:28:59Z) - Markov Chain of Thought for Efficient Mathematical Reasoning [10.678633785012691]
多段階の思考の連鎖(CoT)は、推論ステップとタスク固有のアクションの論理構造から恩恵を受ける。
我々は、標準多段階CoTを思考のマルコフ連鎖(MCoT)として概念化する。
我々のMCoTは、従来の推論ステップを単純化した質問に圧縮し、効率的な次ステップ推論を可能にすることを目的としている。
論文 参考訳(メタデータ) (2024-10-23T07:53:29Z) - Break the Chain: Large Language Models Can be Shortcut Reasoners [18.047917626825548]
CoT(Chain-of-Thought)推論は複雑なモジュールを利用するが、高いトークン消費、適用可能性の制限、思考上の課題によって妨げられる。
本稿では、複雑な論理的および常識的推論タスクを含む算術を超えて、CoTプロンプトの批判的評価を行う。
そこで我々は,「チェーンを破る」戦略を通じて,人型やショートカットを言語モデル(LM)に統合することを提案する。
論文 参考訳(メタデータ) (2024-06-04T14:02:53Z) - The Impact of Reasoning Step Length on Large Language Models [40.546685248243534]
思考の連鎖(CoT)は、大きな言語モデルの推論能力を改善する上で重要である。
プロンプトにおけるCoTの有効性と推論ステップの長さの相関について検討した。
論文 参考訳(メタデータ) (2024-01-10T04:37:38Z) - Towards Understanding Chain-of-Thought Prompting: An Empirical Study of
What Matters [82.84696222087396]
CoT(Chain-of-Thought)の促進により,大規模言語モデル(LLM)の多段階推論能力が劇的に向上する
無効な実演でもCoT推論が可能であることを示す。
論文 参考訳(メタデータ) (2022-12-20T05:20:54Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。