論文の概要: Efficient Reasoning for LLMs through Speculative Chain-of-Thought
- arxiv url: http://arxiv.org/abs/2504.19095v1
- Date: Sun, 27 Apr 2025 03:56:39 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-05-02 19:15:54.1285
- Title: Efficient Reasoning for LLMs through Speculative Chain-of-Thought
- Title(参考訳): LLMの投機的連鎖による効率的な推論
- Authors: Jikai Wang, Juntao Li, Lijun Wu, Min Zhang,
- Abstract要約: OpenAI-o1やDeepseek-R1のような大きな推論言語モデルは、タスク解決能力が優れていたため、広く注目を集めている。
効率的な推論のための既存の方法は、主にモデルパラメータの数を減らしたり、チェーンオブ思考の長さを短縮することに焦点を当てている。
本稿では,平均推論速度の高速化により推理遅延を他の視点から低減するSCoT(Speculative Chain-of-Thought)を提案する。
- 参考スコア(独自算出の注目度): 44.76494056102963
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Large reasoning language models such as OpenAI-o1 and Deepseek-R1 have recently attracted widespread attention due to their impressive task-solving abilities. However, the enormous model size and the generation of lengthy thought chains introduce significant reasoning costs and response latency. Existing methods for efficient reasoning mainly focus on reducing the number of model parameters or shortening the chain-of-thought length. In this paper, we introduce Speculative Chain-of-Thought (SCoT), which reduces reasoning latency from another perspective by accelerated average reasoning speed through large and small model collaboration. SCoT conducts thought-level drafting using a lightweight draft model. Then it selects the best CoT draft and corrects the error cases with the target model. The proposed thinking behavior alignment improves the efficiency of drafting and the draft selection strategy maintains the prediction accuracy for complex problems. Experimental results on GSM8K, MATH, GaoKao, CollegeMath and Olympiad datasets show that SCoT reduces reasoning latency by 48\%$\sim$66\% for Deepseek-R1-Distill-Qwen-32B while achieving near-target-model-level performance. Our code is available at https://github.com/Jikai0Wang/Speculative_CoT.
- Abstract(参考訳): OpenAI-o1やDeepseek-R1のような大きな推論言語モデルは、タスク解決能力が目覚ましいため、最近広く注目を集めている。
しかし、膨大なモデルサイズと長い思考連鎖の生成は、大きな推論コストと応答遅延をもたらします。
効率的な推論のための既存の方法は、主にモデルパラメータの数を減らしたり、チェーンオブ思考の長さを短縮することに焦点を当てている。
本稿では,大小のモデルコラボレーションによる平均推論速度の高速化により,推論遅延を他の視点から低減する投機的連鎖(SCoT)を提案する。
SCoTは、軽量なドラフトモデルを使用して思考レベルのドラフトを行う。
次に、最高のCoTドラフトを選択し、ターゲットモデルでエラーケースを修正する。
提案した思考行動アライメントは、ドラフトの効率を向上させるとともに、複雑な問題に対する予測精度を維持する。
GSM8K、MATH、GaoKao、CollegeMath、Olympiadデータセットの実験結果から、SCoTは、ほぼターゲットモデルレベルのパフォーマンスを達成しつつ、Deepseek-R1-Distill-Qwen-32Bに対して、推論遅延を48\%$\sim$66\%削減することが示された。
私たちのコードはhttps://github.com/Jikai0Wang/Speculative_CoT.comで利用可能です。
関連論文リスト
- AdaR1: From Long-CoT to Hybrid-CoT via Bi-Level Adaptive Reasoning Optimization [86.56120216550232]
適応的で効率的な推論のための新しい2段階のフレームワークを提案する。
まず、長いCoTモデルと短いCoTモデルを組み合わせてハイブリッド推論モデルを構築する。
第二に、モデルに適切な推論スタイルを選択するための2段階の選好訓練を適用する。
論文 参考訳(メタデータ) (2025-04-30T14:01:45Z) - SEAL: Steerable Reasoning Calibration of Large Language Models for Free [58.190800043449336]
大規模言語モデル(LLM)は、拡張チェーン・オブ・ソート(CoT)推論機構を通じて複雑な推論タスクに魅力的な機能を示した。
最近の研究では、CoT推論トレースにかなりの冗長性が示されており、これはモデル性能に悪影響を及ぼす。
我々は,CoTプロセスをシームレスに校正し,高い効率性を示しながら精度を向上する,トレーニング不要なアプローチであるSEALを紹介した。
論文 参考訳(メタデータ) (2025-04-07T02:42:07Z) - DAST: Difficulty-Adaptive Slow-Thinking for Large Reasoning Models [31.189242663680695]
本稿では,問題の難易度に基づいて,モデルがチェーン・オブ・ソート(CoT)の長さを自律的に調整できる新しいフレームワークであるDASTを紹介する。
多様なデータセットとモデルスケールの実験により、DASTは複雑な問題に対する推論精度を維持しながら、過剰思考を効果的に軽減することを示した。
論文 参考訳(メタデータ) (2025-03-06T14:23:06Z) - Chain of Draft: Thinking Faster by Writing Less [37.492654173517046]
Chain of Draft (CoD)は、人間の認知プロセスにインスパイアされた新しいパラダイムである。
CoDはタスクを解きながら最小限だが情報的中間推論出力を生成する。
論文 参考訳(メタデータ) (2025-02-25T19:36:06Z) - Towards Thinking-Optimal Scaling of Test-Time Compute for LLM Reasoning [113.49074603075032]
近年の研究では、モデルをより長い思考の連鎖(CoTs)を通して考える時間を増やすことで、複雑な推論タスクにおいて大幅な改善が得られることが示されている。
より長いCoTによるスケーリングが、特定のドメインにおけるLarge Language Model(LLM)の推論性能を損なうかどうかを考察する。
論文 参考訳(メタデータ) (2025-02-25T10:48:05Z) - When More is Less: Understanding Chain-of-Thought Length in LLMs [53.77747102201451]
CoT推論は大規模言語モデル(LLM)の多段階推論能力を高める
しかし、ほとんどのモデルやタスクでは、CoT長の増加は一貫して推論精度の向上につながりますか?
本稿では, 推論ステップの数が増加するにつれて, 性能は向上するが, 最終的には低下する,というニュアンスな関係を観察する。
論文 参考訳(メタデータ) (2025-02-11T05:28:59Z) - O1-Pruner: Length-Harmonizing Fine-Tuning for O1-Like Reasoning Pruning [98.3430004984531]
精度を維持しながら推論オーバーヘッドを最小限に抑えるため,Longth-Harmonizing Fine-Tuning (O1-Pruner)を提案する。
私たちのコードはもうすぐhttps://github.com/StarDewXXX/O1-Pruner.comで公開されます。
論文 参考訳(メタデータ) (2025-01-22T01:35:11Z) - Cascade Speculative Drafting for Even Faster LLM Inference [25.642604897018852]
投機的復号化により、大言語モデル(LLM)推論の効率が向上する。
本稿では2種類のカスケードを組み込んだ投機的実行アルゴリズムであるカスケード投機ドラフト(CS Drafting)を紹介する。
CS Draftingは、我々の実験で投機的復号化よりも81%の高速化を実現している。
論文 参考訳(メタデータ) (2023-12-18T18:59:46Z) - Online Speculative Decoding [34.987825705622555]
大規模言語モデルの推論を高速化するオンライン投機的復号法を導入する。
主なアイデアは、観測されたユーザクエリデータに対する(複数)ドラフトモデルを継続的に更新することである。
本稿では,知識蒸留に基づくオンライン投機的デコーディングのプロトタイプを開発し,合成データと実データの両方を用いて評価する。
論文 参考訳(メタデータ) (2023-10-11T04:03:42Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。