論文の概要: Scaling Laws for Speculative Decoding
- arxiv url: http://arxiv.org/abs/2505.07858v1
- Date: Thu, 08 May 2025 11:10:15 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-05-14 20:57:54.22919
- Title: Scaling Laws for Speculative Decoding
- Title(参考訳): 投機的復号化のためのスケーリング法則
- Authors: Siyuan Yan, Mo Zhu, Guo-qing Jiang, Jianfei Wang, Jiaxing Chen, Wentai Zhang, Xiang Liao, Xiao Cui, Chen Zhang, Zhuoran Song, Ran Zhu,
- Abstract要約: 本研究では,高密度言語モデル(LLM)を用いた投機的復号化手法について検討する。
論理線形スケーリング法則(理論 1.1, 1.2, 1.3)が3次元にわたるドラフトモデル受入率(あるいは復号速度)を規定している。
一般的なLLMの多次元スケーリングをコーディネートするScyllaを実現する。
- 参考スコア(独自算出の注目度): 7.618542964397237
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: The escalating demand for efficient decoding in large language models (LLMs) is particularly critical for reasoning-intensive architectures like OpenAI-o3 and DeepSeek-R1, which depend on extended chain-of-thought reasoning. This study investigates speculative decoding techniques through dense LLM architectures to establish foundational insights for accelerating reasoning tasks. While speculative decoding methods leveraging parallel draft-verification cycles have emerged as promising acceleration techniques, the scaling laws governing decoding efficiency remain under-explored compared to conventional backbone LLMs developed through Pretraining->SFT->RLHF training paradigms. In this work, we discover Log-linear Scaling Laws (Theorem 1.1, 1.2 and 1.3) governing draft model acceptance rate (or decoding speed) across three dimensions: pretraining token volume, draft model capacity, and decoding batch size. Building on these laws, we achieve Scylla, which coordinates multi-dimensional scaling for popular LLMs (Llama2/3, Qwen2.5). Empirical validation shows Scylla achieves 1.5-2.2 higher acceptance rate than EAGLE2 and 0.3 higher than EAGLE3 at temperature T = 0, with peak performance gains on summarization and QA tasks (Figure 2). Industrial inference engine deployments demonstrate 2X decoding throughput improvements over EAGLE2 (Table 5), validating the transformative potential of systematic scaling for efficient LLM inference. Code will be released later.
- Abstract(参考訳): 大規模言語モデル(LLM)における効率的なデコーディングの需要の増大は、特にOpenAI-o3やDeepSeek-R1のような推論集約型アーキテクチャにおいて重要である。
本研究では,高密度LLMアーキテクチャによる投機的復号化手法について検討し,推論タスクの高速化のための基礎的知見を確立する。
パラレルドラフト検証サイクルを利用した投機的復号化手法が有望な加速手法として登場したが, 復号化効率を規定するスケーリング法則は, Pretraining->SFT->RLHF トレーニングパラダイムによって開発された従来のバックボーン LLM と比較して未検討のままである。
本研究では,トークンボリュームの事前学習,ドラフトモデルキャパシティ,バッチサイズの復号化という,3次元にわたるドラフトモデル受け入れ率(あるいは復号化速度)を規定するログ線形スケーリング法則(Theorem 1.1,1.2, 1.3)を明らかにする。
これらの法則に基づいて、人気のあるLLM(Llama2/3, Qwen2.5)の多次元スケーリングをコーディネートするScyllaを実現する。
実証的な検証では、ScyllaはEAGLE2よりも1.5-2.2高く、温度T = 0ではEAGLE3より0.3高く、要約やQAタスクではピーク性能が向上している(第2図)。
産業推論エンジンのデプロイメントでは、ERGLE2 (Table 5) よりも2倍のデコードスループットが向上し、効率的なLCM推論のための体系的スケーリングの変換可能性を検証する。
コードは後でリリースされる。
関連論文リスト
- OpenCodeReasoning-II: A Simple Test Time Scaling Approach via Self-Critique [59.18475981916166]
OpenCodeReasoning-IIは、250万の質問解決批判三部作からなるデータセットである(約35万のユニークなプログラミング質問)。
本研究では,2段階の教師付き微調整戦略を採用する。第1段階はコード生成のための微調整に焦点を当て,第2段階はコード生成と批判の両方のためのモデルの共同トレーニングを行う。特に,コード生成と批判モデルの統合は,競争力のある符号化性能を大幅に向上させる。
論文 参考訳(メタデータ) (2025-07-11T23:35:54Z) - KeyKnowledgeRAG (K^2RAG): An Enhanced RAG method for improved LLM question-answering capabilities [2.4874078867686085]
KeyKnowledgeRAG (K2RAG)は、RAG実装の制限を克服するために設計された新しいフレームワークである。
厳密でスパースなベクトル探索、知識グラフ、テキスト要約を統合して、検索品質とシステム効率を向上させる。
K2RAGは平均回答類似度スコア0.57を達成し、第3位Q3類似度0.82を達成した。
論文 参考訳(メタデータ) (2025-07-10T12:19:03Z) - Teaching LLM to Reason: Reinforcement Learning from Algorithmic Problems without Code [76.80306464249217]
本稿では,LLMにより良い理性を教えることを目的としたTeaRを提案する。
TeaRは、注意深いデータキュレーションと強化学習を活用して、コード関連のタスクを通じて最適な推論パスを発見するモデルをガイドする。
我々は、2つのベースモデルと3つの長いCoT蒸留モデルを用いて広範な実験を行い、モデルのサイズは15億から32億のパラメータから、Math、Knowledge、Code、Logical Reasoningにまたがる17のベンチマークにまたがる。
論文 参考訳(メタデータ) (2025-07-10T07:34:05Z) - Spectra 1.1: Scaling Laws and Efficient Inference for Ternary Language Models [12.98064202867316]
大規模言語モデル(LLM)は、研究や産業アプリケーションでますます使われているが、推論効率は依然として大きな課題である。
本稿では,メモリ要求を大幅に低減するために,量子化学習を用いた3次言語モデル(TriLM)について検討する。
最大1.2兆のトークンでトレーニングされたTriLMのオープンスイートであるSpectra-1.1を導入する。
論文 参考訳(メタデータ) (2025-06-28T22:13:43Z) - Can Reasoning Models Reason about Hardware? An Agentic HLS Perspective [18.791753740931185]
OpenAI o3-mini と DeepSeek-R1 は Chain-of-Thought (CoT) を通じて推論を強化している
本稿では, LLM の推論が高レベル合成(HLS)設計空間探索と最適化の課題に対処できるかどうかを検討する。
論文 参考訳(メタデータ) (2025-03-17T01:21:39Z) - Quantizing Large Language Models for Code Generation: A Differentiated Replication [51.85505914274633]
大規模言語モデル(LLM)は、コード生成において印象的な能力を示しており、特に自然言語で記述された要求を自動的に実装する。
LLMはメモリ(そして結果として炭素)のフットプリントに重大な課題をもたらす。
LLM量子化の新しいフロンティアは4ビット精度であり、平均メモリフットプリントが70%減少する。
論文 参考訳(メタデータ) (2025-03-10T09:26:08Z) - OpenCoder: The Open Cookbook for Top-Tier Code Large Language Models [76.59316249991657]
コードのための大規模言語モデル(LLM)は、コード生成、推論タスク、エージェントシステムなど、さまざまな領域で必須になっている。
オープンアクセスのコード LLM はプロプライエタリなモデルの性能レベルに近づきつつあるが、高品質なコード LLM は依然として限られている。
トップクラスのコードLLMであるOpenCoderは、主要なモデルに匹敵するパフォーマンスを達成するだけでなく、研究コミュニティの"オープンクックブック"としても機能します。
論文 参考訳(メタデータ) (2024-11-07T17:47:25Z) - Efficient Inference for Large Language Model-based Generative Recommendation [78.38878421030522]
LLM(Large Language Model)ベースの生成レコメンデーションは目覚ましい成功を収めた。
ジェネレーティブレコメンデーションにSD(Speculative Decoding)を適用すると、トップKアイテムを生成する必要があるため、ユニークな課題が提示される。
我々は,厳密なトップK検証の下でトップKアライメントを最適化する AtSpeed-S というアライメントフレームワークを提案する。
論文 参考訳(メタデータ) (2024-10-07T16:23:36Z) - Graph-Structured Speculative Decoding [52.94367724136063]
投機的復号化は、大規模言語モデルの推論を加速する有望な手法として登場した。
本稿では, 有向非巡回グラフ(DAG)を応用して, 起案された仮説を管理する革新的な手法を提案する。
我々は1.73$times$から1.96$times$に顕著なスピードアップを観察し、標準投機的復号法を大幅に上回った。
論文 参考訳(メタデータ) (2024-07-23T06:21:24Z) - CLAQ: Pushing the Limits of Low-Bit Post-Training Quantization for LLMs [44.03692512352445]
カラムレベル適応量量子化(CLAQ)は、LLM(Large Language Models)量子化のための新しく効果的なフレームワークである。
本稿では,LLM量子化のための3種類の適応戦略を導入することで,新しい効果的なCLAQフレームワークを提案する。
LLaMA-1, LLaMA-2, Yi など,様々な主要なオープンソース LLM に関する実験により, 提案手法が様々なビット設定における最先端結果を達成することを示す。
論文 参考訳(メタデータ) (2024-05-27T14:49:39Z) - Temporal Scaling Law for Large Language Models [57.83580734589091]
本稿では,LLMの試験損失が,トレーニングステップのスケールアップとともにどのように進展するかを考察する,時間スケーリング法の概念を提案する。
テスト損失全体を粗い粒度でモデル化するのとは対照的に、私たちはそれを分解して、各トークン位置のきめ細かいテスト損失に飛び込みます。
動的双曲法則におけるパラメータの時間的パターンを研究することにより、より正確な時間的スケーリング法則を導出する。
論文 参考訳(メタデータ) (2024-04-27T05:49:11Z) - Chimera: A Lossless Decoding Method for Accelerating Large Language Models Inference by Fusing all Tokens [15.566726645722657]
投機的サンプリングに特化して設計された新しいフレームワークを提案する。
このフレームワーク内では、以前に生成されたトークンを効果的に活用し、後続の単語を予測する軽量なドラフトモデルを導入する。
我々は、バニラ自動回帰復号方式と比較して平均遅延速度比が2.7倍になるという印象的な結果を示した。
論文 参考訳(メタデータ) (2024-02-24T08:10:39Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。