論文の概要: Speculative Decoding: Performance or Illusion?
- arxiv url: http://arxiv.org/abs/2601.11580v1
- Date: Wed, 31 Dec 2025 20:31:36 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-01-25 16:54:51.769353
- Title: Speculative Decoding: Performance or Illusion?
- Title(参考訳): 投機的デコーディング: パフォーマンスかイライラか?
- Authors: Xiaoxuan Liu, Jiaxiang Yu, Jongseok Park, Ion Stoica, Alvin Cheung,
- Abstract要約: プロダクショングレードで広くデプロイされた推論エンジン(vLLM)上での投機的復号化(SD)に関する最初の体系的研究について述べる。
我々は、SD性能を規定する重要な要因を分析し、SDスピードアップの理論的上限を定量化する。
その結果,ターゲットモデルによる検証が実行に支配的であり,受信長は出力トークンの位置,要求,データセットによって著しく異なることがわかった。
- 参考スコア(独自算出の注目度): 35.22216866848279
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Speculative decoding (SD) has become a popular technique to accelerate Large Language Model (LLM) inference, yet its real-world effectiveness remains unclear as prior evaluations rely on research prototypes and unrealistically small batch sizes. We present, to our knowledge, the first systematic study of SD on a production-grade and widely deployed inference engine (vLLM), covering multiple SD variants ($n$-gram, EAGLE/EAGLE-3, Draft-Model, Multi-Token Prediction) across diverse workloads, model scales, and batch sizes. We analyze key factors governing SD performance, and quantify a theoretical upper bound on SD speedup. Our results show that verification by the target model dominates the execution, while acceptance length varies markedly across output token positions, requests, and datasets. Comparing measured performance with theoretical bounds reveals substantial gaps between observed and theoretical upper bounds, and we leverage this observation to highlight new research opportunities that our study opens up in improving SD.
- Abstract(参考訳): 投機的復号法 (SD) はLarge Language Model (LLM) 推論を高速化する一般的な手法となっているが、以前の評価では研究プロトタイプと非現実的に小さなバッチサイズに依存していたため、実際の有効性は明らかになっていない。
我々の知る限り、プロダクショングレードで広くデプロイされている推論エンジン(vLLM)上でのSDに関する最初の体系的研究(n$-gram, EAGLE/EAGLE-3, Draft-Model, Multi-Token Prediction)は、さまざまなワークロード、モデルスケール、バッチサイズにまたがって行われる。
我々は、SD性能を規定する重要な要因を分析し、SDスピードアップの理論的上限を定量化する。
その結果,ターゲットモデルによる検証が実行に支配的であり,受信長は出力トークンの位置,要求,データセットによって著しく異なることがわかった。
測定性能を理論境界と比較すると,観測値と理論上界との差が大きく,本研究がSDを改善するための新たな研究機会を浮き彫りにしている。
関連論文リスト
- How Efficient Are Diffusion Language Models? A Critical Examination of Efficiency Evaluation Practices [81.85465545346266]
拡散言語モデル(DLM)は、長期支配的自己回帰(AR)パラダイムに代わる有望な代替として登場した。
しかし、現在のオープンソースのDLMは、しばしばARの速度よりも優れており、現実のユーティリティを制限している。
本研究はDLMの効率に関する系統的研究であり, 先行評価手法の問題点を同定する。
論文 参考訳(メタデータ) (2025-10-21T10:00:32Z) - Consultant Decoding: Yet Another Synergistic Mechanism [49.996656694586164]
コンサルタント・デコーディング(CD)は、大きな言語モデルでのみ計算されるトークンレベルの確率を用いて、候補のドラフトを検証する。
CDは、目標モデルと比較して2.5倍の推論速度向上を実現し、同等の生成品質を維持している。
論文 参考訳(メタデータ) (2025-06-03T03:13:27Z) - MoESD: Unveil Speculative Decoding's Potential for Accelerating Sparse MoE [14.345207231093722]
投機的復号法(SD: Speculative decoding)は、LSM推論を精度の低下なしに高速化する手法として広く用いられている。
中程度のバッチサイズでは、MoEは高密度モデルよりもSDの恩恵を受けます。
これらの効果を特徴付ける新しい指標「目標効率」を導入する。
論文 参考訳(メタデータ) (2025-05-26T08:01:45Z) - The Effect of Optimal Self-Distillation in Noisy Gaussian Mixture Model [2.355460994057843]
自己蒸留(SD)は、機械学習において単純だが強力なアプローチとして注目されている。
広く使われているにもかかわらず、その効果の基盤となるメカニズムはいまだ不明である。
論文 参考訳(メタデータ) (2025-01-27T17:20:48Z) - An Empirical Study on Distribution Shift Robustness From the Perspective
of Pre-Training and Data Augmentation [91.62129090006745]
本稿では,事前学習とデータ拡張の観点から分布シフト問題を考察する。
我々は,事前学習とデータ拡張に焦点を当てた,最初の総合的な実証的研究を行った。
論文 参考訳(メタデータ) (2022-05-25T13:04:53Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。