論文の概要: SpecDiff-2: Scaling Diffusion Drafter Alignment For Faster Speculative Decoding
- arxiv url: http://arxiv.org/abs/2511.00606v2
- Date: Tue, 04 Nov 2025 05:33:05 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-11-05 16:37:26.860079
- Title: SpecDiff-2: Scaling Diffusion Drafter Alignment For Faster Speculative Decoding
- Title(参考訳): SpecDiff-2: 高速な投機デコードのための拡散の縮小
- Authors: Jameson Sandler, Jacob K. Christopher, Thomas Hartvigsen, Ferdinando Fioretto,
- Abstract要約: 投機的復号化は,Large Language Model (LLM)推論の高速化のための標準手法となっている。
自動回帰デコーディングの遅延を回避し、印象的なスピードアップを実現するために、損失のないドラフト検証手順を利用する。
本稿では,これら2つのボトルネックに共同で対処する新しいフレームワークであるSpecDiff-2を提案する。
- 参考スコア(独自算出の注目度): 48.96349422252313
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Speculative decoding has become the standard approach for accelerating Large Language Model (LLM) inference. It exploits a lossless draft-then-verify procedure to circumvent the latency of autoregressive decoding, achieving impressive speed-ups. Yet, current speculative decoding approaches remain limited by two fundamental bottlenecks: (1) the autoregressive dependency during drafting which limits parallelism, and (2) frequent rejections of draft tokens caused by misalignment between the draft and verify models. This paper proposes SpecDiff-2, a novel framework to jointly address these two bottlenecks. It leverages discrete diffusion as a non-autoregressive drafter to address bottleneck (1) and develops novel techniques to calibrate discrete diffusion drafters with autoregressive verifiers, addressing bottleneck (2). Experimental results across a comprehensive benchmark suite show that SpecDiff-2 achieves a new state-of-the-art across reasoning, coding, and mathematical benchmarks, improving tokens-per-second by up to an average of +55% over previous baselines and obtaining up to 5.5x average speed-up over standard decoding, without any loss of accuracy.
- Abstract(参考訳): 投機的復号化は,Large Language Model (LLM)推論の高速化のための標準手法となっている。
自動回帰デコーディングの遅延を回避し、印象的なスピードアップを実現するために、損失のないドラフト検証手順を利用する。
しかし、現在の投機的復号化アプローチは、(1)並列性を制限する起草時の自己回帰的依存、(2) 原案と検証モデルのミスアライメントに起因する起草トークンの頻繁な拒絶という2つの基本的なボトルネックによって制限されている。
本稿では,これら2つのボトルネックに共同で対処する新しいフレームワークであるSpecDiff-2を提案する。
離散拡散を非自己回帰的ドラフトラとして利用してボトルネックに対処する(1),および自己回帰的検証器を用いて離散拡散ドラフトラを校正する新たな手法を開発する(2)。
総合的なベンチマークスイートによる実験結果から、SpecDiff-2は推論、コーディング、数学的ベンチマークをまたいだ新しい最先端技術を実現し、トークン1秒あたりの平均は以前のベースラインより55%も向上し、精度を損なうことなく標準デコーディングよりも5.5倍のスピードアップが得られることがわかった。
関連論文リスト
- DiffuSpec: Unlocking Diffusion Language Models for Speculative Decoding [66.40658898418316]
DiffuSpecは、事前訓練された拡散言語モデル(DLM)を用いて、単一のフォワードパスでマルチトークンのドラフトを生成する、トレーニングフリーのドロップインフレームワークである。
ベンチマーク全体を通じて、DiffuSpecは最大3倍のウォールクロックスピードアップを達成し、投機的復号化のための自己回帰型ドラフトラの堅牢な代替手段として拡散ベースのドラフトを確立する。
論文 参考訳(メタデータ) (2025-09-28T07:00:15Z) - Continuous Speculative Decoding for Autoregressive Image Generation [27.308442169466975]
連続的視覚自己回帰(AR)モデルは、画像生成において有望な性能を示す。
投機的復号化は 事実上 自己回帰推論を加速させた
この研究は、低受理率、不整合出力分布、解析式のない修正分布からの課題に対処する。
論文 参考訳(メタデータ) (2024-11-18T09:19:15Z) - Speculative Diffusion Decoding: Accelerating Language Generation through Diffusion [55.0194604505437]
投機的復号化は,大規模言語モデル推論を高速化する手法として広く採用されている。
本稿では,離散拡散モデルを用いてドラフトシーケンスを生成する投機的復号法を提案する。
論文 参考訳(メタデータ) (2024-08-10T21:24:25Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。