Fugu-MT 論文翻訳(概要): SpecDiff-2: Scaling Diffusion Drafter Alignment For Faster Speculative Decoding

論文の概要: SpecDiff-2: Scaling Diffusion Drafter Alignment For Faster Speculative Decoding

arxiv url: http://arxiv.org/abs/2511.00606v2
Date: Tue, 04 Nov 2025 05:33:05 GMT
ステータス: 翻訳完了
システム内更新日: 2025-11-05 16:37:26.860079
Title: SpecDiff-2: Scaling Diffusion Drafter Alignment For Faster Speculative Decoding
Title（参考訳）: SpecDiff-2: 高速な投機デコードのための拡散の縮小
Authors: Jameson Sandler, Jacob K. Christopher, Thomas Hartvigsen, Ferdinando Fioretto,
Abstract要約: 投機的復号化は,Large Language Model (LLM)推論の高速化のための標準手法となっている。自動回帰デコーディングの遅延を回避し、印象的なスピードアップを実現するために、損失のないドラフト検証手順を利用する。本稿では,これら2つのボトルネックに共同で対処する新しいフレームワークであるSpecDiff-2を提案する。
参考スコア（独自算出の注目度）: 48.96349422252313
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: Speculative decoding has become the standard approach for accelerating Large Language Model (LLM) inference. It exploits a lossless draft-then-verify procedure to circumvent the latency of autoregressive decoding, achieving impressive speed-ups. Yet, current speculative decoding approaches remain limited by two fundamental bottlenecks: (1) the autoregressive dependency during drafting which limits parallelism, and (2) frequent rejections of draft tokens caused by misalignment between the draft and verify models. This paper proposes SpecDiff-2, a novel framework to jointly address these two bottlenecks. It leverages discrete diffusion as a non-autoregressive drafter to address bottleneck (1) and develops novel techniques to calibrate discrete diffusion drafters with autoregressive verifiers, addressing bottleneck (2). Experimental results across a comprehensive benchmark suite show that SpecDiff-2 achieves a new state-of-the-art across reasoning, coding, and mathematical benchmarks, improving tokens-per-second by up to an average of +55% over previous baselines and obtaining up to 5.5x average speed-up over standard decoding, without any loss of accuracy.
Abstract（参考訳）: 投機的復号化は,Large Language Model (LLM)推論の高速化のための標準手法となっている。自動回帰デコーディングの遅延を回避し、印象的なスピードアップを実現するために、損失のないドラフト検証手順を利用する。しかし、現在の投機的復号化アプローチは、(1)並列性を制限する起草時の自己回帰的依存、(2) 原案と検証モデルのミスアライメントに起因する起草トークンの頻繁な拒絶という2つの基本的なボトルネックによって制限されている。本稿では,これら2つのボトルネックに共同で対処する新しいフレームワークであるSpecDiff-2を提案する。離散拡散を非自己回帰的ドラフトラとして利用してボトルネックに対処する(1),および自己回帰的検証器を用いて離散拡散ドラフトラを校正する新たな手法を開発する(2)。総合的なベンチマークスイートによる実験結果から、SpecDiff-2は推論、コーディング、数学的ベンチマークをまたいだ新しい最先端技術を実現し、トークン1秒あたりの平均は以前のベースラインより55%も向上し、精度を損なうことなく標準デコーディングよりも5.5倍のスピードアップが得られることがわかった。

論文の概要: SpecDiff-2: Scaling Diffusion Drafter Alignment For Faster Speculative Decoding

関連論文リスト