論文の概要: SpecDiff-2: Scaling Diffusion Drafter Alignment For Faster Speculative Decoding
- arxiv url: http://arxiv.org/abs/2511.00606v2
- Date: Tue, 04 Nov 2025 05:33:05 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-11-05 16:37:26.860079
- Title: SpecDiff-2: Scaling Diffusion Drafter Alignment For Faster Speculative Decoding
- Title(参考訳): SpecDiff-2: 高速な投機デコードのための拡散の縮小
- Authors: Jameson Sandler, Jacob K. Christopher, Thomas Hartvigsen, Ferdinando Fioretto,
- Abstract要約: 投機的復号化は,Large Language Model (LLM)推論の高速化のための標準手法となっている。
自動回帰デコーディングの遅延を回避し、印象的なスピードアップを実現するために、損失のないドラフト検証手順を利用する。
本稿では,これら2つのボトルネックに共同で対処する新しいフレームワークであるSpecDiff-2を提案する。
- 参考スコア(独自算出の注目度): 48.96349422252313
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Speculative decoding has become the standard approach for accelerating Large Language Model (LLM) inference. It exploits a lossless draft-then-verify procedure to circumvent the latency of autoregressive decoding, achieving impressive speed-ups. Yet, current speculative decoding approaches remain limited by two fundamental bottlenecks: (1) the autoregressive dependency during drafting which limits parallelism, and (2) frequent rejections of draft tokens caused by misalignment between the draft and verify models. This paper proposes SpecDiff-2, a novel framework to jointly address these two bottlenecks. It leverages discrete diffusion as a non-autoregressive drafter to address bottleneck (1) and develops novel techniques to calibrate discrete diffusion drafters with autoregressive verifiers, addressing bottleneck (2). Experimental results across a comprehensive benchmark suite show that SpecDiff-2 achieves a new state-of-the-art across reasoning, coding, and mathematical benchmarks, improving tokens-per-second by up to an average of +55% over previous baselines and obtaining up to 5.5x average speed-up over standard decoding, without any loss of accuracy.
- Abstract(参考訳): 投機的復号化は,Large Language Model (LLM)推論の高速化のための標準手法となっている。
自動回帰デコーディングの遅延を回避し、印象的なスピードアップを実現するために、損失のないドラフト検証手順を利用する。
しかし、現在の投機的復号化アプローチは、(1)並列性を制限する起草時の自己回帰的依存、(2) 原案と検証モデルのミスアライメントに起因する起草トークンの頻繁な拒絶という2つの基本的なボトルネックによって制限されている。
本稿では,これら2つのボトルネックに共同で対処する新しいフレームワークであるSpecDiff-2を提案する。
離散拡散を非自己回帰的ドラフトラとして利用してボトルネックに対処する(1),および自己回帰的検証器を用いて離散拡散ドラフトラを校正する新たな手法を開発する(2)。
総合的なベンチマークスイートによる実験結果から、SpecDiff-2は推論、コーディング、数学的ベンチマークをまたいだ新しい最先端技術を実現し、トークン1秒あたりの平均は以前のベースラインより55%も向上し、精度を損なうことなく標準デコーディングよりも5.5倍のスピードアップが得られることがわかった。
関連論文リスト
- Double: Breaking the Acceleration Limit via Double Retrieval Speculative Parallelism [19.7914286780195]
textscDouble (Double Retrieval Speculative Parallelism)を紹介する。
提案手法は,理論的な高速化限界を断ち切るために反復的検索投機を実行する。
実験では、LLaMA3.3-70Bで$textbf5.3times$、Qwen3-32Bで$textbf2.8times$の最先端のスピードアップが示されている。
論文 参考訳(メタデータ) (2026-01-09T04:35:21Z) - Fast Inference via Hierarchical Speculative Decoding [65.40448210801763]
階層的投機的復号法(HSD)は,各モデルがトークンを提案し,次に大きなモデルが1つのフォワードパスで検証する階層構造に,ドラフトモデルを積み重ねるアルゴリズムである。
HSDは最高の単軸ベースラインよりも1.2倍のスピードアップを達成している。
論文 参考訳(メタデータ) (2025-10-22T15:56:19Z) - Finish First, Perfect Later: Test-Time Token-Level Cross-Validation for Diffusion Large Language Models [47.5976588836299]
拡散大言語モデル(dLLM)は、並列デコーディングの高速化や双方向コンテキストモデリングといった利点を提供する。
離散dLLMにおけるバニラデコーディング戦略は、重要な制限に悩まされる。トークンが受け入れられると、後続のステップで修正することはできない。
予測トークン間のクロスバリデーションを利用するトレーニングフリーなデコーディング戦略であるToleratorを提案する。
論文 参考訳(メタデータ) (2025-10-06T17:56:46Z) - DiffuSpec: Unlocking Diffusion Language Models for Speculative Decoding [66.40658898418316]
DiffuSpecは、事前訓練された拡散言語モデル(DLM)を用いて、単一のフォワードパスでマルチトークンのドラフトを生成する、トレーニングフリーのドロップインフレームワークである。
ベンチマーク全体を通じて、DiffuSpecは最大3倍のウォールクロックスピードアップを達成し、投機的復号化のための自己回帰型ドラフトラの堅牢な代替手段として拡散ベースのドラフトを確立する。
論文 参考訳(メタデータ) (2025-09-28T07:00:15Z) - DuoDecoding: Hardware-aware Heterogeneous Speculative Decoding with Dynamic Multi-Sequence Drafting [59.57151419673759]
投機的復号化は、出力分布の忠実さを維持しながら生成遅延を低減するドラフト・then-verifyフレームワークを提供する。
我々は、CPUとGPUにそれぞれドラフトモデルとターゲットモデルを戦略的にデプロイする新しいアプローチであるDuoDecodingを提案する。
本手法は,アイドル時間を最小限に抑えるため,ハードウェア対応の最適ドラフト予算を組み込んで,動的マルチシーケンスドラフトを用いて,ドラフト品質を向上させる。
論文 参考訳(メタデータ) (2025-03-02T08:27:48Z) - Continuous Speculative Decoding for Autoregressive Image Generation [27.308442169466975]
連続的視覚自己回帰(AR)モデルは、画像生成において有望な性能を示す。
投機的復号化は 事実上 自己回帰推論を加速させた
この研究は、低受理率、不整合出力分布、解析式のない修正分布からの課題に対処する。
論文 参考訳(メタデータ) (2024-11-18T09:19:15Z) - Speculative Diffusion Decoding: Accelerating Language Generation through Diffusion [55.0194604505437]
投機的復号化は,大規模言語モデル推論を高速化する手法として広く採用されている。
本稿では,離散拡散モデルを用いてドラフトシーケンスを生成する投機的復号法を提案する。
論文 参考訳(メタデータ) (2024-08-10T21:24:25Z) - Speculative Decoding: Exploiting Speculative Execution for Accelerating
Seq2seq Generation [80.2267931231335]
本稿では,自己回帰(AR)デコーディングを高速化する投機的実行のアイデアを活用するための投機的デコーディング(SpecDec)を提案する。
SpecDecには2つのイノベーションがある。Spec-Drafter - 効率的なドラフトのために特別に最適化された独立モデル、Spec-Verification - ドラフトされたトークンを効率的に検証するための信頼性の高い方法である。
論文 参考訳(メタデータ) (2022-03-30T17:27:09Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。