論文の概要: D^2SD: Accelerating Speculative Decoding with Dual Diffusion Draft Models
- arxiv url: http://arxiv.org/abs/2606.04446v1
- Date: Wed, 03 Jun 2026 04:48:00 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-06-04 20:44:18.551396
- Title: D^2SD: Accelerating Speculative Decoding with Dual Diffusion Draft Models
- Title(参考訳): D^2SD:デュアル拡散ドラフトモデルによる投機的デコーディングの高速化
- Authors: Liyuan Zhang, Jiarui Zhang, Jinwei Yao, Ran Yan, Yuchen Yang, Jiahao Zhang, Tongkai Yang, Yi Wu, Binhang Yuan,
- Abstract要約: 最近の拡散ベースのドラフトラはトークンのブロック全体を並列に生成するが、通常は検証毎に単一のドラフトシーケンスにコミットする。
D2SDは,候補を信頼誘導プレフィックスツリーに整理する,二重拡散ドラフト投機的復号化フレームワークである。
結果として得られた共有誘導候補は、カスケードの注意を通して共同で検証される。
- 参考スコア(独自算出の注目度): 27.44373450962651
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Speculative decoding accelerates autoregressive large language model inference by drafting multiple tokens and verifying them in a single target-model forward pass. Recent diffusion-based drafters generate an entire block of tokens in parallel but usually commit to a single draft sequence per verification: once the first mismatch occurs, all subsequent draft tokens are discarded, resulting in a limited acceptance rate. Naively batching more draft candidate sequences only introduces a marginal improvement, as redundant or poorly placed branches increase the cost of drafting and verification without proportionally increasing the number of accepted tokens. We propose D^2SD, a dual diffusion draft speculative decoding framework that organizes candidates into a confidence-guided prefix tree, where the first diffusion drafter generates a block along with per-position confidence scores that are used to identify the most likely rejection boundary and select the top-K prefix ranges for recovery; the second variable-prefix diffusion drafter re-anchors at each selected prefix and proposes alternative continuations in one batched pass; the resulting shared-prefix candidates are jointly verified via cascade attention. Empirically, D^2SD shows clear improvements over both the underlying diffusion approach and strong autoregressive speculative decoding baselines.
- Abstract(参考訳): 投機的復号化は、複数のトークンを起草し、1つのターゲットモデルフォワードパスで検証することで、自己回帰的な大言語モデル推論を加速させる。
最近の拡散ベースのドラフトラはトークンのブロック全体を並列に生成するが、通常は検証毎に単一のドラフトシーケンスにコミットする。
追加のドラフト候補シーケンスのバッチ化は、承認トークンの数を比例的に増加させることなく、冗長または不十分に配置されたブランチがドラフトと検証のコストを増大させるため、限界的な改善をもたらすのみである。
D^2SDは、候補を信頼誘導プレフィックスツリーに整理する2つの拡散ドラフト投機的デコードフレームワークであり、第1拡散ドラフトは、最も可能性の高い拒絶境界を識別し、回復のためのトップKプレフィックス範囲を選択するために使用される位置当たりの信頼スコアとともにブロックを生成し、第2可変修正拡散ドラフトは、選択されたプレフィックスで再アンカーし、1回のバッチパスで代替の継続を提案し、その結果の共有プレフィックス候補は、カスケードアテンションを介して共同検証される。
経験的に、D^2SDは、基礎となる拡散アプローチと強い自己回帰的投機的復号化ベースラインの両方に対して明らかに改善されている。
関連論文リスト
- TAPS: Target-Aware Prefix Tree Selection for Diffusion-Drafted Speculative Decoding [4.5881678566958985]
パラレルドラフトに拡散モデルを用いることは、投機的復号法には有望なアプローチである。
単一のシーケンスの検証は受け入れ期間を制限し、大きなドラフトツリーの検証は過度なターゲットモデル遅延を引き起こす。
本稿では,拡散限界を経路条件付き受入推定値に変換するターゲット対応プレフィックス選択法TAPSを提案する。
論文 参考訳(メタデータ) (2026-05-30T02:39:40Z) - SpecDiff-2: Scaling Diffusion Drafter Alignment For Faster Speculative Decoding [48.96349422252313]
投機的復号化は,Large Language Model (LLM)推論の高速化のための標準手法となっている。
自動回帰デコーディングの遅延を回避し、印象的なスピードアップを実現するために、損失のないドラフト検証手順を利用する。
本稿では,これら2つのボトルネックに共同で対処する新しいフレームワークであるSpecDiff-2を提案する。
論文 参考訳(メタデータ) (2025-11-01T16:12:56Z) - DiffGRM: Diffusion-based Generative Recommendation Model [63.35379395455103]
ジェネレーティブレコメンデーション(GR)は、トークン化器を介して各項目をn桁のセマンティックID(SID)として表現する新興パラダイムである。
自己回帰デコーダをマスク付き離散拡散モデル(MDM)に置き換える拡散ベースGRモデルDiffGRMを提案する。
実験では、複数のデータセットに対する強力な生成的および差別的推奨ベースラインよりも一貫した利得を示す。
論文 参考訳(メタデータ) (2025-10-21T03:23:32Z) - Finish First, Perfect Later: Test-Time Token-Level Cross-Validation for Diffusion Large Language Models [47.5976588836299]
拡散大言語モデル(dLLM)は、並列デコーディングの高速化や双方向コンテキストモデリングといった利点を提供する。
離散dLLMにおけるバニラデコーディング戦略は、重要な制限に悩まされる。トークンが受け入れられると、後続のステップで修正することはできない。
予測トークン間のクロスバリデーションを利用するトレーニングフリーなデコーディング戦略であるToleratorを提案する。
論文 参考訳(メタデータ) (2025-10-06T17:56:46Z) - DiffuSpec: Unlocking Diffusion Language Models for Speculative Decoding [66.40658898418316]
DiffuSpecは、事前訓練された拡散言語モデル(DLM)を用いて、単一のフォワードパスでマルチトークンのドラフトを生成する、トレーニングフリーのドロップインフレームワークである。
ベンチマーク全体を通じて、DiffuSpecは最大3倍のウォールクロックスピードアップを達成し、投機的復号化のための自己回帰型ドラフトラの堅牢な代替手段として拡散ベースのドラフトを確立する。
論文 参考訳(メタデータ) (2025-09-28T07:00:15Z) - Pipeline Parallelism is All You Need for Optimized Early-Exit Based Self-Speculative Decoding [73.67253077506672]
大規模言語モデル(LLM)は、優れた生成品質を提供するが、非常に高い推論コストをもたらす。
早期排他的自己投機的復号法(EESD)がこのコストを軽減するために登場した。
ドラフトと検証作業を完全にパイプライン化するパイプライン・パラレル自己スペクティブ・デコーディング(PPSD)を提案する。
論文 参考訳(メタデータ) (2025-09-19T04:51:41Z) - Think Before You Accept: Semantic Reflective Verification for Faster Speculative Decoding [48.52389201779425]
投機的復号化は、軽量モデルを使用して複数のドラフトトークンを生成し、それらを並列に検証することで推論を加速する。
既存の検証手法は、意味的正確性を見越しながら、分布の整合性に大きく依存している。
我々は,学習自由でセマンティックなアプローチであるリフレクティブ検証を提案し,正確性と効率のトレードオフを改善する。
論文 参考訳(メタデータ) (2025-05-24T10:26:27Z) - Traversal Verification for Speculative Tree Decoding [15.720388162422978]
投機的復号化は、大きな言語モデルを加速するための有望なアプローチである。
本稿では,新しい投機的復号化アルゴリズムであるトラバーサル検証を紹介する。
提案手法は,既存手法よりも受け入れ長とスループットを継続的に向上することを示す。
論文 参考訳(メタデータ) (2025-05-18T12:51:55Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。