論文の概要: Domino: Decoupling Causal Modeling from Autoregressive Drafting in Speculative Decoding
- arxiv url: http://arxiv.org/abs/2605.29707v1
- Date: Thu, 28 May 2026 10:07:44 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-05-30 02:45:56.16944
- Title: Domino: Decoupling Causal Modeling from Autoregressive Drafting in Speculative Decoding
- Title(参考訳): Domino: 投機的デコーディングにおける自己回帰図面からの因果モデリングの分離
- Authors: Jianuo Huang, Yaojie Zhang, Qituan Zhang, Hao Lin, Hanlin Xu, Linfeng Zhang,
- Abstract要約: 我々は、自動回帰的なドラフト実行から因果依存性モデリングを分離する投機的デコーディングフレームワークであるDominoを提案する。
DominoはTransformersバックエンドで(5.49タイム)エンドツーエンドのスピードアップ、SGサービスで(5.8タイム)スループットのスピードアップを実現している。
- 参考スコア(独自算出の注目度): 8.958876608374174
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Speculative decoding accelerates LLM inference by drafting multiple tokens and verifying them in parallel with the target model. However, its practical speedup is constrained by the trade-off between draft quality and drafting cost: autoregressive drafters model causal dependencies among draft tokens but incur sequential overhead, while parallel drafters reduce drafting cost but weaken intra-block dependency modeling. In this paper, we propose Domino, a speculative decoding framework that decouples causal dependency modeling from expensive autoregressive draft execution. Domino first uses a parallel draft backbone to produce preliminary draft distributions for the entire block, and then applies a lightweight Domino head to refine them with prefix-dependent causal information. To stabilize teacher-forced causal encoding, we further introduce a base-anchored training curriculum that first strengthens the parallel backbone and then gradually shifts optimization toward the causally corrected final distribution. Experiments on Qwen3 models show that Domino achieves up to \(5.49\times\) end-to-end speedup under the Transformers backend and up to \(5.8\times\) throughput speedup under SGLang serving.
- Abstract(参考訳): 投機的復号化は、複数のトークンを起草し、ターゲットモデルと並列に検証することにより、LSM推論を加速させる。
自動回帰型ドラフトアは、ドラフトトークン間の因果依存性をモデル化するが、シーケンシャルなオーバーヘッドを発生させる一方、並列型ドラフトアはドラフトコストを削減し、ブロック内の依存性モデリングを弱める。
本稿では、高価な自己回帰的ドラフト実行から因果依存性モデリングを分離する投機的デコーディングフレームワークであるDominoを提案する。
Dominoはまず並列のドラフトバックボーンを使用してブロック全体のドラフト分布を生成し、続いて軽量のDominoヘッドを使用してプレフィックス依存の因果情報でそれらを洗練する。
さらに,教師力による因果的符号化を安定化させるために,まず並列バックボーンを強化し,その後徐々に最適化を因果修正最終分布にシフトさせるベースアンコールトレーニングカリキュラムを導入する。
Qwen3 モデルの実験では、Domino は Transformers バックエンドで最大 \(5.49\times\) のエンドツーエンドのスピードアップ、SGLang サービスで最大 \(5.8\times\) のスループットアップを実現している。
関連論文リスト
- Fast Inference via Hierarchical Speculative Decoding [65.40448210801763]
階層的投機的復号法(HSD)は,各モデルがトークンを提案し,次に大きなモデルが1つのフォワードパスで検証する階層構造に,ドラフトモデルを積み重ねるアルゴリズムである。
HSDは最高の単軸ベースラインよりも1.2倍のスピードアップを達成している。
論文 参考訳(メタデータ) (2025-10-22T15:56:19Z) - DiffuSpec: Unlocking Diffusion Language Models for Speculative Decoding [66.40658898418316]
DiffuSpecは、事前訓練された拡散言語モデル(DLM)を用いて、単一のフォワードパスでマルチトークンのドラフトを生成する、トレーニングフリーのドロップインフレームワークである。
ベンチマーク全体を通じて、DiffuSpecは最大3倍のウォールクロックスピードアップを達成し、投機的復号化のための自己回帰型ドラフトラの堅牢な代替手段として拡散ベースのドラフトを確立する。
論文 参考訳(メタデータ) (2025-09-28T07:00:15Z) - CARD: A Cache-Assisted Parallel Speculative Decoding Framework via Query-and-Correct Paradigm for Accelerating LLM Inference [14.527697328189362]
本稿では,新しいクエリ・アンド・コレクト・パラダイムを用いたCARDという投機的復号化フレームワークを提案する。
提案手法は,提案手法を検証から切り離し,詳細な調整を伴わずに効果的にドラフトモデルの効率を向上する。
CARDは既存の最先端の手法よりも優れており、バニラ自己回帰復号よりも最大4.83倍の高速化を実現している。
論文 参考訳(メタデータ) (2025-08-06T14:02:10Z) - DuoDecoding: Hardware-aware Heterogeneous Speculative Decoding with Dynamic Multi-Sequence Drafting [59.57151419673759]
投機的復号化は、出力分布の忠実さを維持しながら生成遅延を低減するドラフト・then-verifyフレームワークを提供する。
我々は、CPUとGPUにそれぞれドラフトモデルとターゲットモデルを戦略的にデプロイする新しいアプローチであるDuoDecodingを提案する。
本手法は,アイドル時間を最小限に抑えるため,ハードウェア対応の最適ドラフト予算を組み込んで,動的マルチシーケンスドラフトを用いて,ドラフト品質を向上させる。
論文 参考訳(メタデータ) (2025-03-02T08:27:48Z) - GRIFFIN: Effective Token Alignment for Faster Speculative Decoding [33.26750782762635]
GRIFFINは、トークン指向のトレーニング戦略とトークン指向のドラフトモデルを組み込んだ、新しいフレームワークである。
LLaMA, Vicuna, Qwen, Mixtral モデルを用いた実験では, GRIFFIN が平均受容長 8% 以上, スピードアップ比 7% 以上を達成している。
論文 参考訳(メタデータ) (2025-02-16T07:06:00Z) - Speculative Decoding with CTC-based Draft Model for LLM Inference Acceleration [14.011702040133848]
ドラフトフェーズにおけるドラフトトークン間の相関性を強化するCTCベースのドラフトモデルを提案する。
実験結果から,提案手法は強いベースラインに比べて高い受理率と高速な推論速度が得られることがわかった。
論文 参考訳(メタデータ) (2024-11-25T14:10:21Z) - PEARL: Parallel Speculative Decoding with Adaptive Draft Length [12.166703341906242]
本稿では,適応dRaft Length(PEARL)を用いた投機的復号化(Parallel speculative decoding)を促進するための,概念的にシンプルでフレキシブルで汎用的なフレームワークを提案する。
PEARLは、ドラフトフェーズ中に事前に最初のドラフトトークンを検証し、検証フェーズ中により多くのドラフトトークンを生成するための後検証を提案する。
各種テキスト生成ベンチマークの実験では、PEARLの有効性が実証されており、自動回帰復号法とバニラ投機復号法と比較して、パフォーマンスが4.43$times$と1.50$times$に向上した。
論文 参考訳(メタデータ) (2024-08-13T08:32:06Z) - Ouroboros: Generating Longer Drafts Phrase by Phrase for Faster Speculative Decoding [65.94521678103237]
投機的復号化(英: Speculative decoding)は、大規模言語モデルの生成プロセスを加速する広く使われている手法である。
我々は,草案作成プロセスの並列化のために,草案文を生成するOuroborosを紹介した。
ウロボロは投機的復号化で最大2.8倍、バニラ復号化で3.9倍のスピードアップを達成できる。
論文 参考訳(メタデータ) (2024-02-21T11:31:28Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。