論文の概要: Fail Fast, Win Big: Rethinking the Drafting Strategy in Speculative Decoding via Diffusion LLMs
- arxiv url: http://arxiv.org/abs/2512.20573v1
- Date: Tue, 23 Dec 2025 18:16:58 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-12-24 19:17:49.96409
- Title: Fail Fast, Win Big: Rethinking the Drafting Strategy in Speculative Decoding via Diffusion LLMs
- Title(参考訳): 失敗、大勝:拡散LDMによる投機的デコーディングにおけるドラフト戦略の再考
- Authors: Rui Pan, Zhuofu Chen, Ravi Netravali,
- Abstract要約: 並列デコードから dLLM の速度は,コストのかかる拒絶のリスクを大幅に低下させることを示す。
本稿では,dLLMに基づく投機的復号化フレームワークFailFastを提案する。
- 参考スコア(独自算出の注目度): 8.881949061263784
- License: http://creativecommons.org/licenses/by-sa/4.0/
- Abstract: Diffusion Large Language Models (dLLMs) offer fast, parallel token generation, but their standalone use is plagued by an inherent efficiency-quality tradeoff. We show that, if carefully applied, the attributes of dLLMs can actually be a strength for drafters in speculative decoding with autoregressive (AR) verifiers. Our core insight is that dLLM's speed from parallel decoding drastically lowers the risk of costly rejections, providing a practical mechanism to effectively realize the (elusive) lengthy drafts that lead to large speedups with speculative decoding. We present FailFast, a dLLM-based speculative decoding framework that realizes this approach by dynamically adapting its speculation length. It "fails fast" by spending minimal compute in hard-to-speculate regions to shrink speculation latency and "wins big" by aggressively extending draft lengths in easier regions to reduce verification latency (in many cases, speculating and accepting 70 tokens at a time!). Without any fine-tuning, FailFast delivers lossless acceleration of AR LLMs and achieves up to 4.9$\times$ speedup over vanilla decoding, 1.7$\times$ over the best naive dLLM drafter, and 1.4$\times$ over EAGLE-3 across diverse models and workloads. We open-source FailFast at https://github.com/ruipeterpan/failfast.
- Abstract(参考訳): Diffusion Large Language Models (dLLMs) は高速で並列なトークン生成を提供するが、そのスタンドアロンの使用は本質的に効率のよいトレードオフに悩まされている。
慎重に適用すれば、dLLMsの属性は、自動回帰検証器(AR)を用いた投機的復号法において、実際にプロダクタの強みとなることが示される。
我々の中核的な洞察は、dLLMの並列デコードからの速度が、コストのかかる拒絶のリスクを大幅に減らし、投機的デコードによる大きなスピードアップにつながる(非常に長い)ドラフトを効果的に実現するための実践的なメカニズムを提供することである。
本稿では,dLLMに基づく投機的復号化フレームワークFailFastを提案する。
投機遅延を小さくするために最小限の計算に費やし、より容易なリージョンでドラフトの長さを積極的に延ばし、検証レイテンシを減らし(多くの場合、一度に70のトークンを投機して受け入れる!
微調整なしでは、FailFastはAR LLMのロスレスアクセラレーションを提供し、バニラデコーディングよりも4.9$\times$のスピードアップ、最高のネイティブなdLLMドラフトラで1.7$\times$、さまざまなモデルとワークロードで1$\times$ over EAGLE-3を実現している。
FailFastはhttps://github.com/ruipeterpan/failfast.comでオープンソース化しました。
関連論文リスト
- Mirror Speculative Decoding: Breaking the Serial Barrier in LLM Inference [11.957170239588535]
投機的復号化は、ドラフトモデルを使用して推測を加速する。
事前の方法は、ドラフトコストを部分的に削減するが、受け入れを低下させるか、スケーリングを制限するオーバーヘッドを導入する。
本稿では,遅延受容トレードオフを破る推論アルゴリズムであるMirror Speculative Decoding(Mirror-SD)を提案する。
論文 参考訳(メタデータ) (2025-10-15T05:22:57Z) - dParallel: Learnable Parallel Decoding for dLLMs [77.24184219948337]
拡散大言語モデル(dLLM)は並列トークン予測と低推論遅延を提供する。
既存のオープンソースモデルは、パフォーマンスを確保するためにトークン長のデコードステップをほとんど必要としています。
高速サンプリングのためにdLLMs固有の並列性を解き放つシンプルで効果的な方法であるdParallelを導入する。
論文 参考訳(メタデータ) (2025-09-30T16:32:52Z) - Spiffy: Multiplying Diffusion LLM Acceleration via Lossless Speculative Decoding [40.96405124314983]
拡散LDM (dLLMs) は、最近自己回帰LDM (AR-LLMs) の強力な代替品として登場した。
現在利用可能なオープンソースdLLMは、多くの場合、より低いレートで生成される。
本稿では,dLLM推論を$mathbf2.8-3.1times$で高速化し,モデルの出力分布を確実に保存する投機的復号アルゴリズムであるSpiffyを提案する。
論文 参考訳(メタデータ) (2025-09-22T17:58:21Z) - Wide-In, Narrow-Out: Revokable Decoding for Efficient and Effective DLLMs [57.69190972274813]
Diffusion Large Language Models (DLLM) は、自動回帰モデルの魅力的な代替品として登場した。
既存のDLLMは、高速な並列復号化によって性能が著しく低下する、厳しい品質と速度のトレードオフに悩まされている。
本稿では,DLLMの復号化を可能にするトレーニング不要復号アルゴリズムであるWide-In, Narrow-Out (WINO)を紹介する。
論文 参考訳(メタデータ) (2025-07-24T16:51:33Z) - R-Stitch: Dynamic Trajectory Stitching for Efficient Reasoning [80.104336426172]
CoT(Chain-of- Thought)は、大規模言語モデルの問題解決能力を高める。
CoTは長い自己回帰軌道のためにかなりの推論コストを発生させる。
トレーニング不要なハイブリッドデコーディングフレームワークであるR-Stitchを紹介する。
論文 参考訳(メタデータ) (2025-07-23T08:14:36Z) - Ouroboros: Generating Longer Drafts Phrase by Phrase for Faster Speculative Decoding [65.94521678103237]
投機的復号化(英: Speculative decoding)は、大規模言語モデルの生成プロセスを加速する広く使われている手法である。
我々は,草案作成プロセスの並列化のために,草案文を生成するOuroborosを紹介した。
ウロボロは投機的復号化で最大2.8倍、バニラ復号化で3.9倍のスピードアップを達成できる。
論文 参考訳(メタデータ) (2024-02-21T11:31:28Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。