論文の概要: DFlash: Block Diffusion for Flash Speculative Decoding
- arxiv url: http://arxiv.org/abs/2602.06036v1
- Date: Thu, 05 Feb 2026 18:59:30 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-02-06 18:49:09.154684
- Title: DFlash: Block Diffusion for Flash Speculative Decoding
- Title(参考訳): DFlash:Flashの投機的デコードのためのブロック拡散
- Authors: Jian Chen, Yesheng Liang, Zhijian Liu,
- Abstract要約: 自己回帰型大規模言語モデル(LLM)は高い性能を提供するが、本質的にシーケンシャルなデコーディングを必要とする。
本稿では,並列起草のための軽量ブロック拡散モデルを用いた投機的復号化フレームワークであるDFlashを紹介する。
- 参考スコア(独自算出の注目度): 11.98141750480807
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Autoregressive large language models (LLMs) deliver strong performance but require inherently sequential decoding, leading to high inference latency and poor GPU utilization. Speculative decoding mitigates this bottleneck by using a fast draft model whose outputs are verified in parallel by the target LLM; however, existing methods still rely on autoregressive drafting, which remains sequential and limits practical speedups. Diffusion LLMs offer a promising alternative by enabling parallel generation, but current diffusion models typically underperform compared with autoregressive models. In this paper, we introduce DFlash, a speculative decoding framework that employs a lightweight block diffusion model for parallel drafting. By generating draft tokens in a single forward pass and conditioning the draft model on context features extracted from the target model, DFlash enables efficient drafting with high-quality outputs and higher acceptance rates. Experiments show that DFlash achieves over 6x lossless acceleration across a range of models and tasks, delivering up to 2.5x higher speedup than the state-of-the-art speculative decoding method EAGLE-3.
- Abstract(参考訳): 自己回帰型大規模言語モデル(LLM)は、強力なパフォーマンスを提供するが、本質的にシーケンシャルなデコードを必要とするため、推論レイテンシが高く、GPU使用率が低い。
投機的復号化は、目標LLMによって出力が並列に検証される高速なドラフトモデルを使用することで、このボトルネックを緩和するが、既存の手法では、逐次的かつ実用的なスピードアップを制限する自己回帰的起草に依存している。
拡散LDMは、並列生成を可能にすることで有望な代替手段を提供するが、現在の拡散モデルは、自己回帰モデルと比較すると、典型的には性能が劣る。
本稿では,並列起草のための軽量ブロック拡散モデルを用いた投機的復号化フレームワークであるDFlashを紹介する。
単一のフォワードパスでドラフトトークンを生成し、ターゲットモデルから抽出したコンテキスト特徴に基づいてドラフトモデルを条件付けすることにより、DFlashは高品質な出力と高い受け入れ率で効率的なドラフトを可能にする。
実験の結果、DFlashは様々なモデルやタスクで6倍のロスレス加速を実現し、最先端の投機的復号法であるEAGLE-3の2.5倍の高速化を実現している。
関連論文リスト
- Fast-dLLM v2: Efficient Block-Diffusion LLM [64.38006546510337]
Fast-dLLM v2はブロック拡散言語モデルで、訓練済みのARモデルをdLLMに適応して並列テキストを生成する。
これは、Dream(580Bトークン)のようなフルアテンション拡散LDMと比較して、トレーニングデータの500倍の減少を示す。
論文 参考訳(メタデータ) (2025-09-30T14:40:18Z) - Accelerating Diffusion LLMs via Adaptive Parallel Decoding [60.407727995313074]
並列にサンプリングされたトークンの数を動的に調整する新しい手法であるアダプティブ並列復号法(APD)を導入する。
APDは、ダウンストリームベンチマークで最小限の品質劣化を伴って、非常に高いスループットを提供する。
論文 参考訳(メタデータ) (2025-05-31T06:10:10Z) - Fast-dLLM: Training-free Acceleration of Diffusion LLM by Enabling KV Cache and Parallel Decoding [51.711605076319216]
拡散に基づく大規模言語モデル (Diffusion LLM) は、並列復号機能を持つ非自己回帰テキスト生成を約束している。
本稿では,双方向拡散モデルに適したブロック単位で近似したKVキャッシュ機構を提案する。
本稿では,信頼しきい値を超えるトークンを選択的に復号し,依存関係違反を軽減し,生成品質を維持できる信頼度対応並列復号方式を提案する。
論文 参考訳(メタデータ) (2025-05-28T17:39:15Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。