論文の概要: DART: Diffusion-Inspired Speculative Decoding for Fast LLM Inference
- arxiv url: http://arxiv.org/abs/2601.19278v1
- Date: Tue, 27 Jan 2026 07:04:24 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-01-28 15:26:51.217514
- Title: DART: Diffusion-Inspired Speculative Decoding for Fast LLM Inference
- Title(参考訳): DART:高速LLM推論のための拡散インスパイアされた投機的デコーディング
- Authors: Fuliang Liu, Xue Li, Ketai Zhao, Yinxi Gao, Ziyan Zhou, Zhonghui Zhang, Zhibin Wang, Wanchun Dou, Sheng Zhong, Chen Tian,
- Abstract要約: DARTは大規模言語モデル(dLLM)の投機的復号化フレームワークである
並列生成を活用して、ドラフトのレイテンシを低減する。
複数のデータセットにまたがる2.03x--3.44xウォールクロックのスピードアップを実現している。
- 参考スコア(独自算出の注目度): 27.204773545145326
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Speculative decoding is an effective and lossless approach for accelerating LLM inference. However, existing widely adopted model-based draft designs, such as EAGLE3, improve accuracy at the cost of multi-step autoregressive inference, resulting in high drafting latency and ultimately rendering the drafting stage itself a performance bottleneck. Inspired by diffusion-based large language models (dLLMs), we propose DART, which leverages parallel generation to reduce drafting latency. DART predicts logits for multiple future masked positions in parallel within a single forward pass based on hidden states of the target model, thereby eliminating autoregressive rollouts in the draft model while preserving a lightweight design. Based on these parallel logit predictions, we further introduce an efficient tree pruning algorithm that constructs high-quality draft token trees with N-gram-enforced semantic continuity. DART substantially reduces draft-stage overhead while preserving high draft accuracy, leading to significantly improved end-to-end decoding speed. Experimental results demonstrate that DART achieves a 2.03x--3.44x wall-clock time speedup across multiple datasets, surpassing EAGLE3 by 30% on average and offering a practical speculative decoding framework. Code is released at https://github.com/fvliang/DART.
- Abstract(参考訳): 投機的復号化は、LLM推論を加速するための効果的でロスレスなアプローチである。
しかし、EAGLE3のような既存の広く採用されているモデルベースのドラフトデザインは、多段階の自動回帰推論のコストで精度を向上し、高いドラフト遅延が発生し、最終的にドラフトステージ自体がパフォーマンスボトルネックとなる。
拡散型大規模言語モデル (dLLMs) に着想を得て, DARTを提案する。
DARTは、ターゲットモデルの隠れ状態に基づいて、1つの前方パス内で複数の将来のマスキング位置のロジットを並列に予測し、軽量な設計を維持しながらドラフトモデルの自己回帰ロールアウトを除去する。
これらの並列ロジット予測に基づいて,N-gram強化セマンティック連続性を持つ高品質なドラフトトークンツリーを構築する,効率的なツリー刈り込みアルゴリズムを導入する。
DARTは、高いドラフト精度を維持しながら、ドラフトステージのオーバーヘッドを大幅に削減し、エンドツーエンドのデコード速度を大幅に改善した。
実験の結果、DARTは複数のデータセットで2.03x--3.44倍のウォールクロックタイムアップを実現し、平均でEAGLE3を30%超え、実用的な投機的デコーディングフレームワークを提供することが示された。
コードはhttps://github.com/fvliang/DART.comで公開されている。
関連論文リスト
- DEER: Draft with Diffusion, Verify with Autoregressive Models [33.19684425811274]
投機的復号法は自己回帰復号法の本質的な遅延を緩和する。
効率的な投機的復号化フレームワークであるDEERを紹介する。
実験によると、DEERは最大32個のトークンのドラフト受け入れ長に達する。
論文 参考訳(メタデータ) (2025-12-17T08:19:04Z) - SpecDiff-2: Scaling Diffusion Drafter Alignment For Faster Speculative Decoding [48.96349422252313]
投機的復号化は,Large Language Model (LLM)推論の高速化のための標準手法となっている。
自動回帰デコーディングの遅延を回避し、印象的なスピードアップを実現するために、損失のないドラフト検証手順を利用する。
本稿では,これら2つのボトルネックに共同で対処する新しいフレームワークであるSpecDiff-2を提案する。
論文 参考訳(メタデータ) (2025-11-01T16:12:56Z) - Fast Inference via Hierarchical Speculative Decoding [65.40448210801763]
階層的投機的復号法(HSD)は,各モデルがトークンを提案し,次に大きなモデルが1つのフォワードパスで検証する階層構造に,ドラフトモデルを積み重ねるアルゴリズムである。
HSDは最高の単軸ベースラインよりも1.2倍のスピードアップを達成している。
論文 参考訳(メタデータ) (2025-10-22T15:56:19Z) - DiffuSpec: Unlocking Diffusion Language Models for Speculative Decoding [66.40658898418316]
DiffuSpecは、事前訓練された拡散言語モデル(DLM)を用いて、単一のフォワードパスでマルチトークンのドラフトを生成する、トレーニングフリーのドロップインフレームワークである。
ベンチマーク全体を通じて、DiffuSpecは最大3倍のウォールクロックスピードアップを達成し、投機的復号化のための自己回帰型ドラフトラの堅牢な代替手段として拡散ベースのドラフトを確立する。
論文 参考訳(メタデータ) (2025-09-28T07:00:15Z) - FastEagle: Cascaded Drafting for Accelerating Speculative Decoding [6.482154864678126]
我々はFastEagleを紹介します。FastEagleは非自己回帰的なカスケードのドラフトで、ドラフト全体を1つのフォワードパスで出力します。
FastEagleは、競争力のある受け入れ動作を維持しながら、強力な自己回帰型ドラフトラに対して、ウォールタイムの大幅なスピードアップを提供する。
論文 参考訳(メタデータ) (2025-09-24T09:38:32Z) - DuoDecoding: Hardware-aware Heterogeneous Speculative Decoding with Dynamic Multi-Sequence Drafting [59.57151419673759]
投機的復号化は、出力分布の忠実さを維持しながら生成遅延を低減するドラフト・then-verifyフレームワークを提供する。
我々は、CPUとGPUにそれぞれドラフトモデルとターゲットモデルを戦略的にデプロイする新しいアプローチであるDuoDecodingを提案する。
本手法は,アイドル時間を最小限に抑えるため,ハードウェア対応の最適ドラフト予算を組み込んで,動的マルチシーケンスドラフトを用いて,ドラフト品質を向上させる。
論文 参考訳(メタデータ) (2025-03-02T08:27:48Z) - Falcon: Faster and Parallel Inference of Large Language Models through Enhanced Semi-Autoregressive Drafting and Custom-Designed Decoding Tree [7.438117410146904]
Falconは、ドラフト作成者の並列性と出力品質の両方を増強するために設計された革新的な投機的復号化フレームワークである。
FalconにはCoupled Sequential Glancing Distillation(英語版)技術が組み込まれている。
論文 参考訳(メタデータ) (2024-12-17T08:02:08Z) - Ouroboros: Generating Longer Drafts Phrase by Phrase for Faster Speculative Decoding [65.94521678103237]
投機的復号化(英: Speculative decoding)は、大規模言語モデルの生成プロセスを加速する広く使われている手法である。
我々は,草案作成プロセスの並列化のために,草案文を生成するOuroborosを紹介した。
ウロボロは投機的復号化で最大2.8倍、バニラ復号化で3.9倍のスピードアップを達成できる。
論文 参考訳(メタデータ) (2024-02-21T11:31:28Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。