論文の概要: DEER: Draft with Diffusion, Verify with Autoregressive Models
- arxiv url: http://arxiv.org/abs/2512.15176v1
- Date: Wed, 17 Dec 2025 08:19:04 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-12-18 17:06:26.896922
- Title: DEER: Draft with Diffusion, Verify with Autoregressive Models
- Title(参考訳): DEER: 拡散を伴うドラフト、自動回帰モデルによる検証
- Authors: Zicong Cheng, Guo-Wei Yang, Jia Li, Zhijie Deng, Meng-Hao Guo, Shi-Min Hu,
- Abstract要約: 投機的復号法は自己回帰復号法の本質的な遅延を緩和する。
効率的な投機的復号化フレームワークであるDEERを紹介する。
実験によると、DEERは最大32個のトークンのドラフト受け入れ長に達する。
- 参考スコア(独自算出の注目度): 33.19684425811274
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Efficiency, as a critical practical challenge for LLM-driven agentic and reasoning systems, is increasingly constrained by the inherent latency of autoregressive (AR) decoding. Speculative decoding mitigates this cost through a draft-verify scheme, yet existing approaches rely on AR draft models (a.k.a., drafters), which introduce two fundamental issues: (1) step-wise uncertainty accumulation leads to a progressive collapse of trust between the target model and the drafter, and (2) inherently sequential decoding of AR drafters. Together, these factors cause limited speedups. In this paper, we show that a diffusion large language model (dLLM) drafters can naturally overcome these issues through its fundamentally different probabilistic modeling and efficient parallel decoding strategy. Building on this insight, we introduce DEER, an efficient speculative decoding framework that drafts with diffusion and verifies with AR models. To enable high-quality drafting, DEER employs a two-stage training pipeline to align the dLLM-based drafters with the target AR model, and further adopts single-step decoding to generate long draft segments. Experiments show DEER reaches draft acceptance lengths of up to 32 tokens, far surpassing the 10 tokens achieved by EAGLE-3. Moreover, on HumanEval with Qwen3-30B-A3B, DEER attains a 5.54x speedup, while EAGLE-3 achieves only 2.41x. Code, model, demo, etc, will be available at https://czc726.github.io/DEER/
- Abstract(参考訳): LLM駆動のエージェントおよび推論システムにとって重要な実践的課題である効率性は、自己回帰(AR)デコーディングの固有の遅延によってますます制限される。
投機的復号化は、原案検証スキームを通じてこのコストを軽減させるが、既存のアプローチはARドラフトモデル(すなわち、ドラフト作成者)に依存しており、これは、(1)段階的に不確実な蓄積が目標モデルとドラフト作成者の間の信頼の段階的な崩壊を招き、(2)本質的にはARドラフト作成者のシーケンシャルな復号化をもたらす、という2つの根本的な問題をもたらす。
これらの要因が組み合わさって、スピードアップが制限される。
本稿では,拡散大言語モデル(dLLM)のドラフト作成者が,基本的に異なる確率的モデリングと効率的な並列復号戦略により,これらの問題を自然に克服できることを示す。
この知見に基づいて、拡散でドラフトを作成し、ARモデルで検証する効率的な投機的復号化フレームワークであるDEERを紹介する。
高品質なドラフトを可能にするため、DEERは2段階のトレーニングパイプラインを使用して、dLLMベースのドラフトをターゲットARモデルと整列させ、さらに1ステップのデコーディングを採用して長いドラフトセグメントを生成する。
実験によると、DEERは最大32個のトークンのドラフト受入長に達し、ERGLE-3で達成された10個のトークンをはるかに上回っている。
さらに、Qwen3-30B-A3BのHumanEvalでは、DEERは5.54倍のスピードアップを達成する一方、EAGLE-3は2.41倍しか達成できない。
コード、モデル、デモなどはhttps://czc726.github.io/DEER/で入手できる。
関連論文リスト
- TiDAR: Think in Diffusion, Talk in Autoregression [59.94106070312094]
TiDARは、Diffusionでトークン(Thinking)をドラフトし、最終的な出力(Talking)をAutoRegressivelyにサンプリングするシーケンスレベルのハイブリッドアーキテクチャである。
TiDARはARモデルと品質ギャップを埋める最初のアーキテクチャであり、毎秒4.71倍から5.91倍のトークンを提供する。
論文 参考訳(メタデータ) (2025-11-12T02:59:33Z) - Fast Inference via Hierarchical Speculative Decoding [65.40448210801763]
階層的投機的復号法(HSD)は,各モデルがトークンを提案し,次に大きなモデルが1つのフォワードパスで検証する階層構造に,ドラフトモデルを積み重ねるアルゴリズムである。
HSDは最高の単軸ベースラインよりも1.2倍のスピードアップを達成している。
論文 参考訳(メタデータ) (2025-10-22T15:56:19Z) - Every Step Counts: Decoding Trajectories as Authorship Fingerprints of dLLMs [63.82840470917859]
本稿では,dLLMの復号化機構をモデル属性の強力なツールとして利用できることを示す。
本稿では、デコードステップ間の構造的関係を捉え、モデル固有の振る舞いをよりよく明らかにする、DDM(Directed Decoding Map)と呼ばれる新しい情報抽出手法を提案する。
論文 参考訳(メタデータ) (2025-10-02T06:25:10Z) - DiffuSpec: Unlocking Diffusion Language Models for Speculative Decoding [66.40658898418316]
DiffuSpecは、事前訓練された拡散言語モデル(DLM)を用いて、単一のフォワードパスでマルチトークンのドラフトを生成する、トレーニングフリーのドロップインフレームワークである。
ベンチマーク全体を通じて、DiffuSpecは最大3倍のウォールクロックスピードアップを達成し、投機的復号化のための自己回帰型ドラフトラの堅牢な代替手段として拡散ベースのドラフトを確立する。
論文 参考訳(メタデータ) (2025-09-28T07:00:15Z) - EAGLE-2: Faster Inference of Language Models with Dynamic Draft Trees [25.703729145091483]
本稿では,コンテキスト認識型動的ドラフトツリーの新しい手法を提案する。
我々は,3つの大言語モデル(LLM)と6つのタスクについて広範囲に評価を行った。
論文 参考訳(メタデータ) (2024-06-24T17:59:11Z) - DistillSpec: Improving Speculative Decoding via Knowledge Distillation [70.61777015900272]
投機的復号(SD)は、複数のトークンを生成するためにより高速なドラフトモデルを使用することで、大きな言語モデル推論を加速する。
本稿では,SDを適用する前に,知識蒸留を用いて,ドラフトモデルとターゲットモデルとの整合性を向上するDistillSpecを提案する。
DistillSpecは標準SDよりも10~45%のスピードアップを実現しています。
論文 参考訳(メタデータ) (2023-10-12T16:21:04Z) - Online Speculative Decoding [34.987825705622555]
大規模言語モデルの推論を高速化するオンライン投機的復号法を導入する。
主なアイデアは、観測されたユーザクエリデータに対する(複数)ドラフトモデルを継続的に更新することである。
本稿では,知識蒸留に基づくオンライン投機的デコーディングのプロトタイプを開発し,合成データと実データの両方を用いて評価する。
論文 参考訳(メタデータ) (2023-10-11T04:03:42Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。