論文の概要: Diffusion LLMs Can Do Faster-Than-AR Inference via Discrete Diffusion Forcing
- arxiv url: http://arxiv.org/abs/2508.09192v1
- Date: Fri, 08 Aug 2025 04:51:37 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-08-14 20:42:00.598132
- Title: Diffusion LLMs Can Do Faster-Than-AR Inference via Discrete Diffusion Forcing
- Title(参考訳): 拡散LDMは離散拡散強制によりより高速なタン-AR推論を行うことができる
- Authors: Xu Wang, Chenkai Xu, Yijie Jin, Jiachun Jin, Hao Zhang, Zhijie Deng,
- Abstract要約: Diffusion Large Language Models (dLLMs) は、テキスト生成のための自動回帰(AR) LLM に代わる有望な代替品として登場した。
本稿では、離散拡散強制(D2F)と呼ばれる単純かつ効果的な戦略に基づいて、この障壁を破る。
このようにして、バニラdLLMは効率的な推論のためにAR拡散ハイブリッドパラダイムに再構成される。
- 参考スコア(独自算出の注目度): 14.22753953706955
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Diffusion Large Language Models (dLLMs) have emerged as a promising alternative to autoregressive (AR) LLMs for text generation, with the potential to decode multiple tokens in a single iteration. However, none of the existing open-source dLLMs have achieved superior inference speed over AR LLMs of similar size. This paper breaks this barrier based on a simple and effective strategy named discrete diffusion forcing (D2F). D2F equips dLLMs with two key capabilities: (1) block-wise autoregressive generation to enable KV cache utilization; (2) prediction of following tokens without requiring completion of prior blocks for inter-block parallel decoding. In this way, the vanilla dLLMs are refurbished into an AR-diffusion hybrid paradigm for efficient inference. D2F can be implemented with an asymmetric distillation process based on pre-trained dLLMs. We further propose a pipelined parallel decoding algorithm, which enables a trade-off between efficiency and efficacy. Empirically, D2F dLLMs achieve more than $\mathbf{2.5\times}$ inference speed than LLaMA3 and Qwen2.5 on GSM8K. Compared to vanilla dLLMs like LLaDA and Dream, the acceleration can be more than $\mathbf{50\times}$ while maintaining comparable output quality. The code is available at https://github.com/zhijie-group/Discrete-Diffusion-Forcing.
- Abstract(参考訳): Diffusion Large Language Models (dLLMs) は、テキスト生成のための自動回帰(AR) LLMの代替として、単一のイテレーションで複数のトークンをデコードする可能性を持つ有望な選択肢として登場した。
しかし、既存のオープンソースdLLMは、同じ大きさのAR LLMよりも優れた推論速度を達成していない。
本稿では,離散拡散強制(D2F)と呼ばれるシンプルで効果的な戦略に基づいて,この障壁を破る。
D2Fは、(1)KVキャッシュの利用を可能にするブロックワイドの自己回帰生成、(2)ブロック間並列復号のための先行ブロックの完了を必要とせず、フォロートークンの予測という2つの重要な機能を持つ。
このようにして、バニラdLLMは効率的な推論のためのAR拡散ハイブリッドパラダイムに再構成される。
D2Fは、事前訓練されたdLLMに基づいて非対称蒸留法で実装することができる。
さらに、効率と効率のトレードオフを可能にするパイプライン並列復号アルゴリズムを提案する。
経験的に、D2F dLLMsはGSM8K上のLLaMA3やQwen2.5よりも$\mathbf{2.5\times}$推論速度が速い。
LLaDAやDreamのようなバニラdLLMと比較して、アクセラレーションは同等の出力品質を維持しながら$\mathbf{50\times}$以上になる。
コードはhttps://github.com/zhijie-group/Discrete-Diffusion-Forcing.comで公開されている。
関連論文リスト
- DiffuCoder: Understanding and Improving Masked Diffusion Models for Code Generation [68.19756761027351]
拡散大言語モデル(dLLM)は自己回帰(AR)モデルの魅力的な代替品である。
本研究は,それらの認知過程と強化学習手法について考察する。
我々の研究は、dLLM生成のメカニズムについて深い洞察を与え、効果的な拡散ネイティブなRLトレーニングフレームワークを提供します。
論文 参考訳(メタデータ) (2025-06-25T17:35:47Z) - Accelerating Diffusion LLMs via Adaptive Parallel Decoding [50.9948753314669]
並列にサンプリングされたトークンの数を動的に調整する新しい手法であるアダプティブ並列復号法(APD)を導入する。
APDは、ダウンストリームベンチマークで最小限の品質劣化を伴って、非常に高いスループットを提供する。
論文 参考訳(メタデータ) (2025-05-31T06:10:10Z) - Fast-dLLM: Training-free Acceleration of Diffusion LLM by Enabling KV Cache and Parallel Decoding [51.711605076319216]
拡散に基づく大規模言語モデル (Diffusion LLM) は、並列復号機能を持つ非自己回帰テキスト生成を約束している。
本稿では,双方向拡散モデルに適したブロック単位で近似したKVキャッシュ機構を提案する。
本稿では,信頼しきい値を超えるトークンを選択的に復号し,依存関係違反を軽減し,生成品質を維持できる信頼度対応並列復号方式を提案する。
論文 参考訳(メタデータ) (2025-05-28T17:39:15Z) - SWIFT: On-the-Fly Self-Speculative Decoding for LLM Inference Acceleration [10.970637831760136]
投機的復号法(SD)は,LLM推論を品質を損なうことなく高速化するためのパラダイムとして広く用いられている。
本稿では,LLMの中間層を適応的に選択して推論時にスキップする,オンザフライの自己投機的復号アルゴリズムであるSWIFTを紹介する。
実験により,SWIFTは生成したテキストの元の分布を保ちながら,1.3x-1.6x以上の高速化を実現することができることを示した。
論文 参考訳(メタデータ) (2024-10-09T14:15:30Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。