論文の概要: Fast-dLLM v2: Efficient Block-Diffusion LLM
- arxiv url: http://arxiv.org/abs/2509.26328v1
- Date: Tue, 30 Sep 2025 14:40:18 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-10-01 14:45:00.168466
- Title: Fast-dLLM v2: Efficient Block-Diffusion LLM
- Title(参考訳): Fast-dLLM v2: 効率的なブロック拡散LDM
- Authors: Chengyue Wu, Hao Zhang, Shuchen Xue, Shizhe Diao, Yonggan Fu, Zhijian Liu, Pavlo Molchanov, Ping Luo, Song Han, Enze Xie,
- Abstract要約: Fast-dLLM v2はブロック拡散言語モデルで、訓練済みのARモデルをdLLMに適応して並列テキストを生成する。
これは、Dream(580Bトークン)のようなフルアテンション拡散LDMと比較して、トレーニングデータの500倍の減少を示す。
- 参考スコア(独自算出の注目度): 64.38006546510337
- License: http://creativecommons.org/licenses/by-nc-nd/4.0/
- Abstract: Autoregressive (AR) large language models (LLMs) have achieved remarkable performance across a wide range of natural language tasks, yet their inherent sequential decoding limits inference efficiency. In this work, we propose Fast-dLLM v2, a carefully designed block diffusion language model (dLLM) that efficiently adapts pretrained AR models into dLLMs for parallel text generation, requiring only approximately 1B tokens of fine-tuning. This represents a 500x reduction in training data compared to full-attention diffusion LLMs such as Dream (580B tokens), while preserving the original model's performance. Our approach introduces a novel training recipe that combines a block diffusion mechanism with a complementary attention mask, enabling blockwise bidirectional context modeling without sacrificing AR training objectives. To further accelerate decoding, we design a hierarchical caching mechanism: a block-level cache that stores historical context representations across blocks, and a sub-block cache that enables efficient parallel generation within partially decoded blocks. Coupled with our parallel decoding pipeline, Fast-dLLM v2 achieves up to 2.5x speedup over standard AR decoding without compromising generation quality. Extensive experiments across diverse benchmarks demonstrate that Fast-dLLM v2 matches or surpasses AR baselines in accuracy, while delivering state-of-the-art efficiency among dLLMs - marking a significant step toward the practical deployment of fast and accurate LLMs. Code and model will be publicly released.
- Abstract(参考訳): Autoregressive (AR) Large Language Model (LLM) は、様々な自然言語タスクにおいて顕著なパフォーマンスを達成しているが、その固有なシーケンシャルデコーディングは推論効率を制限している。
本研究では,事前学習したARモデルを並列テキスト生成のためにdLLMに効率よく適応させる,慎重に設計されたブロック拡散言語モデル(dLLM)であるFast-dLLM v2を提案する。
これは、Dream(580Bトークン)のようなフルアテンション拡散LDMと比較してトレーニングデータの500倍の削減であり、オリジナルのモデルのパフォーマンスを保っている。
提案手法では,ARトレーニング目標を犠牲にすることなく,ブロック拡散機構と補完的な注意マスクを組み合わせることによって,ブロックワイドな双方向コンテキストモデリングを可能にする新しいトレーニングレシピを提案する。
さらにデコーディングを高速化するために,ブロック間の歴史的コンテキスト表現を格納するブロックレベルキャッシュと,部分的にデコードされたブロック内で効率的な並列生成を可能にするサブブロックキャッシュという階層的なキャッシュ機構を設計する。
並列デコーディングパイプラインと組み合わせることで、Fast-dLLM v2は、生成品質を損なうことなく、標準的なARデコーディングよりも最大2.5倍のスピードアップを実現します。
さまざまなベンチマークにわたる大規模な実験によると、Fast-dLLM v2はARベースラインを精度で一致または超える一方で、dLLM間で最先端の効率を提供する。
コードとモデルは公開されます。
関連論文リスト
- Diffusion LLMs Can Do Faster-Than-AR Inference via Discrete Diffusion Forcing [14.22753953706955]
Diffusion Large Language Models (dLLMs) は、テキスト生成のための自動回帰(AR) LLM に代わる有望な代替品として登場した。
本稿では、離散拡散強制(D2F)と呼ばれる単純かつ効果的な戦略に基づいて、この障壁を破る。
このようにして、バニラdLLMは効率的な推論のためにAR拡散ハイブリッドパラダイムに再構成される。
論文 参考訳(メタデータ) (2025-08-08T04:51:37Z) - Sparse-dLLM: Accelerating Diffusion LLMs with Dynamic Cache Eviction [58.044803442346115]
Diffusion Large Language Models (dLLMs) は推論と並列デコードにおいてブレークスルーを実現するが、推論中に計算の複雑さやメモリオーバーヘッドに悩まされる。
Sparse-dLLMは、動的キャッシュ消去とスパースアテンションを統合した最初のトレーニングフリーフレームワークであり、遅延双方向スパースキャッシングを経由するスパースアテンションである。
論文 参考訳(メタデータ) (2025-08-04T16:14:03Z) - DiffuCoder: Understanding and Improving Masked Diffusion Models for Code Generation [68.19756761027351]
拡散大言語モデル(dLLM)は自己回帰(AR)モデルの魅力的な代替品である。
本研究は,それらの認知過程と強化学習手法について考察する。
我々の研究は、dLLM生成のメカニズムについて深い洞察を与え、効果的な拡散ネイティブなRLトレーニングフレームワークを提供します。
論文 参考訳(メタデータ) (2025-06-25T17:35:47Z) - Fast-dLLM: Training-free Acceleration of Diffusion LLM by Enabling KV Cache and Parallel Decoding [51.711605076319216]
拡散に基づく大規模言語モデル (Diffusion LLM) は、並列復号機能を持つ非自己回帰テキスト生成を約束している。
本稿では,双方向拡散モデルに適したブロック単位で近似したKVキャッシュ機構を提案する。
本稿では,信頼しきい値を超えるトークンを選択的に復号し,依存関係違反を軽減し,生成品質を維持できる信頼度対応並列復号方式を提案する。
論文 参考訳(メタデータ) (2025-05-28T17:39:15Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。