論文の概要: treaming-dLLM: Accelerating Diffusion LLMs via Suffix Pruning and Dynamic Decoding
- arxiv url: http://arxiv.org/abs/2601.17917v1
- Date: Sun, 25 Jan 2026 17:36:04 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-01-27 15:23:08.53449
- Title: treaming-dLLM: Accelerating Diffusion LLMs via Suffix Pruning and Dynamic Decoding
- Title(参考訳): treaming-dLLM:Suffix PruningとDynamic Decodingによる拡散LDMの高速化
- Authors: Zhongyu Xiao, Zhiwei Hao, Jianyuan Guo, Yong Luo, Jia Liu, Jie Xu, Han Hu,
- Abstract要約: 拡散大言語モデル(dLLM)は、自然言語生成に魅力的なパラダイムを提供する。
最近の研究はKVキャッシュの再利用や復号化を通じて推論を加速しているが、ブロックワイド拡散プロセスにおける本質的な非効率性を見落としている。
本稿では,空間次元と時間次元の両方にわたって推論を合理化する学習自由フレームワークStreaming-dLLMを提案する。
- 参考スコア(独自算出の注目度): 36.74241893088594
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Diffusion Large Language Models (dLLMs) offer a compelling paradigm for natural language generation, leveraging parallel decoding and bidirectional attention to achieve superior global coherence compared to autoregressive models. While recent works have accelerated inference via KV cache reuse or heuristic decoding, they overlook the intrinsic inefficiencies within the block-wise diffusion process. Specifically, they suffer from spatial redundancy by modeling informative-sparse suffix regions uniformly and temporal inefficiency by applying fixed denoising schedules across all the decoding process. To address this, we propose Streaming-dLLM, a training-free framework that streamlines inference across both spatial and temporal dimensions. Spatially, we introduce attenuation guided suffix modeling to approximate the full context by pruning redundant mask tokens. Temporally, we employ a dynamic confidence aware strategy with an early exit mechanism, allowing the model to skip unnecessary iterations for converged tokens. Extensive experiments show that Streaming-dLLM achieves up to 68.2X speedup while maintaining generation quality, highlighting its effectiveness in diffusion decoding. The code is available at https://github.com/xiaoshideta/Streaming-dLLM.
- Abstract(参考訳): 拡散大言語モデル(dLLM)は、並列デコーディングと双方向の注意を生かして、自己回帰モデルよりも優れたグローバルコヒーレンスを実現する、自然言語生成のための魅力的なパラダイムを提供する。
最近の研究はKVキャッシュの再利用やヒューリスティックな復号化を通じて推論を加速しているが、ブロックワイド拡散プロセスにおける本質的な非効率性を見落としている。
具体的には、すべての復号処理に固定された復号化スケジュールを適用することにより、一様かつ時間的不効率な情報スパース接尾辞領域をモデル化することにより、空間的冗長性に悩まされる。
これを解決するために,空間次元と時間次元の両方で推論を合理化するトレーニング不要のフレームワークStreaming-dLLMを提案する。
空間的に、冗長マスクトークンを抽出することにより、全コンテキストを近似するために減衰誘導接尾辞モデルを導入する。
時折、早期終了機構を備えた動的信頼度認識戦略を採用し、収束トークンに対する不要なイテレーションを省略できるようにします。
大規模な実験により、Streaming-dLLMは生成品質を維持しながら最大68.2倍の高速化を実現し、拡散復号化の有効性を強調した。
コードはhttps://github.com/xiaoshideta/Streaming-dLLMで公開されている。
関連論文リスト
- VidLaDA: Bidirectional Diffusion Large Language Models for Efficient Video Understanding [52.69880888587866]
VidDAは拡散言語モデルに基づくビデオLLMである。
大規模なビデオトークン上での拡散復号化のボトルネックに対処するためにMARS-Cacheを導入する。
実験によると、VidDAは拡散ベースラインを上回り、最先端の自己回帰モデルと競合する。
論文 参考訳(メタデータ) (2026-01-25T15:02:01Z) - Fast-dLLM v2: Efficient Block-Diffusion LLM [64.38006546510337]
Fast-dLLM v2はブロック拡散言語モデルで、訓練済みのARモデルをdLLMに適応して並列テキストを生成する。
これは、Dream(580Bトークン)のようなフルアテンション拡散LDMと比較して、トレーニングデータの500倍の減少を示す。
論文 参考訳(メタデータ) (2025-09-30T14:40:18Z) - Fast and Fluent Diffusion Language Models via Convolutional Decoding and Rejective Fine-tuning [23.58934174168992]
Autoregressive (AR)言語モデルでは、テキストを1つずつ生成することで、推論速度が制限される。
ハードセグメンテーションなしでデコードウインドウを狭める正規化法である畳み込み復号法(Conv)を提案する。
Rejecting Rule-based Fine-Tuning (R2FT)も導入しています。
論文 参考訳(メタデータ) (2025-09-18T17:48:21Z) - Sparse-dLLM: Accelerating Diffusion LLMs with Dynamic Cache Eviction [72.27673320976933]
Diffusion Large Language Models (dLLMs) は推論と並列デコードにおけるブレークスルーを可能にする。
現在のキャッシュ技術は、フルレイヤ状態を保存することでデコーディングを加速するが、メモリ使用量を大幅に増加させる。
Sparse-dLLMは、動的キャッシュ消去とスパースアテンションを統合した最初のトレーニングフリーフレームワークである。
論文 参考訳(メタデータ) (2025-08-04T16:14:03Z) - Fast-dLLM: Training-free Acceleration of Diffusion LLM by Enabling KV Cache and Parallel Decoding [51.711605076319216]
拡散に基づく大規模言語モデル (Diffusion LLM) は、並列復号機能を持つ非自己回帰テキスト生成を約束している。
本稿では,双方向拡散モデルに適したブロック単位で近似したKVキャッシュ機構を提案する。
本稿では,信頼しきい値を超えるトークンを選択的に復号し,依存関係違反を軽減し,生成品質を維持できる信頼度対応並列復号方式を提案する。
論文 参考訳(メタデータ) (2025-05-28T17:39:15Z) - FlashDLM: Accelerating Diffusion Language Model Inference via Efficient KV Caching and Guided Diffusion [22.207275433870937]
拡散言語モデルは並列トークン生成と本質的に双方向性を提供する。
最先端拡散モデル(ドリーム7B、LLaDA 8Bなど)は推論が遅い。
我々は,トークンアンマキングを監督するために,軽量な事前学習型自己回帰モデルを用いた学習自由度法であるガイドド拡散を導入する。
論文 参考訳(メタデータ) (2025-05-27T17:39:39Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。