論文の概要: Orchestrating Dual-Boundaries: An Arithmetic Intensity Inspired Acceleration Framework for Diffusion Language Models
- arxiv url: http://arxiv.org/abs/2511.21759v1
- Date: Mon, 24 Nov 2025 13:36:54 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-12-01 19:47:55.217149
- Title: Orchestrating Dual-Boundaries: An Arithmetic Intensity Inspired Acceleration Framework for Diffusion Language Models
- Title(参考訳): 二重境界のオーケストレーション: 拡散言語モデルのための算術的強度にインスパイアされた加速フレームワーク
- Authors: Linye Wei, Wenjue Chen, Pingzhi Tang, Xiaotian Guo, Le Ye, Runsheng Wang, Meng Li,
- Abstract要約: ODB-dLLMはdLLM推論を加速するために二重境界を編成するフレームワークである。
我々は,ODB-dLLMがベースラインdLLMとFast-dLLMで46-162xと2.63-6.30xの高速化を達成したことを示す。
- 参考スコア(独自算出の注目度): 8.516574616235427
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Diffusion-based large language models (dLLMs) have recently gained significant attention for their exceptional performance and inherent potential for parallel decoding. Existing frameworks further enhance its inference efficiency by enabling KV caching. However, its bidirectional attention mechanism necessitates periodic cache refreshes that interleave prefill and decoding phases, both contributing substantial inference cost and constraining achievable speedup. Inspired by the heterogeneous arithmetic intensity of the prefill and decoding phases, we propose ODB-dLLM, a framework that orchestrates dual-boundaries to accelerate dLLM inference. In the prefill phase, we find that the predefined fixed response length introduces heavy yet redundant computational overhead, which affects efficiency. To alleviate this, ODB-dLLM incorporates an adaptive length prediction mechanism that progressively reduces prefill overhead and unnecessary computation. In the decoding phase, we analyze the computational characteristics of dLLMs and propose a dLLM-specific jump-share speculative decoding method to enhance efficiency by reducing the number of decoding iterations. Experimental results demonstrate that ODB-dLLM achieves 46-162x and 2.63-6.30x speedups over the baseline dLLM and Fast-dLLM, respectively, while simultaneously mitigating the accuracy degradation in existing acceleration frameworks.
- Abstract(参考訳): 拡散に基づく大規模言語モデル (dLLMs) は、最近、並列デコーディングの例外的な性能と本質的な可能性について大きな注目を集めている。
既存のフレームワークは、KVキャッシュを有効にすることで、推論効率をさらに向上する。
しかし、その双方向アテンション機構は、プリフィルとデコードフェーズをインターリーブする周期的なキャッシュリフレッシュを必要とし、かなりの推論コストと達成可能なスピードアップに寄与する。
プリフィルと復号相の不均一な算術強度に着想を得て,dLLM推論を高速化するために二重境界を編成するフレームワークであるODB-dLLMを提案する。
プリフィルの段階では、事前定義された固定応答長は、効率に影響を及ぼす重いが冗長な計算オーバーヘッドをもたらす。
これを軽減するため、ODB-dLLMには適応長予測機構が組み込まれている。
復号段階では,dLLMの計算特性を解析し,復号回数を減らすことで効率を向上させるために,dLLM固有のジャンプシェア投機復号法を提案する。
ODB-dLLM はベースライン dLLM と Fast-dLLM で 46-162x と 2.63-6.30x の高速化を実現し,同時に既存のアクセラレーションフレームワークの精度劣化を軽減した。
関連論文リスト
- Fast-dLLM v2: Efficient Block-Diffusion LLM [64.38006546510337]
Fast-dLLM v2はブロック拡散言語モデルで、訓練済みのARモデルをdLLMに適応して並列テキストを生成する。
これは、Dream(580Bトークン)のようなフルアテンション拡散LDMと比較して、トレーニングデータの500倍の減少を示す。
論文 参考訳(メタデータ) (2025-09-30T14:40:18Z) - Spiffy: Multiplying Diffusion LLM Acceleration via Lossless Speculative Decoding [40.96405124314983]
拡散LDM (dLLMs) は、最近自己回帰LDM (AR-LLMs) の強力な代替品として登場した。
現在利用可能なオープンソースdLLMは、多くの場合、より低いレートで生成される。
本稿では,dLLM推論を$mathbf2.8-3.1times$で高速化し,モデルの出力分布を確実に保存する投機的復号アルゴリズムであるSpiffyを提案する。
論文 参考訳(メタデータ) (2025-09-22T17:58:21Z) - Sparse-dLLM: Accelerating Diffusion LLMs with Dynamic Cache Eviction [72.27673320976933]
Diffusion Large Language Models (dLLMs) は推論と並列デコードにおけるブレークスルーを可能にする。
現在のキャッシュ技術は、フルレイヤ状態を保存することでデコーディングを加速するが、メモリ使用量を大幅に増加させる。
Sparse-dLLMは、動的キャッシュ消去とスパースアテンションを統合した最初のトレーニングフリーフレームワークである。
論文 参考訳(メタデータ) (2025-08-04T16:14:03Z) - dLLM-Cache: Accelerating Diffusion Large Language Models with Adaptive Caching [27.114862565164145]
拡散に基づく大規模言語モデルは、反復的にマスキングされたセグメントによってテキストを生成する。
dLLMは高い推論遅延に悩まされる。
従来のARMアクセラレーション技術は、dLLMと互換性がない。
トレーニング不要な適応型キャッシュフレームワークであるdLLM-Cacheを提案する。
論文 参考訳(メタデータ) (2025-05-17T15:50:46Z) - Speculative Diffusion Decoding: Accelerating Language Generation through Diffusion [55.0194604505437]
投機的復号化は,大規模言語モデル推論を高速化する手法として広く採用されている。
本稿では,離散拡散モデルを用いてドラフトシーケンスを生成する投機的復号法を提案する。
論文 参考訳(メタデータ) (2024-08-10T21:24:25Z) - Bifurcated Attention: Accelerating Massively Parallel Decoding with Shared Prefixes in LLMs [39.16152482491236]
Bifurcated attentionは、共有コンテキストバッチデコードシナリオにおける言語モデル推論を強化するために設計された手法である。
提案手法は,高バッチサイズおよび拡張コンテキスト長のレイテンシに寄与する重要な要因である冗長メモリIOコストの課題に対処する。
論文 参考訳(メタデータ) (2024-03-13T16:30:57Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。