論文の概要: Orchestrating Dual-Boundaries: An Arithmetic Intensity Inspired Acceleration Framework for Diffusion Language Models
- arxiv url: http://arxiv.org/abs/2511.21759v1
- Date: Mon, 24 Nov 2025 13:36:54 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-12-01 19:47:55.217149
- Title: Orchestrating Dual-Boundaries: An Arithmetic Intensity Inspired Acceleration Framework for Diffusion Language Models
- Title(参考訳): 二重境界のオーケストレーション: 拡散言語モデルのための算術的強度にインスパイアされた加速フレームワーク
- Authors: Linye Wei, Wenjue Chen, Pingzhi Tang, Xiaotian Guo, Le Ye, Runsheng Wang, Meng Li,
- Abstract要約: ODB-dLLMはdLLM推論を加速するために二重境界を編成するフレームワークである。
我々は,ODB-dLLMがベースラインdLLMとFast-dLLMで46-162xと2.63-6.30xの高速化を達成したことを示す。
- 参考スコア(独自算出の注目度): 8.516574616235427
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Diffusion-based large language models (dLLMs) have recently gained significant attention for their exceptional performance and inherent potential for parallel decoding. Existing frameworks further enhance its inference efficiency by enabling KV caching. However, its bidirectional attention mechanism necessitates periodic cache refreshes that interleave prefill and decoding phases, both contributing substantial inference cost and constraining achievable speedup. Inspired by the heterogeneous arithmetic intensity of the prefill and decoding phases, we propose ODB-dLLM, a framework that orchestrates dual-boundaries to accelerate dLLM inference. In the prefill phase, we find that the predefined fixed response length introduces heavy yet redundant computational overhead, which affects efficiency. To alleviate this, ODB-dLLM incorporates an adaptive length prediction mechanism that progressively reduces prefill overhead and unnecessary computation. In the decoding phase, we analyze the computational characteristics of dLLMs and propose a dLLM-specific jump-share speculative decoding method to enhance efficiency by reducing the number of decoding iterations. Experimental results demonstrate that ODB-dLLM achieves 46-162x and 2.63-6.30x speedups over the baseline dLLM and Fast-dLLM, respectively, while simultaneously mitigating the accuracy degradation in existing acceleration frameworks.
- Abstract(参考訳): 拡散に基づく大規模言語モデル (dLLMs) は、最近、並列デコーディングの例外的な性能と本質的な可能性について大きな注目を集めている。
既存のフレームワークは、KVキャッシュを有効にすることで、推論効率をさらに向上する。
しかし、その双方向アテンション機構は、プリフィルとデコードフェーズをインターリーブする周期的なキャッシュリフレッシュを必要とし、かなりの推論コストと達成可能なスピードアップに寄与する。
プリフィルと復号相の不均一な算術強度に着想を得て,dLLM推論を高速化するために二重境界を編成するフレームワークであるODB-dLLMを提案する。
プリフィルの段階では、事前定義された固定応答長は、効率に影響を及ぼす重いが冗長な計算オーバーヘッドをもたらす。
これを軽減するため、ODB-dLLMには適応長予測機構が組み込まれている。
復号段階では,dLLMの計算特性を解析し,復号回数を減らすことで効率を向上させるために,dLLM固有のジャンプシェア投機復号法を提案する。
ODB-dLLM はベースライン dLLM と Fast-dLLM で 46-162x と 2.63-6.30x の高速化を実現し,同時に既存のアクセラレーションフレームワークの精度劣化を軽減した。
関連論文リスト
- Prism: Efficient Test-Time Scaling via Hierarchical Search and Self-Verification for Discrete Diffusion Language Models [96.0074341403456]
LLM推論を改善するための実用的な方法として、推論時計算が再導入されている。
テスト時間スケーリング(TTS)アルゴリズムの多くは、自動回帰デコーディングに依存している。
そこで我々は,dLLM のための効率的な TTS フレームワーク Prism を提案する。
論文 参考訳(メタデータ) (2026-02-02T09:14:51Z) - Streaming-dLLM: Accelerating Diffusion LLMs via Suffix Pruning and Dynamic Decoding [36.74241893088594]
拡散大言語モデル(dLLM)は、自然言語生成に魅力的なパラダイムを提供する。
最近の研究はKVキャッシュの再利用や復号化を通じて推論を加速しているが、ブロックワイド拡散プロセスにおける本質的な非効率性を見落としている。
本稿では,空間次元と時間次元の両方にわたって推論を合理化する学習自由フレームワークStreaming-dLLMを提案する。
論文 参考訳(メタデータ) (2026-01-25T17:36:04Z) - Fast-dLLM v2: Efficient Block-Diffusion LLM [64.38006546510337]
Fast-dLLM v2はブロック拡散言語モデルで、訓練済みのARモデルをdLLMに適応して並列テキストを生成する。
これは、Dream(580Bトークン)のようなフルアテンション拡散LDMと比較して、トレーニングデータの500倍の減少を示す。
論文 参考訳(メタデータ) (2025-09-30T14:40:18Z) - Spiffy: Multiplying Diffusion LLM Acceleration via Lossless Speculative Decoding [40.96405124314983]
拡散LDM (dLLMs) は、最近自己回帰LDM (AR-LLMs) の強力な代替品として登場した。
現在利用可能なオープンソースdLLMは、多くの場合、より低いレートで生成される。
本稿では,dLLM推論を$mathbf2.8-3.1times$で高速化し,モデルの出力分布を確実に保存する投機的復号アルゴリズムであるSpiffyを提案する。
論文 参考訳(メタデータ) (2025-09-22T17:58:21Z) - Sparse-dLLM: Accelerating Diffusion LLMs with Dynamic Cache Eviction [72.27673320976933]
Diffusion Large Language Models (dLLMs) は推論と並列デコードにおけるブレークスルーを可能にする。
現在のキャッシュ技術は、フルレイヤ状態を保存することでデコーディングを加速するが、メモリ使用量を大幅に増加させる。
Sparse-dLLMは、動的キャッシュ消去とスパースアテンションを統合した最初のトレーニングフリーフレームワークである。
論文 参考訳(メタデータ) (2025-08-04T16:14:03Z) - Wide-In, Narrow-Out: Revokable Decoding for Efficient and Effective DLLMs [57.69190972274813]
Diffusion Large Language Models (DLLM) は、自動回帰モデルの魅力的な代替品として登場した。
既存のDLLMは、高速な並列復号化によって性能が著しく低下する、厳しい品質と速度のトレードオフに悩まされている。
本稿では,DLLMの復号化を可能にするトレーニング不要復号アルゴリズムであるWide-In, Narrow-Out (WINO)を紹介する。
論文 参考訳(メタデータ) (2025-07-24T16:51:33Z) - dLLM-Cache: Accelerating Diffusion Large Language Models with Adaptive Caching [27.114862565164145]
拡散に基づく大規模言語モデルは、反復的にマスキングされたセグメントによってテキストを生成する。
dLLMは高い推論遅延に悩まされる。
従来のARMアクセラレーション技術は、dLLMと互換性がない。
トレーニング不要な適応型キャッシュフレームワークであるdLLM-Cacheを提案する。
論文 参考訳(メタデータ) (2025-05-17T15:50:46Z) - APB: Accelerating Distributed Long-Context Inference by Passing Compressed Context Blocks across GPUs [81.5049387116454]
我々は、効率的な長文推論フレームワークであるAPBを紹介する。
APBはプリフィル速度を高めるためにマルチホスト近似アテンションを使用する。
APBはFlashAttn、RingAttn、StarAttnと比較して最大9.2x、4.2x、1.6xの速度を実現している。
論文 参考訳(メタデータ) (2025-02-17T17:59:56Z) - Speculative Diffusion Decoding: Accelerating Language Generation through Diffusion [55.0194604505437]
投機的復号化は,大規模言語モデル推論を高速化する手法として広く採用されている。
本稿では,離散拡散モデルを用いてドラフトシーケンスを生成する投機的復号法を提案する。
論文 参考訳(メタデータ) (2024-08-10T21:24:25Z) - Bifurcated Attention: Accelerating Massively Parallel Decoding with Shared Prefixes in LLMs [39.16152482491236]
Bifurcated attentionは、共有コンテキストバッチデコードシナリオにおける言語モデル推論を強化するために設計された手法である。
提案手法は,高バッチサイズおよび拡張コンテキスト長のレイテンシに寄与する重要な要因である冗長メモリIOコストの課題に対処する。
論文 参考訳(メタデータ) (2024-03-13T16:30:57Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。