論文の概要: SparseD: Sparse Attention for Diffusion Language Models
- arxiv url: http://arxiv.org/abs/2509.24014v1
- Date: Sun, 28 Sep 2025 18:10:10 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-09-30 22:32:19.592201
- Title: SparseD: Sparse Attention for Diffusion Language Models
- Title(参考訳): SparseD:拡散言語モデルのためのスパースアテンション
- Authors: Zeqing Wang, Gongfan Fang, Xinyin Ma, Xingyi Yang, Xinchao Wang,
- Abstract要約: 拡散言語モデル(DLM)は自己回帰モデル(AR)に代わる有望な代替手段を提供する
既存のオープンソースDLMは、高い推論遅延に悩まされている。
DLMのための新しいスパースアテンション手法であるスパースDを提案する。
- 参考スコア(独自算出の注目度): 98.05780626106555
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: While diffusion language models (DLMs) offer a promising alternative to autoregressive models (ARs), existing open-source DLMs suffer from high inference latency. This bottleneck is mainly due to the attention's quadratic complexity with respect to context length in computing all query-key pairs. Intuitively, to reduce this complexity, a natural strategy is to restrict attention to sparse patterns that retain only the most relevant connections. Such approaches are well-established in ARs, where attention follows fixed and clearly defined sparse patterns. However, in DLMs, we observe distinct sparsity behaviors: (1) attention patterns vary across heads, (2) attention patterns in each head remain highly similar across denoising steps, and (3) early denoising steps are critical for generation. These findings render sparse attention methods designed for ARs largely incompatible with DLMs, as they fail to capture head-specific structures and risk degrading generation when applied in early denoising steps. To address these challenges, we propose SparseD, a novel sparse attention method for DLMs. Leveraging the observations, SparseD only requires pre-computing head-specific sparse patterns one time, and reuses them across all steps. This prevents recomputing sparse patterns at each denoising step. Meanwhile, SparseD uses full attention in the early steps, then switches to sparse attention later to maintain generation quality. Together, these establish SparseD as a practical and efficient solution for deploying DLMs in long-context applications. Experimental results demonstrate that SparseD achieves lossless acceleration, delivering up to $1.50\times$ speedup over FlashAttention at a 64k context length with 1,024 denoising steps.
- Abstract(参考訳): 拡散言語モデル(DLM)は自己回帰モデル(AR)に代わる有望な代替手段を提供するが、既存のオープンソースDLMは高い推論遅延に悩まされている。
このボトルネックは主に、全てのクエリキー対の計算におけるコンテキスト長に関する注意の二次的な複雑さに起因する。
直感的には、この複雑さを減らすために、最も関係のある接続のみを保持するスパースパターンに注意を向けることが自然な戦略である。
このようなアプローチはARにおいてよく確立されており、注意は固定的で明確に定義されたスパースパターンに従う。
しかし, DLMでは, 1) 頭部ごとに注意パターンが異なり, (2) 頭部の注意パターンは認知ステップ間で非常に類似しており, 3) 早期認知ステップは生成に不可欠である。
これらの知見は, 頭部特異的な構造とリスク劣化の発生を早期認知段階に適用した場合に捕捉できないため, DLMとほとんど相容れないAR向けに設計された疎度な注意法を示す。
これらの課題に対処するために,DLMの新しいスパースアテンション手法であるSparseDを提案する。
観察を活用すれば、SparseDは頭固有のスパースパターンを一度にプリ計算するだけで、すべてのステップで再利用できる。
これにより、各denoisingステップでスパースパターンの再計算が防止される。
一方、SparseDは初期の段階では十分に注意を払っており、その後、世代品質を維持するために注意をそろえるように切り替えている。
これらとともに、SparseDは、長期コンテキストアプリケーションにDLMをデプロイするための実用的で効率的なソリューションとして確立されている。
実験の結果、SparseDはロスレスアクセラレーションを実現し、最大$1.50\times$ FlashAttentionを64kのコンテキスト長で1024のデノベーションステップで高速化することを示した。
関連論文リスト
- Diffusion Language Models Know the Answer Before Decoding [56.96815863705218]
拡散言語モデル (DLM) は自己回帰的アプローチの代替として登場した。
我々の研究は、DLMの早期回答収束の見過ごされた特性を強調し、活用する。
Prophetは、早期コミット復号を可能にするトレーニングフリーの高速復号化パラダイムである。
論文 参考訳(メタデータ) (2025-08-27T15:40:25Z) - Sparse-dLLM: Accelerating Diffusion LLMs with Dynamic Cache Eviction [58.044803442346115]
Diffusion Large Language Models (dLLMs) は推論と並列デコードにおいてブレークスルーを実現するが、推論中に計算の複雑さやメモリオーバーヘッドに悩まされる。
Sparse-dLLMは、動的キャッシュ消去とスパースアテンションを統合した最初のトレーニングフリーフレームワークであり、遅延双方向スパースキャッシングを経由するスパースアテンションである。
論文 参考訳(メタデータ) (2025-08-04T16:14:03Z) - Beyond Fixed: Training-Free Variable-Length Denoising for Diffusion Large Language Models [74.15250326312179]
拡散大言語モデルは効率的な並列生成とグローバルモデリングを提供する。
DLLMの主流の応用は、静的に事前定義された生成長の必要性によって妨げられている。
DAEDALは,動的適応長拡張を可能にする新しい学習自由化戦略である。
論文 参考訳(メタデータ) (2025-08-01T17:56:07Z) - Accelerating Diffusion Language Model Inference via Efficient KV Caching and Guided Diffusion [16.99620863197586]
拡散言語モデルは並列トークン生成と本質的に双方向性を提供する。
最先端拡散モデル(ドリーム7B、LLaDA 8Bなど)は推論が遅い。
我々は,トークンアンマキングを監督するために,軽量な事前学習型自己回帰モデルを用いた学習自由度法であるガイドド拡散を導入する。
拡散言語モデルが初めて、広く採用されている自己回帰モデルと同等かつ高速なレイテンシを実現する。
論文 参考訳(メタデータ) (2025-05-27T17:39:39Z) - Training-free and Adaptive Sparse Attention for Efficient Long Video Generation [31.615453637053793]
Diffusion Transformers (DiTs) による高忠実度長ビデオの生成は、しばしば大きな遅延によって妨げられる。
本稿では,最初の動的パターンとオンライン精密検索スパースアテンション手法であるAdaSpaを提案する。
AdaSpaは適応的なプラグアンドプレイソリューションとして実装されており、既存のDiTとシームレスに統合することができる。
論文 参考訳(メタデータ) (2025-02-28T14:11:20Z) - SampleAttention: Near-Lossless Acceleration of Long Context LLM Inference with Adaptive Structured Sparse Attention [53.4441894198495]
大きな言語モデル(LLM)は、非常に長いコンテキストウィンドウをサポートするようになった。
バニラの注意の二次的な複雑さは、TTFT(Time-to-First-Token)レイテンシを著しく長くする。
適応型構造とほぼロスレスなスパースアテンションであるSampleAttentionを提案する。
論文 参考訳(メタデータ) (2024-06-17T11:05:15Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。