論文の概要: LoSA: Locality Aware Sparse Attention for Block-Wise Diffusion Language Models
- arxiv url: http://arxiv.org/abs/2604.12056v1
- Date: Mon, 13 Apr 2026 20:53:51 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-04-15 19:11:32.123528
- Title: LoSA: Locality Aware Sparse Attention for Block-Wise Diffusion Language Models
- Title(参考訳): LoSA: ブロック幅拡散言語モデルに対する局所性を考慮したスパースアテンション
- Authors: Haocheng Xi, Harman Singh, Yuezhou Hu, Coleman Hooper, Rishabh Tiwari, Aditya Tomar, Minjae Lee, Wonjun Kang, Michael Mahoney, Chenfeng Xu, Kurt Keutzer, Amir Gholami,
- Abstract要約: ブロックワイド拡散言語モデル(DLM)は任意の順序で複数のトークンを生成し、自動回帰復号パイプラインに代わる有望な代替手段を提供する。
異なるクエリが異なるプレフィックス位置を選択する場合、KVインフレーション問題により、DLM上では裸のスパースアテンションが失敗する。
キャッシュされたプレフィックスアテンション結果を安定したトークンに再利用し、アクティブトークンのみにスパースアテンションを適用するLOSA(Locality-aware Sparse Attention)を提案する。
- 参考スコア(独自算出の注目度): 49.93891888238178
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Block-wise diffusion language models (DLMs) generate multiple tokens in any order, offering a promising alternative to the autoregressive decoding pipeline. However, they still remain bottlenecked by memory-bound attention in long-context scenarios. Naive sparse attention fails on DLMs due to a KV Inflation problem, where different queries select different prefix positions, making the union of accessed KV pages large. To address this, we observe that between consecutive denoising steps, only a small fraction of active tokens exhibit significant hidden-state changes, while the majority of stable tokens remain nearly constant. Based on this insight, we propose LOSA (Locality-aware Sparse Attention), which reuses cached prefix-attention results for stable tokens and applies sparse attention only to active tokens. This substantially shrinks the number of KV indices that must be loaded, yielding both higher speedup and higher accuracy. Across multiple block-wise DLMs and benchmarks, LOSA preserves near-dense accuracy while significantly improving efficiency, achieving up to +9 points in average accuracy at aggressive sparsity levels while maintaining 1.54x lower attention density. It also achieves up to 4.14x attention speedup on RTX A6000 GPUs, demonstrating the effectiveness of the proposed method.
- Abstract(参考訳): ブロックワイド拡散言語モデル(DLM)は任意の順序で複数のトークンを生成し、自動回帰復号パイプラインに代わる有望な代替手段を提供する。
しかし、長いコンテキストのシナリオでは、メモリバウンドな注意が依然としてボトルネックになっている。
KVインフレーション問題では、異なるクエリが異なるプレフィックス位置を選択し、アクセスされたKVページの結合が大きくなる。
この問題に対処するために, 安定なトークンの大部分がほぼ一定でありながら, 隠れ状態に大きな変化が現れるのは, 少数のアクティブトークンのみである。
この知見に基づいて、キャッシュされたプレフィックスアテンション結果を安定したトークンに再利用し、アクティブトークンのみにスパースアテンションを適用するLOSA(Locality-aware Sparse Attention)を提案する。
これにより、ロードしなければならないKV指標の数が大幅に減少し、より高いスピードアップと高い精度の両方が得られる。
複数のブロック単位のDLMとベンチマークで、LOSAは近距離精度を保ちながら効率を著しく改善し、アグレッシブな空間レベルの平均精度は+9ポイントまで向上し、注意密度は1.54倍も低い。
また、RTX A6000 GPUの4.14倍のアテンション高速化を実現し、提案手法の有効性を示す。
関連論文リスト
- STDec: Spatio-Temporal Stability Guided Decoding for dLLMs [49.55447757907809]
大規模拡散言語モデル(dLLM)は、自己回帰パラダイムに代わる有望な選択肢と見なされ、急速な進歩を遂げている。
ほとんどのdLLMデコーダは依然としてグローバルな信頼しきい値を採用しており、近隣のデコード状態や予測トークンIDの時間的一貫性からローカルコンテキストをモデル化していない。
我々は,dLLMデコーディングにおいて時間的安定性に近い強い安定性を観察し,そのアプローチには空間的認識復号と時間的認識復号が含まれる。
論文 参考訳(メタデータ) (2026-04-07T18:13:31Z) - DyLLM: Efficient Diffusion LLM Inference via Saliency-based Token Selection and Partial Attention [2.7422645382944935]
そこで我々はDyLLMを提案する。DyLLMは正規トークンのみを選択的に計算することでデコーディングを高速化する学習自由推論フレームワークである。
DyLLMは様々な推論とコード生成ベンチマークで最大9.6倍のスループットを実現している。
論文 参考訳(メタデータ) (2026-03-09T07:02:01Z) - Stateful Token Reduction for Long-Video Hybrid VLMs [69.6930118088911]
ハイブリッドビデオビジョン言語モデル(VLM)のクエリ条件付きトークン削減について検討する。
本稿では,低段階から高段階の減算スケジュールと,注意とマンバブロックの両ブロックを対象とした言語認識スコアリング機構を提案する。
積極的圧縮条件下では,本手法はテスト時にほぼベースライン精度で精度の高いプリフィルング・スピードアップを実現する。
論文 参考訳(メタデータ) (2026-02-27T08:11:06Z) - MAGE: All-[MASK] Block Already Knows Where to Look in Diffusion LLM [9.69241599043101]
ブロック拡散LDMは言語生成の次のパラダイムとして期待されているが、KVキャッシュの利用により、長期コンテキスト設定においてメモリアクセスが主要なボトルネックとなっている。
この研究は拡散をブロックする鍵となる機会を特定し、第1回All-[MASK]における注意は、重要なKVエントリと予算要件を確実に予測する。
MAGEはKV予算のごく一部でほぼロスレスの精度を達成し、最大3-4倍のエンドツーエンドのスピードアップを提供する。
軽量な微調整戦略は、[MASK]誘導パターンを最小限のコストで強化し、数時間のトレーニングしか必要としない。
論文 参考訳(メタデータ) (2026-02-15T16:07:51Z) - Attention Is All You Need for KV Cache in Diffusion LLMs [36.94369617373333]
Elastic-Cacheは、拡散大言語モデルのための適応型層対応キャッシュ更新を実行する。
提案手法は,既存の信頼度に基づく手法よりも高いスループット(GSM8Kで6.8時間)を実現する。
論文 参考訳(メタデータ) (2025-10-16T17:59:48Z) - NOSA: Native and Offloadable Sparse Attention [27.551376861663556]
我々は、KVキャッシュオフロードをサポートするために設計された訓練可能なスパースアテンションフレームワークであるNOSAを提案する。
我々はNOSAが復号スループットを最大2.3倍に向上させながら、ほぼロスレス性能を保っていることを示す。
論文 参考訳(メタデータ) (2025-10-15T14:33:16Z) - Sparse-dLLM: Accelerating Diffusion LLMs with Dynamic Cache Eviction [72.27673320976933]
Diffusion Large Language Models (dLLMs) は推論と並列デコードにおけるブレークスルーを可能にする。
現在のキャッシュ技術は、フルレイヤ状態を保存することでデコーディングを加速するが、メモリ使用量を大幅に増加させる。
Sparse-dLLMは、動的キャッシュ消去とスパースアテンションを統合した最初のトレーニングフリーフレームワークである。
論文 参考訳(メタデータ) (2025-08-04T16:14:03Z) - dKV-Cache: The Cache for Diffusion Language Models [53.85291644298835]
Diffusion Language Models (DLMs) は自己回帰型言語モデルにとって有望な競合と見なされている。
本稿では,DLMの復調過程に対するKVキャッシュ機構,遅延KVキャッシュを提案する。
我々のアプローチは、異なるトークンが拡散過程を通して異なる表現力学を持つという観察によって動機付けられている。
論文 参考訳(メタデータ) (2025-05-21T17:32:10Z) - Dialogue Without Limits: Constant-Sized KV Caches for Extended Responses in LLMs [6.222287867011644]
精度を保ちながら一定サイズのKVキャッシュを維持する推論時間手法であるMorphKVを提案する。
保持や損失圧縮とは異なり、MorphKVは最近のトークンの注意パターンによってガイドされる軽量更新を通じてKVキャッシュを反復的に洗練する。
我々の研究では、52.9$%のメモリセーブと18.2$%の精度が、最先端の先行研究と比較して高いことを示している。
論文 参考訳(メタデータ) (2025-03-02T18:12:50Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。