論文の概要: Dynamic Sparse Attention: Access Patterns and Architecture
- arxiv url: http://arxiv.org/abs/2603.13430v1
- Date: Fri, 13 Mar 2026 03:38:35 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-03-17 16:19:35.197519
- Title: Dynamic Sparse Attention: Access Patterns and Architecture
- Title(参考訳): ダイナミックスパース注意: アクセスパターンとアーキテクチャ
- Authors: Noam Levy,
- Abstract要約: ダイナミックアテンション(DSA)は、キャッシュされたキー値エントリのトップkサブセットに計算を制限することで、トーケン毎のアテンション帯域を削減する。
複数のオープンソースバックボーン上でDSAスタイルの選択を行うための軽量なインデクサを実装することにより,これらの効果について検討する。
本稿では,現代の推論プラットフォームにおけるDSAの利用を改善するために,今後のアーキテクチャおよびアルゴリズム探索の方向性を提案する。
- 参考スコア(独自算出の注目度): 0.0
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Dynamic sparse attention (DSA) reduces the per-token attention bandwidth by restricting computation to a top-k subset of cached key-value (KV) entries, but its token-dependent selection pattern introduces a system-level challenge: the KV working set is fragmented, volatile, and difficult to prefetch, which can translate into poor cache locality and stalled decode throughput. We study these effects by implementing a lightweight indexer for DSA-style selection on multiple open-source backbones and logging per-layer KV indices during autoregressive decoding. Our analysis shows a gap in serving DSA backbones - a potential for a high volume of blocking LL (last level) cache miss events, causing inefficiency; we propose a novel LL cache reservation system to save KV tokens in the LL cache between decode steps, combined with a token-granularity LRU eviction policy, and show on the data we collected how this architecture can benefit serving with DSA implemented on different backbones. Finally, we propose directions for future architectural and algorithmic exploration to improve serving of DSA on modern inference platforms.
- Abstract(参考訳): 動的スパースアテンション(DSA)は、計算をキャッシュされたキー値(KV)エントリのトップkサブセットに制限することで、トーケン毎のアテンション帯域を削減するが、トークン依存の選択パターンは、システムレベルの課題をもたらす。
複数のオープンソースバックボーンにDSAスタイルの選択のための軽量なインデクサを実装し、自動回帰復号時に層ごとのKVインデックスをロギングすることで、これらの効果について検討する。
我々の分析は、DSAバックボーンの提供にギャップがあることを示し、LL(ラストレベル)キャッシュミスイベントをブロックし、効率を損なう可能性を示し、デコードステップ間のLLキャッシュにKVトークンを保存する新しいLLキャッシュ予約システムを提案し、トークン-粒度LRU消去ポリシーと組み合わせて、このアーキテクチャが異なるバックボーンに実装されたDSAのメリットを示す。
最後に,現代の推論プラットフォームにおけるDSAの利用を改善するために,今後のアーキテクチャおよびアルゴリズム探索の方向性を提案する。
関連論文リスト
- Sparse-dLLM: Accelerating Diffusion LLMs with Dynamic Cache Eviction [72.27673320976933]
Diffusion Large Language Models (dLLMs) は推論と並列デコードにおけるブレークスルーを可能にする。
現在のキャッシュ技術は、フルレイヤ状態を保存することでデコーディングを加速するが、メモリ使用量を大幅に増加させる。
Sparse-dLLMは、動的キャッシュ消去とスパースアテンションを統合した最初のトレーニングフリーフレームワークである。
論文 参考訳(メタデータ) (2025-08-04T16:14:03Z) - AirCache: Activating Inter-modal Relevancy KV Cache Compression for Efficient Large Vision-Language Model Inference [11.73134417321505]
本稿では,LVLM推論の高速化を目的とした新しいKVキャッシュ圧縮手法であるAirCacheを提案する。
本手法は,視覚的KVキャッシュの10%を保ちながら,フルキャッシュに匹敵する性能を実現する。
論文 参考訳(メタデータ) (2025-03-31T11:13:18Z) - CSR:Achieving 1 Bit Key-Value Cache via Sparse Representation [63.65323577445951]
キャッシュスパース表現(CSR)と呼ばれる新しい手法を提案する。
CSRは、密度の高いKey-Valueキャッシュテンソルをスパースインデックスとウェイトに変換し、LLM推論中によりメモリ効率のよい表現を提供する。
我々の実験は、CSRが最先端KVキャッシュ量子化アルゴリズムに匹敵する性能を達成することを示した。
論文 参考訳(メタデータ) (2024-12-16T13:01:53Z) - ThinK: Thinner Key Cache by Query-Driven Pruning [63.13363917871414]
大規模言語モデル(LLM)は自然言語処理の分野に革命をもたらし、様々なアプリケーションで前例のない性能を達成した。
本稿では,KVキャッシュのメモリ消費の非効率性に対処する長文シナリオに焦点を当てた。
我々は,最小のチャネルを選択的に切断しながら,注目重量損失を最小限に抑える新しいクエリ依存型KVキャッシュプルーニング手法であるThinKを提案する。
論文 参考訳(メタデータ) (2024-07-30T17:59:08Z) - Efficient Inference of Vision Instruction-Following Models with Elastic Cache [76.44955111634545]
我々は,命令追従型大規模視覚言語モデルの効率的なデプロイのための新しい戦略であるElastic Cacheを紹介する。
本稿では,冗長キャッシュを具現化する重要なキャッシュマージ戦略を提案する。
命令符号化では,キャッシュの重要性を評価するために周波数を利用する。
様々なLVLMの結果は、Elastic Cacheが効率を向上するだけでなく、言語生成における既存のプルーニングメソッドよりも優れていることを示している。
論文 参考訳(メタデータ) (2024-07-25T15:29:05Z) - QAQ: Quality Adaptive Quantization for LLM KV Cache [3.163526369095745]
モデルデプロイメントのボトルネックは、コンテキスト長のキーバリューキャッシュの線形拡張によって生じる。
KVキャッシュのための品質適応量子化スキームQAQを提案する。
論文 参考訳(メタデータ) (2024-03-07T16:42:37Z) - Get More with LESS: Synthesizing Recurrence with KV Cache Compression for Efficient LLM Inference [78.65321721142624]
我々はキー値(KV)キャッシュによって課されるメモリボトルネックに焦点を当てる。
既存のKVキャッシュ手法は、比較的重要でないKVペアの大きなスワストを刈り取ったり、取り除いたりすることでこの問題に対処する。
本稿では,固定サイズキャッシュと退避型キャッシュを簡易に統合したLESSを提案する。
論文 参考訳(メタデータ) (2024-02-14T18:54:56Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。