論文の概要: Self-Indexing KVCache: Predicting Sparse Attention from Compressed Keys
- arxiv url: http://arxiv.org/abs/2603.14224v1
- Date: Sun, 15 Mar 2026 05:02:17 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-03-17 16:19:35.683913
- Title: Self-Indexing KVCache: Predicting Sparse Attention from Compressed Keys
- Title(参考訳): 自己インデクシングKVCache:圧縮キーからのスパースアテンション予測
- Authors: Xu Yang, Jiapeng Zhang, Dongyang Zhao, Guo Chen, Zhuo Tang,
- Abstract要約: 既存のアプローチでは、スパーシリティ予測と圧縮を別々のモジュールとして扱い、関連するトークンを選択するための補助的なインデックス構造と、メモリ使用量を減らすための複雑な量子化スキームに依存している。
本稿では, 圧縮鍵表現を記憶として扱うだけでなく, 効率よく注意を向けられる自己インデクシング構造として, 新たなパラダイムを提案する。
符号ベースの1ビットベクトル量子化(VQ)方式を設計することにより、ハードウェアに優しい単一のフォーマットで圧縮と検索を統一する。
- 参考スコア(独自算出の注目度): 30.377113902938678
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: The KV cache in self-attention has emerged as a major bottleneck in long-context and large-batch inference for LLMs. Existing approaches often treat sparsity prediction and compression as separate modules, relying on auxiliary index structures to select relevant tokens, and on complex quantization schemes to reduce memory usage. This fragmented design introduces redundant overhead and limits scalability. In this paper, we propose a novel paradigm: treating the compressed key representation not merely as storage, but as a self-indexing structure that directly enables efficient sparse attention. By designing a sign-based 1-bit vector quantization (VQ) scheme, our method unifies compression and retrieval in a single, hardware-friendly format. This approach eliminates the need for external indices or learning-based predictors, offering a lightweight yet robust solution for memory-constrained inference. All components are designed to be hardware-efficient and easy to implement. By implementing custom CUDA kernels, our method integrates seamlessly with FlashAttention, minimizing additional runtime and memory overhead. Experimental results demonstrate that our approach delivers both effectiveness and efficiency.
- Abstract(参考訳): 自己注意におけるKVキャッシュは、LLMの長期コンテキストと大規模バッチ推論において大きなボトルネックとなっている。
既存のアプローチでは、余剰予測と圧縮を別々のモジュールとして扱うことが多く、関連するトークンを選択するための補助的なインデックス構造や、メモリ使用量を減らすための複雑な量子化スキームに依存している。
この断片化された設計は、冗長なオーバーヘッドとスケーラビリティの制限をもたらす。
本稿では,圧縮されたキー表現を記憶装置として扱うだけでなく,効率的なスパースアテンションを実現する自己インデクシング構造として,新しいパラダイムを提案する。
符号ベースの1ビットベクトル量子化(VQ)方式を設計することにより、ハードウェアに優しい単一のフォーマットで圧縮と検索を統一する。
このアプローチは、外部インデックスや学習ベースの予測器の必要性を排除し、メモリ制約推論のための軽量で堅牢なソリューションを提供する。
すべてのコンポーネントはハードウェア効率が良く実装しやすいように設計されている。
カスタムCUDAカーネルを実装することで、我々のメソッドはFlashAttentionとシームレスに統合され、追加のランタイムとメモリオーバーヘッドを最小限にする。
実験結果から,本手法は有効性と有効性の両方をもたらすことが示された。
関連論文リスト
- SWAN: Sparse Winnowed Attention for Reduced Inference Memory via Decompression-Free KV-Cache Compression [7.603859408568262]
大きな言語モデル(LLM)は、キーバリュー(KV)キャッシュの巨大なメモリフットプリントのため、自動回帰推論において重大なボトルネックに直面します。
SWANは、このオーバーヘッドをなくす、新しい、微調整不要なフレームワークである。
提案手法はオフライン行列を用いてKV-cacheを回転させプルークする。
論文 参考訳(メタデータ) (2025-11-24T09:41:24Z) - KVCompose: Efficient Structured KV Cache Compression with Composite Tokens [7.922206020386125]
大規模言語モデル(LLM)は、効率的な自己回帰復号化のためにキー値(KV)キャッシュに依存している。
我々は,注意誘導型,層適応型複合トークンに基づく,シンプルで効果的なKVキャッシュ圧縮フレームワークを提案する。
本手法は精度を保ちながらメモリの大幅な削減を実現し,従来手法と半構造化手法を一貫して上回っている。
論文 参考訳(メタデータ) (2025-09-05T14:58:24Z) - Mustafar: Promoting Unstructured Sparsity for KV Cache Pruning in LLM Inference [1.5282767384702265]
非構造化空間は、LLMのKVキャッシュ圧縮を大幅に改善する。
非構造化空間下でのキーキャッシュとバリューキャッシュの両方に高い効果が期待できる。
論文 参考訳(メタデータ) (2025-05-28T22:32:15Z) - ChunkKV: Semantic-Preserving KV Cache Compression for Efficient Long-Context LLM Inference [61.412894960600205]
大きな言語モデル(LLM)は、長いテキストを処理する際に大きなGPUメモリを必要とする。
ChunkKVは、セマンティックチャンクを基本的な圧縮単位として扱うことで、KVキャッシュ圧縮を再定義する。
結果: ChunkKVは最先端の手法を最大8.7%精度で上回る。
論文 参考訳(メタデータ) (2025-02-01T03:49:47Z) - LoRC: Low-Rank Compression for LLMs KV Cache with a Progressive Compression Strategy [59.1298692559785]
キーバリュー(KV)キャッシュは、トランスフォーマーベースの自己回帰型大言語モデル(LLM)を提供する上で重要なコンポーネントである。
この問題を緩和するためのアプローチとしては、(1) アップサイクルステージに統合された効率的な注意変動、(2) テスト時のKVキャッシュ圧縮、(3) テスト時のKVキャッシュ圧縮がある。
そこで我々は,KV重み行列の低ランク近似を提案し,モデル再学習なしに既存のトランスフォーマーベースLCMとのプラグイン統合を実現する。
本手法は,テスト段階におけるアップサイクリング段階のモデルチューニングやタスク固有のプロファイリングを伴わずに機能するように設計されている。
論文 参考訳(メタデータ) (2024-10-04T03:10:53Z) - UNComp: Can Matrix Entropy Uncover Sparsity? -- A Compressor Design from an Uncertainty-Aware Perspective [85.08718140718707]
UNCompは不確実性を認識したフレームワークで、適応圧縮に使用できる空間パターンを明らかにする。
スパーシティパターンを詳細に分析する不確実性に注目して、UNCompはKVキャッシュサイズを4.74%に削減し、6%のプリフィルスピードアップを実現し、スループットを6.4倍改善した。
論文 参考訳(メタデータ) (2024-10-04T02:32:36Z) - ThinK: Thinner Key Cache by Query-Driven Pruning [63.13363917871414]
大規模言語モデル(LLM)は自然言語処理の分野に革命をもたらし、様々なアプリケーションで前例のない性能を達成した。
本稿では,KVキャッシュのメモリ消費の非効率性に対処する長文シナリオに焦点を当てた。
我々は,最小のチャネルを選択的に切断しながら,注目重量損失を最小限に抑える新しいクエリ依存型KVキャッシュプルーニング手法であるThinKを提案する。
論文 参考訳(メタデータ) (2024-07-30T17:59:08Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。