論文の概要: SALS: Sparse Attention in Latent Space for KV cache Compression
- arxiv url: http://arxiv.org/abs/2510.24273v1
- Date: Tue, 28 Oct 2025 10:32:52 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-10-29 15:35:37.021476
- Title: SALS: Sparse Attention in Latent Space for KV cache Compression
- Title(参考訳): SALS: KVキャッシュ圧縮のための遅延空間におけるスパース注意
- Authors: Junlin Mu, Hantao Huang, Jihang Zhang, Minghui Yu, Tao Wang, Yidong Li,
- Abstract要約: 本稿では,鍵ベクトルへのRoPEの適用により,それらの分散が増大し,結果として高い階数が得られること,鍵ベクトルが潜在空間に変換された後に,ほとんどの層にわたって表現が維持されること,という2つの重要な知見を紹介する。
これらの知見に基づき、我々はラテントスペースフレームワークにおけるスパースアテンション(Sparse Attention in Latent Space)を提案する。SALSはKVキャッシュをローランクプロジェクションを介してコンパクトなラテント空間に投影し、この空間でRoPEフリークエリキーインタラクションを用いてスパーストークン選択を行う。
- 参考スコア(独自算出の注目度): 17.28816246273855
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Large Language Models capable of handling extended contexts are in high demand, yet their inference remains challenging due to substantial Key-Value cache size and high memory bandwidth requirements. Previous research has demonstrated that KV cache exhibits low-rank characteristics within the hidden dimension, suggesting the potential for effective compression. However, due to the widely adopted Rotary Position Embedding mechanism in modern LLMs, naive low-rank compression suffers severe accuracy degradation or creates a new speed bottleneck, as the low-rank cache must first be reconstructed in order to apply RoPE. In this paper, we introduce two key insights: first, the application of RoPE to the key vectors increases their variance, which in turn results in a higher rank; second, after the key vectors are transformed into the latent space, they largely maintain their representation across most layers. Based on these insights, we propose the Sparse Attention in Latent Space framework. SALS projects the KV cache into a compact latent space via low-rank projection, and performs sparse token selection using RoPE-free query-key interactions in this space. By reconstructing only a small subset of important tokens, it avoids the overhead of full KV cache reconstruction. We comprehensively evaluate SALS on various tasks using two large-scale models: LLaMA2-7b-chat and Mistral-7b, and additionally verify its scalability on the RULER-128k benchmark with LLaMA3.1-8B-Instruct. Experimental results demonstrate that SALS achieves SOTA performance by maintaining competitive accuracy. Under different settings, SALS achieves 6.4-fold KV cache compression and 5.7-fold speed-up in the attention operator compared to FlashAttention2 on the 4K sequence. For the end-to-end throughput performance, we achieves 1.4-fold and 4.5-fold improvement compared to GPT-fast on 4k and 32K sequences, respectively.
- Abstract(参考訳): 拡張コンテキストを扱うことができる大規模言語モデルは高い需要があるが、キーバリューのキャッシュサイズとメモリ帯域幅の要求が大きいため、推論は依然として困難である。
従来の研究では、KVキャッシュは隠れ次元内の低ランク特性を示しており、効率的な圧縮の可能性を示している。
しかし, 現代のLLMにおいて広く採用されているロータリー位置埋め込み機構により, ナイーブ低ランク圧縮の精度低下や, 新たな速度ボトルネックが発生している。
本稿では,鍵ベクトルへのRoPEの適用により,それらの分散が増大し,結果として高い階数が得られること,鍵ベクトルが潜在空間に変換された後に,ほとんどの層にわたって表現が維持される,という2つの重要な知見を紹介する。
これらの知見に基づき、ラテントスペースフレームワークにおけるスパースアテンションを提案する。
SALSは、KVキャッシュを低ランクプロジェクションを介してコンパクトな潜在空間に投影し、この空間でRoPEフリークエリキー相互作用を用いてスパーストークン選択を行う。
重要なトークンの小さなサブセットだけを再構築することで、完全なKVキャッシュ再構築のオーバーヘッドを回避することができる。
LLaMA2-7b-chatとMistral-7bの2つの大規模モデルを用いてSALSを総合的に評価し、LLaMA3.1-8B-InstructによるRULER-128kベンチマークでそのスケーラビリティを検証した。
実験の結果,SALSは競争精度を保ち,SOTA性能を達成することが示された。
異なる設定では、SALSは4Kシーケンス上のFlashAttention2と比較して6.4倍のKVキャッシュ圧縮と5.7倍のスピードアップを実現している。
エンドツーエンドのスループット性能では、4kおよび32KのGPT速さと比較して1.4倍と4.5倍の改善を実現した。
関連論文リスト
- KV-Latent: Dimensional-level KV Cache Reduction with Frequency-aware Rotary Positional Embedding [72.12756830560217]
Transformer Decodersをベースとした大規模言語モデル(LLM)が、会話生成AIの選択肢として好まれている。
デコーダアーキテクチャの全体的な優位性にもかかわらず、推論中にキーバリューキャッシュが徐々に増加し、主要な効率ボトルネックとなっている。
キーバリューベクトル次元を潜在空間にダウンサンプリングすることで、KVキャッシュのフットプリントを大幅に削減し、推論速度を向上させることができる。
論文 参考訳(メタデータ) (2025-07-15T12:52:12Z) - ReCalKV: Low-Rank KV Cache Compression via Head Reordering and Offline Calibration [69.57122277845293]
ReCalKVは,キーと値の調整を施した低ランクKVキャッシュ圧縮手法である。
キーズでは、構造的に類似した頭部をグループにクラスタリングし、より正確な低ランク近似を可能にするSimisity aware Recontext (HSR)を提案する。
本稿では,オフラインヘッドワイド値(OVC)を提案する。これはトレーニングなしでキャリブレーションデータを用いて,効率的に値予測行列を校正する。
論文 参考訳(メタデータ) (2025-05-30T08:49:27Z) - LoRC: Low-Rank Compression for LLMs KV Cache with a Progressive Compression Strategy [59.1298692559785]
キーバリュー(KV)キャッシュは、トランスフォーマーベースの自己回帰型大言語モデル(LLM)を提供する上で重要なコンポーネントである。
この問題を緩和するためのアプローチとしては、(1) アップサイクルステージに統合された効率的な注意変動、(2) テスト時のKVキャッシュ圧縮、(3) テスト時のKVキャッシュ圧縮がある。
そこで我々は,KV重み行列の低ランク近似を提案し,モデル再学習なしに既存のトランスフォーマーベースLCMとのプラグイン統合を実現する。
本手法は,テスト段階におけるアップサイクリング段階のモデルチューニングやタスク固有のプロファイリングを伴わずに機能するように設計されている。
論文 参考訳(メタデータ) (2024-10-04T03:10:53Z) - UNComp: Can Matrix Entropy Uncover Sparsity? -- A Compressor Design from an Uncertainty-Aware Perspective [85.08718140718707]
UNCompは不確実性を認識したフレームワークで、適応圧縮に使用できる空間パターンを明らかにする。
スパーシティパターンを詳細に分析する不確実性に注目して、UNCompはKVキャッシュサイズを4.74%に削減し、6%のプリフィルスピードアップを実現し、スループットを6.4倍改善した。
論文 参考訳(メタデータ) (2024-10-04T02:32:36Z) - Eigen Attention: Attention in Low-Rank Space for KV Cache Compression [9.080678336379528]
我々は,低ランク空間における注意操作を行うEigen Attentionを提案し,KVキャッシュメモリのオーバーヘッドを低減する。
その結果,Eigen AttentionはKVキャッシュサイズを最大40%削減し,注目動作遅延を最大60%低減し,性能の低下を最小化できることがわかった。
論文 参考訳(メタデータ) (2024-08-10T22:47:12Z) - Effectively Compress KV Heads for LLM [28.0801697946958]
キーバリュー(KV)キャッシュを圧縮する新しい手法を提案する。
提案手法は,従来のLLMに匹敵する性能を維持しつつ,KVヘッドの4分の1以上を圧縮することができる。
論文 参考訳(メタデータ) (2024-06-11T08:37:33Z) - MiniCache: KV Cache Compression in Depth Dimension for Large Language Models [48.03117580340151]
キーバリュー(KV)キャッシュは、以前に生成されたトークンのキー値状態を格納する。
KVキャッシュのサイズはシーケンス長とともに線形に増加し、長いコンテキスト入力と広範囲なシーケンス生成を必要とするアプリケーションの課題を提起する。
レイヤ間のKVキャッシュを,新しい奥行きの観点から圧縮する,MiniCacheという,シンプルで効果的なアプローチを提案する。
論文 参考訳(メタデータ) (2024-05-23T09:43:52Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。