論文の概要: Don't be so Stief! Learning KV Cache low-rank approximation over the Stiefel manifold
- arxiv url: http://arxiv.org/abs/2601.21686v1
- Date: Thu, 29 Jan 2026 13:19:24 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-01-30 16:22:49.842186
- Title: Don't be so Stief! Learning KV Cache low-rank approximation over the Stiefel manifold
- Title(参考訳): Don't be so Stief! Learning KV Cache Low-rank approximation over the Stiefel manifold
- Authors: Luca Benfenati, Matteo Risso, Andrea Vannozzi, Ahmet Caner Yüzügüler, Lukas Cavigelli, Enrico Macii, Daniele Jahier Pagliari, Alessio Burrello,
- Abstract要約: StiefAttentionは、出力再構成誤差を直接最小化し、インフォノーマルプロジェクションベースを学習するKV-cache圧縮手法である。
これは、C4の難易度が11.9ドル、0ショットMMLUの精度が5.4%でEigenAttentionを上回り、元のデコーダ層出力に対する相対誤差が低く、コサイン類似度も高い。
- 参考スコア(独自算出の注目度): 7.162701793686856
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Key--value (KV) caching enables fast autoregressive decoding but at long contexts becomes a dominant bottleneck in High Bandwidth Memory (HBM) capacity and bandwidth. A common mitigation is to compress cached keys and values by projecting per-head matrixes to a lower rank, storing only the projections in the HBM. However, existing post-training approaches typically fit these projections using SVD-style proxy objectives, which may poorly reflect end-to-end reconstruction after softmax, value mixing, and subsequent decoder-layer transformations. For these reasons, we introduce StiefAttention, a post-training KV-cache compression method that learns \emph{orthonormal} projection bases by directly minimizing \emph{decoder-layer output reconstruction error}. StiefAttention additionally precomputes, for each layer, an error-rank profile over candidate ranks, enabling flexible layer-wise rank allocation under a user-specified error budget. Noteworthy, on Llama3-8B under the same conditions, StiefAttention outperforms EigenAttention by $11.9$ points on C4 perplexity and $5.4\%$ on 0-shot MMLU accuracy at iso-compression, yielding lower relative error and higher cosine similarity with respect to the original decoder-layer outputs.
- Abstract(参考訳): キー値キャッシュ(KV)は、高速な自己回帰デコードを可能にするが、長いコンテキストでは、ハイ帯域メモリ(HBM)の容量と帯域幅において主要なボトルネックとなる。
一般的な緩和法は、HBM内の投射だけを格納し、ヘッド当たりの行列を低いランクに投影することでキャッシュされたキーと値を圧縮することである。
しかし、既存のポストトレーニングアプローチは、一般的にSVDスタイルのプロキシ目的を用いてこれらのプロジェクションに適合し、ソフトマックス、値混合、およびその後のデコーダ層変換後のエンドツーエンド再構成を十分に反映しない可能性がある。
これらの理由から,学習後のKV-cache圧縮手法であるStiefAttentionを導入する。
さらに、StiefAttentionは、各レイヤに対して、候補ランク上のエラーランクプロファイルをプリ計算し、ユーザが指定したエラー予算の下で柔軟なレイヤレベルのランク割り当てを可能にする。
注目すべきは、同じ条件下でのLlama3-8Bにおいて、StiefAttentionは、EigenAttentionをC4の難易度で11.9ドル、イソ圧縮で0ショットMMLUの精度で5.4\%で上回り、元のデコーダ層出力に関してより低い相対誤差と高いコサイン類似性をもたらす。
関連論文リスト
- KQ-SVD: Compressing the KV Cache with Provable Guarantees on Attention Fidelity [6.542188603141656]
キーバリューキャッシュは、大きな言語モデルの効率の中心である。
シーケンスの長さとバッチサイズが大きくなると、キャッシュは大きなメモリボトルネックとなる。
我々は,注目行列の最適低ランク分解を直接行う,単純で効率的なKQ-SVDを提案する。
論文 参考訳(メタデータ) (2025-12-05T17:51:10Z) - KV-Latent: Dimensional-level KV Cache Reduction with Frequency-aware Rotary Positional Embedding [72.12756830560217]
Transformer Decodersをベースとした大規模言語モデル(LLM)が、会話生成AIの選択肢として好まれている。
デコーダアーキテクチャの全体的な優位性にもかかわらず、推論中にキーバリューキャッシュが徐々に増加し、主要な効率ボトルネックとなっている。
キーバリューベクトル次元を潜在空間にダウンサンプリングすることで、KVキャッシュのフットプリントを大幅に削減し、推論速度を向上させることができる。
論文 参考訳(メタデータ) (2025-07-15T12:52:12Z) - ReCalKV: Low-Rank KV Cache Compression via Head Reordering and Offline Calibration [69.57122277845293]
ReCalKVは,キーと値の調整を施した低ランクKVキャッシュ圧縮手法である。
キーズでは、構造的に類似した頭部をグループにクラスタリングし、より正確な低ランク近似を可能にするSimisity aware Recontext (HSR)を提案する。
本稿では,オフラインヘッドワイド値(OVC)を提案する。これはトレーニングなしでキャリブレーションデータを用いて,効率的に値予測行列を校正する。
論文 参考訳(メタデータ) (2025-05-30T08:49:27Z) - PrefixKV: Adaptive Prefix KV Cache is What Vision Instruction-Following Models Need for Efficient Generation [97.41972925670508]
大規模視覚言語モデル(LVLM)は、推論中に重要な計算とメモリオーバーヘッドを引き起こす。
ここでは、PrefixKVについて述べる。ここでは、Prefixは、元のシーケンスの位置ではなく、重要度に基づいて、上位ランクのKVを意味する。
本手法は他の手法と比較して最先端の性能を実現する。
論文 参考訳(メタデータ) (2024-12-04T15:48:59Z) - LoRC: Low-Rank Compression for LLMs KV Cache with a Progressive Compression Strategy [59.1298692559785]
キーバリュー(KV)キャッシュは、トランスフォーマーベースの自己回帰型大言語モデル(LLM)を提供する上で重要なコンポーネントである。
この問題を緩和するためのアプローチとしては、(1) アップサイクルステージに統合された効率的な注意変動、(2) テスト時のKVキャッシュ圧縮、(3) テスト時のKVキャッシュ圧縮がある。
そこで我々は,KV重み行列の低ランク近似を提案し,モデル再学習なしに既存のトランスフォーマーベースLCMとのプラグイン統合を実現する。
本手法は,テスト段階におけるアップサイクリング段階のモデルチューニングやタスク固有のプロファイリングを伴わずに機能するように設計されている。
論文 参考訳(メタデータ) (2024-10-04T03:10:53Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。