Fugu-MT 論文翻訳(概要): KQ-SVD: Compressing the KV Cache with Provable Guarantees on Attention Fidelity

論文の概要: KQ-SVD: Compressing the KV Cache with Provable Guarantees on Attention Fidelity

arxiv url: http://arxiv.org/abs/2512.05916v1
Date: Fri, 05 Dec 2025 17:51:10 GMT
ステータス: 翻訳完了
システム内更新日: 2025-12-13 22:40:57.120727
Title: KQ-SVD: Compressing the KV Cache with Provable Guarantees on Attention Fidelity
Title（参考訳）: KQ-SVD: 注意力の保証が可能なKVキャッシュ圧縮
Authors: Damien Lesens, Beheshteh T. Rakhshan, Guillaume Rabusseau,
Abstract要約: キーバリューキャッシュは、大きな言語モデルの効率の中心である。シーケンスの長さとバッチサイズが大きくなると、キャッシュは大きなメモリボトルネックとなる。我々は,注目行列の最適低ランク分解を直接行う,単純で効率的なKQ-SVDを提案する。
参考スコア（独自算出の注目度）: 6.542188603141656
License: http://creativecommons.org/licenses/by/4.0/
Abstract: The Key-Value (KV) cache is central to the efficiency of transformer-based large language models (LLMs), storing previously computed vectors to accelerate inference. Yet, as sequence length and batch size grow, the cache becomes a major memory bottleneck. Prior compression methods typically apply low-rank decomposition to keys alone or attempt to jointly embed queries and keys, but both approaches neglect that attention fundamentally depends on their inner products. In this work, we prove that such strategies are suboptimal for approximating the attention matrix. We introduce KQ-SVD, a simple and computationally efficient method that directly performs an optimal low-rank decomposition of the attention matrix via a closed-form solution. By targeting the true source of redundancy, KQ-SVD preserves attention outputs with higher fidelity under compression. Extensive evaluations on LLaMA and Mistral models demonstrate that our approach consistently delivers superior projection quality.
Abstract（参考訳）: キーバリュー(KV)キャッシュは、トランスフォーマーベースの大規模言語モデル(LLM)の効率の中心であり、推論を加速するために計算済みのベクトルを格納する。しかし、シーケンスの長さとバッチサイズが大きくなると、キャッシュは大きなメモリボトルネックになる。従来の圧縮手法は、キーのみに低ランク分解を適用したり、クエリとキーを共同で埋め込もうとするが、どちらの手法も基本的に内部製品に依存していることを無視する。本研究では,このような戦略が注目行列の近似に最適であることを示す。 KQ-SVDは、クローズドフォームの解を用いて、アテンション行列の最適低ランク分解を直接行う、単純で計算効率のよい方法である。 KQ-SVDは、真の冗長性源をターゲットとして、圧縮下で高い忠実度で注意出力を保存する。 LLaMAおよびMistralモデルに対する広範囲な評価は、我々のアプローチが常に優れた射影品質を提供することを示す。

関連論文リスト

Value-Guided KV Compression for LLMs via Approximated CUR Decomposition [24.262712463465665]
CurDKVは、CUR行列分解から計算したレバレッジスコアに基づいてキーと値を選択する、新しい、値中心のKV圧縮手法である。我々のアプローチは、注意出力$softmax(QKT)V$の支配的部分空間を近似し、保持されたトークンがモデルの予測挙動を最善に維持することを保証する。
論文参考訳（メタデータ） (2025-09-18T15:04:06Z)
ReCalKV: Low-Rank KV Cache Compression via Head Reordering and Offline Calibration [69.57122277845293]
ReCalKVは,キーと値の調整を施した低ランクKVキャッシュ圧縮手法である。キーズでは、構造的に類似した頭部をグループにクラスタリングし、より正確な低ランク近似を可能にするSimisity aware Recontext (HSR)を提案する。本稿では,オフラインヘッドワイド値(OVC)を提案する。これはトレーニングなしでキャリブレーションデータを用いて,効率的に値予測行列を校正する。
論文参考訳（メタデータ） (2025-05-30T08:49:27Z)
AttentionPredictor: Temporal Patterns Matter for KV Cache Compression [64.75459635661562]
我々は,KVキャッシュ圧縮とクリティカルトークン識別のための注意パターンを直接予測する,学習に基づく最初の手法であるAttentionPredictorを提案する。 AttentionPredictorは、注意スコアを正確に予測し、無視可能なメモリを消費する統一予測モデルを共有する。注意情報の大半を保持することで、AttentionPredictorは、キャッシュオフロードシナリオで13$times$KVキャッシュ圧縮と5.6$times$スピードアップを達成する。
論文参考訳（メタデータ） (2025-02-06T13:41:46Z)
LoRC: Low-Rank Compression for LLMs KV Cache with a Progressive Compression Strategy [59.1298692559785]
キーバリュー(KV)キャッシュは、トランスフォーマーベースの自己回帰型大言語モデル(LLM)を提供する上で重要なコンポーネントである。この問題を緩和するためのアプローチとしては、(1) アップサイクルステージに統合された効率的な注意変動、(2) テスト時のKVキャッシュ圧縮、(3) テスト時のKVキャッシュ圧縮がある。そこで我々は,KV重み行列の低ランク近似を提案し,モデル再学習なしに既存のトランスフォーマーベースLCMとのプラグイン統合を実現する。本手法は,テスト段階におけるアップサイクリング段階のモデルチューニングやタスク固有のプロファイリングを伴わずに機能するように設計されている。
論文参考訳（メタデータ） (2024-10-04T03:10:53Z)
A Simple and Effective $L_2$ Norm-Based Strategy for KV Cache Compression [13.981807478365452]
キーバリューキャッシュサイズを減らすための既存のアプローチは、圧縮戦略を学ぶためのモデルを微調整するか、シーケンス長を減らすためにアテンションスコアを利用するかのいずれかである。キャッシュされたKVペアに対して、$L$とアテンションスコアとの間に明らかな相関関係が見られ、キー埋め込みの低い$L$がデコード時に高いアテンションスコアをもたらす。実験の結果,この単純な手法により,言語モデリングやニードル・イン・ア・ヘイスタックタスクでは50%,パスキー検索タスクでは90%,精度を損なうことなく,KVキャッシュサイズを50%削減できることがわかった。
論文参考訳（メタデータ） (2024-06-17T11:35:16Z)
Unlocking Data-free Low-bit Quantization with Matrix Decomposition for KV Cache Compression [87.5604418100301]
キー値(KV)キャッシングは,大規模言語モデルの推論を高速化する重要な手法である。既存の手法はしばしば精度を損なうか、キャリブレーションのために余分なデータを必要とする。テンソル分解法に基づく新しいデータフリー低ビット量子化手法である textbfDecoQuant を導入する。
論文参考訳（メタデータ） (2024-05-21T08:35:10Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。