論文の概要: CaliDrop: KV Cache Compression with Calibration
- arxiv url: http://arxiv.org/abs/2507.19906v1
- Date: Sat, 26 Jul 2025 10:34:53 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-07-29 16:23:56.457399
- Title: CaliDrop: KV Cache Compression with Calibration
- Title(参考訳): CaliDrop: キャリブレーションによるKVキャッシュ圧縮
- Authors: Yi Su, Quantong Qiu, Yuechi Zhou, Juntao Li, Qingrong Xia, Ping Li, Xinyu Duan, Zhefeng Wang, Min Zhang,
- Abstract要約: 大規模言語モデル(LLM)は、世代間、かなりの計算資源を必要とする。
このボトルネックを軽減するため、KVキャッシュ圧縮技術が提案されている。
本稿ではトークン排除戦略の強化に焦点をあてる。
- 参考スコア(独自算出の注目度): 44.722738059962296
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Large Language Models (LLMs) require substantial computational resources during generation. While the Key-Value (KV) cache significantly accelerates this process by storing attention intermediates, its memory footprint grows linearly with sequence length, batch size, and model size, creating a bottleneck in long-context scenarios. Various KV cache compression techniques, including token eviction, quantization, and low-rank projection, have been proposed to mitigate this bottleneck, often complementing each other. This paper focuses on enhancing token eviction strategies. Token eviction leverages the observation that the attention patterns are often sparse, allowing for the removal of less critical KV entries to save memory. However, this reduction usually comes at the cost of notable accuracy degradation, particularly under high compression ratios. To address this issue, we propose \textbf{CaliDrop}, a novel strategy that enhances token eviction through calibration. Our preliminary experiments show that queries at nearby positions exhibit high similarity. Building on this observation, CaliDrop performs speculative calibration on the discarded tokens to mitigate the accuracy loss caused by token eviction. Extensive experiments demonstrate that CaliDrop significantly improves the accuracy of existing token eviction methods.
- Abstract(参考訳): 大規模言語モデル(LLM)は、世代間、かなりの計算資源を必要とする。
キーバリュー(KV)キャッシュは、アテンション中間体を格納することで、このプロセスを著しく加速するが、メモリフットプリントはシーケンス長、バッチサイズ、モデルサイズとともに線形に増加し、長いコンテキストシナリオにおけるボトルネックを生み出す。
トークンの消去、量子化、低ランク投影を含む様々なKVキャッシュ圧縮技術は、このボトルネックを軽減するために提案され、しばしば互いに補完する。
本稿ではトークン排除戦略の強化に焦点をあてる。
トークン消去は、注意パターンがしばしばスパースであることの観察を活用するため、重要でないKVエントリを削除してメモリを節約できる。
しかし、この削減は通常、特に高い圧縮比の下で、顕著な精度劣化のコストがかかる。
この問題に対処するために,キャリブレーションによるトークンの排除を強化する新しい戦略である \textbf{CaliDrop} を提案する。
予備実験により, 周辺位置の問合せは高い類似性を示すことが示された。
この観測に基づいて、CaliDropは捨てられたトークンの投機的キャリブレーションを行い、トークンの消去による精度損失を軽減する。
大規模な実験により、CaliDropは既存のトークン消去法の精度を大幅に向上することが示された。
関連論文リスト
- ReCalKV: Low-Rank KV Cache Compression via Head Reordering and Offline Calibration [81.81027217759433]
大きな言語モデル(LLM)はキーバリュー(KV)キャッシュを保存するのに必要な過剰なメモリによって制約されることが多い。
近年,KVキャッシュの隠蔽次元の低減について検討されている。
本稿では,KVキャッシュの隠れ次元を削減した後学習KVキャッシュ圧縮手法ReCalKVを提案する。
論文 参考訳(メタデータ) (2025-05-30T08:49:27Z) - Accurate KV Cache Quantization with Outlier Tokens Tracing [44.722738059962296]
KVキャッシュの量子化は有望なソリューションであり、メモリ使用量と精度のバランスが良い。
これまでの研究によると、キーはチャネルで分散され、バリューはトークンで分散されている。
提案手法は,2ビット量子化による大幅な精度向上を実現し,メモリ使用率を6.4倍,スループットを2.3倍に向上させることができる。
論文 参考訳(メタデータ) (2025-05-16T07:23:12Z) - KVCrush: Key value cache size-reduction using similarity in head-behaviour [40.792661186062396]
大規模言語モデル(LLM)における推論を高速化する重要な最適化手法としてキーバリューキャッシュ(KV)が登場している。
しかしながら、KVのメモリフットプリントは、モデルのバッチサイズに直接影響を与えるモデルデプロイメントにおいて、大きなボトルネックとなります。
我々は,KVCrushと多くのKV圧縮技術を組み合わせることで,より小さなメモリでモデル精度を向上させることを提案する。
論文 参考訳(メタデータ) (2025-02-24T02:57:51Z) - AttentionPredictor: Temporal Pattern Matters for Efficient LLM Inference [51.1972443343829]
本稿では,最初の学習に基づくクリティカルトークン識別手法であるAttentionPredictorを提案する。
注意予測器は、無視可能なメモリを消費しながら、注意スコアを正確に予測する。
また、トークン時間オーバーヘッドを隠蔽してデコードステージを高速化する、クロストークンクリティカルキャッシュプリフェッチフレームワークを提案する。
論文 参考訳(メタデータ) (2025-02-06T13:41:46Z) - More Tokens, Lower Precision: Towards the Optimal Token-Precision Trade-off in KV Cache Compression [71.42818367729573]
大規模言語モデル(LLM)では、KVキャッシュのメモリ使用量は推論において重大なボトルネックとなっている。
KVプルーニングやKV量子化を含む主流のKV圧縮法は、主にトークンまたは精度寸法を別々に扱う。
本稿では,KVキャッシュ圧縮におけるトークン精度トレードオフを包括的に検討する。
論文 参考訳(メタデータ) (2024-12-17T09:20:31Z) - ThinK: Thinner Key Cache by Query-Driven Pruning [63.13363917871414]
大規模言語モデル(LLM)は自然言語処理の分野に革命をもたらし、様々なアプリケーションで前例のない性能を達成した。
本稿では,KVキャッシュのメモリ消費の非効率性に対処する長文シナリオに焦点を当てた。
我々は,最小のチャネルを選択的に切断しながら,注目重量損失を最小限に抑える新しいクエリ依存型KVキャッシュプルーニング手法であるThinKを提案する。
論文 参考訳(メタデータ) (2024-07-30T17:59:08Z) - Unlocking Data-free Low-bit Quantization with Matrix Decomposition for KV Cache Compression [87.5604418100301]
キー値(KV)キャッシングは,大規模言語モデルの推論を高速化する重要な手法である。
既存の手法はしばしば精度を損なうか、キャリブレーションのために余分なデータを必要とする。
テンソル分解法に基づく新しいデータフリー低ビット量子化手法である textbfDecoQuant を導入する。
論文 参考訳(メタデータ) (2024-05-21T08:35:10Z) - No Token Left Behind: Reliable KV Cache Compression via Importance-Aware
Mixed Precision Quantization [31.806112535762367]
キーバリューキャッシングは、生成型大規模言語モデル(LLM)の推論速度とスループットを加速する重要な技術となっている。
論文 参考訳(メタデータ) (2024-02-28T06:34:54Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。