論文の概要: Homogeneous Keys, Heterogeneous Values: Exploiting Local KV Cache Asymmetry for Long-Context LLMs
- arxiv url: http://arxiv.org/abs/2506.05410v1
- Date: Wed, 04 Jun 2025 16:10:44 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-06-09 17:28:43.135957
- Title: Homogeneous Keys, Heterogeneous Values: Exploiting Local KV Cache Asymmetry for Long-Context LLMs
- Title(参考訳): 均一鍵, 不均一値:長期LLMのための局所KVキャッシュ非対称性の爆発
- Authors: Wanyun Cui, Mingwei Xu,
- Abstract要約: 我々は、KVキャッシュにおいて、基本的かつ以前見過ごされた非対称性を示す。
隣接するキーは類似の注意重み(局所的均一性)を受けるが、隣接する値は異なる異種分布を示す。
このキー値非対称性は、キーと値を一様に扱う既存の圧縮方法に限界があることを示している。
- 参考スコア(独自算出の注目度): 27.710036447385697
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Recent advances in Large Language Models (LLMs) have highlighted the critical importance of extending context length, yet the quadratic complexity of attention mechanisms poses significant challenges for efficient long-context modeling. KV cache compression has emerged as a key approach to address this challenge. Through extensive empirical analysis, we reveal a fundamental yet previously overlooked asymmetry in KV caches: while adjacent keys receive similar attention weights (local homogeneity), adjacent values demonstrate distinct heterogeneous distributions. This key-value asymmetry reveals a critical limitation in existing compression methods that treat keys and values uniformly. To address the limitation, we propose a training-free compression framework (AsymKV) that combines homogeneity-based key merging with a mathematically proven lossless value compression. Extensive experiments demonstrate that AsymKV consistently outperforms existing long-context methods across various tasks and base models. For example, on LLaMA3.1-8B, AsymKV achieves an average score of 43.95 on LongBench, surpassing SOTA methods like H$_2$O (38.89) by a large margin.
- Abstract(参考訳): 近年のLarge Language Models (LLM) の進歩は、文脈長を拡張することの重要性を強調しているが、注意機構の二次的な複雑さは、効率的な長期コンテキストモデリングに重大な課題をもたらす。
KVキャッシュ圧縮は、この問題に対処するための重要なアプローチとして登場した。
広範にわたる経験的分析により、KVキャッシュの基本的な見過ごされた非対称性が明らかにされる: 隣接するキーは類似の注意重み(局所的均一性)を受けるが、隣接する値は異なる異種分布を示す。
このキー値非対称性は、キーと値を一様に扱う既存の圧縮方法に限界があることを示している。
この制限に対処するために,均質性に基づくキーマージと数学的に証明されたロスレス値圧縮を組み合わせたトレーニングフリー圧縮フレームワーク(AsymKV)を提案する。
大規模な実験により、AsymKVは様々なタスクやベースモデルで既存の長文メソッドよりも一貫して優れていることが示された。
例えば、LLaMA3.1-8Bでは、AsymKVはLongBench上で平均43.95のスコアを達成し、H$_2$O (38.89)のようなSOTA法をはるかに上回っている。
関連論文リスト
- TaDA: Training-free recipe for Decoding with Adaptive KV Cache Compression and Mean-centering [10.427881558469442]
量子化精度の高いKVキャッシュ圧縮のためのトレーニング不要なレシピであるTaDAを紹介する。
提案手法は,様々なコンテキスト長をサポートする複数のモデルに対して,大幅な精度向上を実現する。
本手法は,言語モデルにおけるスケーラブルで高性能な推論手法である。
論文 参考訳(メタデータ) (2025-06-05T05:23:38Z) - ReCalKV: Low-Rank KV Cache Compression via Head Reordering and Offline Calibration [81.81027217759433]
大きな言語モデル(LLM)はキーバリュー(KV)キャッシュを保存するのに必要な過剰なメモリによって制約されることが多い。
近年,KVキャッシュの隠蔽次元の低減について検討されている。
本稿では,KVキャッシュの隠れ次元を削減した後学習KVキャッシュ圧縮手法ReCalKVを提案する。
論文 参考訳(メタデータ) (2025-05-30T08:49:27Z) - Optimizing Singular Spectrum for Large Language Model Compression [95.7621116637755]
SVDの分解したコンポーネントをデータ駆動で再スケールする新しい圧縮フレームワークであるSoCoを紹介する。
学習可能な特異スペクトルのおかげで、SoCoは重要度スコアに応じて成分を適応的にプーンする。
複数のLLMおよびベンチマークでの実験的な評価は、SoCoがモデル圧縮における最先端の手法を超越していることを示している。
論文 参考訳(メタデータ) (2025-02-20T23:18:39Z) - Streaming Attention Approximation via Discrepancy Theory [11.235024582188288]
本稿では,重要計算の基本となるトークン生成である注目近似のストリーミング複雑性について検討する。
主なコントリビューションは、アテンション計算を$epsilon$-approximating するストリーミングアルゴリズムである BalanceKV です。
論文 参考訳(メタデータ) (2025-02-11T17:18:17Z) - Can LLMs Maintain Fundamental Abilities under KV Cache Compression? [29.510433427184385]
各種基本言語モデルにおけるKVキャッシュ圧縮の効果を評価するためのベンチマークKVFundaBenchを提案する。
ショットレベルのセマンティックコヒーレンスを維持しつつ、プリフィルとデコードフェーズを処理する新しい圧縮手法ShotKVを提案する。
論文 参考訳(メタデータ) (2025-02-04T02:23:06Z) - More Tokens, Lower Precision: Towards the Optimal Token-Precision Trade-off in KV Cache Compression [71.42818367729573]
大規模言語モデル(LLM)では、KVキャッシュのメモリ使用量は推論において重大なボトルネックとなっている。
KVプルーニングやKV量子化を含む主流のKV圧縮法は、主にトークンまたは精度寸法を別々に扱う。
本稿では,KVキャッシュ圧縮におけるトークン精度トレードオフを包括的に検討する。
論文 参考訳(メタデータ) (2024-12-17T09:20:31Z) - LoRC: Low-Rank Compression for LLMs KV Cache with a Progressive Compression Strategy [59.1298692559785]
キーバリュー(KV)キャッシュは、トランスフォーマーベースの自己回帰型大言語モデル(LLM)を提供する上で重要なコンポーネントである。
この問題を緩和するためのアプローチとしては、(1) アップサイクルステージに統合された効率的な注意変動、(2) テスト時のKVキャッシュ圧縮、(3) テスト時のKVキャッシュ圧縮がある。
そこで我々は,KV重み行列の低ランク近似を提案し,モデル再学習なしに既存のトランスフォーマーベースLCMとのプラグイン統合を実現する。
本手法は,テスト段階におけるアップサイクリング段階のモデルチューニングやタスク固有のプロファイリングを伴わずに機能するように設計されている。
論文 参考訳(メタデータ) (2024-10-04T03:10:53Z) - KV Cache is 1 Bit Per Channel: Efficient Large Language Model Inference with Coupled Quantization [34.824534775022144]
KVキャッシュ圧縮の手法として結合量子化(CQ)を提案する。
CQは複数のキー/バリューチャネルを結合して、その依存性を利用して、より情報効率の良い方法でアクティベーションをエンコードする。
我々は,KVキャッシュを1ビットまで量子化することで,CQがモデル品質を維持できることを実証した。
論文 参考訳(メタデータ) (2024-05-07T00:25:20Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。