論文の概要: ManifoldKV: Training-Free KV Cache Compression via Euclidean Outlier Detection
- arxiv url: http://arxiv.org/abs/2602.08343v1
- Date: Mon, 09 Feb 2026 07:28:55 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-02-10 20:26:25.105018
- Title: ManifoldKV: Training-Free KV Cache Compression via Euclidean Outlier Detection
- Title(参考訳): ManifoldKV:ユークリッド外乱検出によるトレーニング不要KVキャッシュ圧縮
- Authors: Debajyoti Datta, Trishala Neeraj, Bibek Paudel, Vyom Sharma, Subhabrata Mukherjee,
- Abstract要約: キーセントロイドにユークリッド距離でトークンをランク付けする学習自由スコアラを提案する。
ManifoldKVは4K-16Kコンテキストで95.7%の精度を実現し、圧縮率は20%である。
WindowedManifoldKV は 25% 圧縮で 84.3% まで精度を回復し、グローバル L2 では 49 点、キーディフでは +3.2 点を回復する。
- 参考スコア(独自算出の注目度): 8.362927764080203
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Long-context inference is constrained by KV-cache memory, which grows linearly with sequence length; KV-cache compression therefore hinges on reliably selecting which past tokens to retain. Most geometry-based eviction methods score keys by cosine similarity to a global centroid, but cosine is scale-invariant and can discard magnitude cues that distinguish semantically salient tokens. We propose ManifoldKV, a training-free scorer that ranks tokens by Euclidean distance to the key centroid, capturing both angular and radial deviations. On the RULER benchmark, ManifoldKV achieves 95.7% accuracy at 4K-16K contexts with 20% compression; matching the best geometric baseline while improving robustness in two regimes where cosine scoring fails. First, on multi-key retrieval, ManifoldKV reduces directional collisions, achieving 92.4% vs KeyDiff's 77.0% (+15.4 points) on 3-key NIAH at 50% compression. Second, to address dilution and performance collapse of global centroids at 64K context, we introduce WindowedManifoldKV, which restores accuracy to 84.3% at 25% compression, a 49-point recovery over global L2 and +3.2 points over KeyDiff. The method requires only 3 lines of code and works across 4 architectures without tuning.
- Abstract(参考訳): 長文推論はKV-cacheメモリによって制約され、シーケンス長と線形に成長するので、KV-cache圧縮はどの過去のトークンを保持するかを確実に選択する。
ほとんどの幾何学に基づく消去法は、大域的なセントロイドとコサインの類似性によって鍵をスコアするが、コサインはスケール不変であり、意味論的に有意なトークンを区別する大きさの手がかりを破棄することができる。
我々は,Euclidean 距離のトークンをキーセントロイドにランク付けし,角偏差と放射偏差を捕捉するトレーニングフリースコアラー ManifoldKV を提案する。
RULERベンチマークでは、ManifoldKVは4K-16Kコンテキストで95.7%の精度で20%の圧縮を実現している。
まず、マルチキー検索において、ManifoldKVは方向衝突を92.4%減らし、3key NIAHでキーディフの77.0%(+15.4ポイント)を50%圧縮した。
第二に、64Kコンテキストでのグローバルセントロイドの希釈と性能崩壊に対処するため、WindowedManifoldKVを導入し、25%圧縮で84.3%まで精度を回復し、グローバルL2の49ポイント、キーディフの+3.2ポイントを回復する。
このメソッドはたった3行のコードしか必要とせず、チューニングなしで4つのアーキテクチャで動作します。
関連論文リスト
- LOOKAT: Lookup-Optimized Key-Attention for Memory-Efficient Transformers [0.0]
現在の量子化法では、ストレージを圧縮するが、注意計算では、使用前にINT4/INT8からFP16へ鍵を復号化する必要があるため帯域幅を削減できない。
本稿では,鍵ベクトルを部分空間に分解することで,製品量子化と非対称距離計算をトランスフォーマーアーキテクチャに適用するLOokaTを提案する。
論文 参考訳(メタデータ) (2026-01-15T07:54:07Z) - Homogeneous Keys, Heterogeneous Values: Exploiting Local KV Cache Asymmetry for Long-Context LLMs [28.554617623874176]
我々は、KVキャッシュにおいて、基本的かつ以前見過ごされた非対称性を示す。
キー値の非対称性は、既存の圧縮法に限界があることを示している。
均質性に基づく鍵マージと数学的に証明されたロスレス値圧縮を併用したトレーニングフリー圧縮フレームワーク(AsymKV)を提案する。
論文 参考訳(メタデータ) (2025-06-04T16:10:44Z) - ReCalKV: Low-Rank KV Cache Compression via Head Reordering and Offline Calibration [69.57122277845293]
ReCalKVは,キーと値の調整を施した低ランクKVキャッシュ圧縮手法である。
キーズでは、構造的に類似した頭部をグループにクラスタリングし、より正確な低ランク近似を可能にするSimisity aware Recontext (HSR)を提案する。
本稿では,オフラインヘッドワイド値(OVC)を提案する。これはトレーニングなしでキャリブレーションデータを用いて,効率的に値予測行列を校正する。
論文 参考訳(メタデータ) (2025-05-30T08:49:27Z) - ChunkKV: Semantic-Preserving KV Cache Compression for Efficient Long-Context LLM Inference [61.412894960600205]
大きな言語モデル(LLM)は、長いテキストを処理する際に大きなGPUメモリを必要とする。
ChunkKVは、セマンティックチャンクを基本的な圧縮単位として扱うことで、KVキャッシュ圧縮を再定義する。
結果: ChunkKVは最先端の手法を最大8.7%精度で上回る。
論文 参考訳(メタデータ) (2025-02-01T03:49:47Z) - EMS: Adaptive Evict-then-Merge Strategy for Head-wise KV Cache Compression Based on Global-Local Importance [44.14919492126948]
メモリオーバーヘッドが重要になるにつれて、KVキャッシュの効率的な圧縮が注目されている。
我々は,これらの制限を克服すると同時に,極端な圧縮比下でのKVキャッシュ圧縮を向上するEMSを提案する。
EMSは最低の難易度を一貫して達成し、256のキャッシュ予算の下でLongBench上の4つのLLMで1.28ポイント以上改善し、Needdle-in-a-Haystackタスクのコンテキスト長の2%未満のキャッシュ予算で95%の検索精度を維持している。
論文 参考訳(メタデータ) (2024-12-11T16:35:13Z) - KV-Compress: Paged KV-Cache Compression with Variable Compression Rates per Attention Head [0.8158530638728501]
そこで我々は,PagedAttentionフレームワーク内で連続KVブロックを除去する新しい圧縮手法であるKV-Compressを紹介する。
本手法は,Mistral-7B-Instruct-v0.2およびLlama-3.1-8B-InstructのLongBenchにおける圧縮KVの総数を4倍に減らしながら,最先端の性能を実現する。
Llama-3.1-8B-InstructとLlama-3.1-70B-Instruct-FP8の評価は、圧縮速度を最大8倍まで達成し、性能に悪影響を及ぼすことなく、フルキャッシュ性能の90%以上を維持しながら、最大64倍まで向上する。
論文 参考訳(メタデータ) (2024-09-30T19:09:13Z) - LoCoCo: Dropping In Convolutions for Long Context Compression [77.26610232994508]
本稿では,Long Context Compression(LoCoCo)のための新しいアプローチであるDropping In Convolutionsを提案する。
LoCoCoは、固定サイズキーバリュー(KV)キャッシュのみを使用し、推論と微調整の両方のステージで効率を向上させることができる。
論文 参考訳(メタデータ) (2024-06-08T01:35:11Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。