論文の概要: FAEDKV: Infinite-Window Fourier Transform for Unbiased KV Cache Compression
- arxiv url: http://arxiv.org/abs/2507.20030v1
- Date: Sat, 26 Jul 2025 18:20:25 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-07-29 16:23:56.758147
- Title: FAEDKV: Infinite-Window Fourier Transform for Unbiased KV Cache Compression
- Title(参考訳): FAEDKV: Infinite-Window Fourier Transform for Unbiased KV Cache Compression
- Authors: Runchao Li, Yao Fu, Mu Sheng, Xianxuan Long, Haotian Yu, Pan Li,
- Abstract要約: FAEDKVは、トレーニング不要のKVキャッシュ圧縮フレームワークである。
初期の情報と最近の情報の両方を保存している。
LongBenchベンチマークの実験では、FAEDKVは既存のメソッドよりも最大22%優れていた。
- 参考スコア(独自算出の注目度): 18.12657364501536
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: The efficacy of Large Language Models (LLMs) in long-context tasks is often hampered by the substantial memory footprint and computational demands of the Key-Value (KV) cache. Current compression strategies, including token eviction and learned projections, frequently lead to biased representations -- either by overemphasizing recent/high-attention tokens or by repeatedly degrading information from earlier context -- and may require costly model retraining. We present FAEDKV (Frequency-Adaptive Infinite-Window for KV cache), a novel, training-free KV cache compression framework that ensures unbiased information retention. FAEDKV operates by transforming the KV cache into the frequency domain using a proposed Infinite-Window Fourier Transform (IWDFT). This approach allows for the equalized contribution of all tokens to the compressed representation, effectively preserving both early and recent contextual information. A preliminary frequency ablation study identifies critical spectral components for layer-wise, targeted compression. Experiments on LongBench benchmark demonstrate FAEDKV's superiority over existing methods by up to 22\%. In addition, our method shows superior, position-agnostic retrieval accuracy on the Needle-In-A-Haystack task compared to compression based approaches.
- Abstract(参考訳): 長いコンテキストタスクにおけるLarge Language Models (LLM) の有効性は、キーバリュー(KV)キャッシュのメモリフットプリントと計算要求によってしばしば妨げられる。
トークンの排除や学習されたプロジェクションを含む現在の圧縮戦略は、最近の/高アテンショントークンを過度に強調するか、あるいは以前のコンテキストから繰り返し情報を劣化させることによって、しばしばバイアスのある表現につながる。
FAEDKV (Frequency-Adaptive Infinite-Window for KV cache) は,非バイアス情報保持を保証する新しいKVキャッシュ圧縮フレームワークである。
FAEDKV は、提案した Infinite-Window Fourier Transform (IWDFT) を用いて、KV キャッシュを周波数領域に変換する。
このアプローチは、圧縮された表現に対する全てのトークンの等化コントリビューションを可能にし、初期および最近の文脈情報の両方を効果的に保存する。
予備周波数アブレーション法では, 層状, ターゲット圧縮のための臨界スペクトル成分を同定する。
LongBenchベンチマークの実験では、FAEDKVが既存のメソッドよりも最大22%優れていたことが示されている。
さらに,本手法は,圧縮に基づく手法と比較して,ニードル・イン・A・ヘイスタックタスクにおいて,精度が高く,位置に依存しない検索精度を示す。
関連論文リスト
- KV-Latent: Dimensional-level KV Cache Reduction with Frequency-aware Rotary Positional Embedding [72.12756830560217]
Transformer Decodersをベースとした大規模言語モデル(LLM)が、会話生成AIの選択肢として好まれている。
デコーダアーキテクチャの全体的な優位性にもかかわらず、推論中にキーバリューキャッシュが徐々に増加し、主要な効率ボトルネックとなっている。
キーバリューベクトル次元を潜在空間にダウンサンプリングすることで、KVキャッシュのフットプリントを大幅に削減し、推論速度を向上させることができる。
論文 参考訳(メタデータ) (2025-07-15T12:52:12Z) - ReCalKV: Low-Rank KV Cache Compression via Head Reordering and Offline Calibration [81.81027217759433]
大きな言語モデル(LLM)はキーバリュー(KV)キャッシュを保存するのに必要な過剰なメモリによって制約されることが多い。
近年,KVキャッシュの隠蔽次元の低減について検討されている。
本稿では,KVキャッシュの隠れ次元を削減した後学習KVキャッシュ圧縮手法ReCalKVを提案する。
論文 参考訳(メタデータ) (2025-05-30T08:49:27Z) - FreqKV: Frequency Domain Key-Value Compression for Efficient Context Window Extension [20.360392907997117]
本稿では、新しい周波数領域鍵値(KV)圧縮技術であるFreqKVを提案する。
Freq KVはデコーダのみの大規模言語モデル(LLM)のための効率的なコンテキストウィンドウ拡張を可能にする
長い文脈言語モデリングおよび理解タスクの実験は,提案手法の有効性と有効性を示す。
論文 参考訳(メタデータ) (2025-05-01T14:53:12Z) - KV-Distill: Nearly Lossless Learnable Context Compression for LLMs [37.0803484148612]
我々は、長いコンテキストKVキャッシュをはるかに短い表現に蒸留するTransformer圧縮フレームワークであるKV-Distillを紹介する。
KV-Distillは、事前訓練されたモデルに対するパラメータ効率の良い適応器として訓練することができる。
ドメイン固有のコンテキストを微調整することで、下流のパフォーマンスを維持しながら、最大99%の長さを削減できる。
論文 参考訳(メタデータ) (2025-03-13T13:15:28Z) - DBudgetKV: Dynamic Budget in KV Cache Compression for Ensuring Optimal Performance [125.81664663201282]
我々はDBudgetKVと呼ばれる新しいKVキャッシュ圧縮手法を提案する。
残りのKVキャッシュがフルキャッシュのパフォーマンスにマッチしない場合、注意ベースのメトリクスが特徴である。
提案手法は, 平均圧縮率25%を超え, 無損失KVプルーニングを効果的かつ堅牢に実現している。
論文 参考訳(メタデータ) (2025-02-24T06:33:39Z) - More Tokens, Lower Precision: Towards the Optimal Token-Precision Trade-off in KV Cache Compression [71.42818367729573]
大規模言語モデル(LLM)では、KVキャッシュのメモリ使用量は推論において重大なボトルネックとなっている。
KVプルーニングやKV量子化を含む主流のKV圧縮法は、主にトークンまたは精度寸法を別々に扱う。
本稿では,KVキャッシュ圧縮におけるトークン精度トレードオフを包括的に検討する。
論文 参考訳(メタデータ) (2024-12-17T09:20:31Z) - PrefixKV: Adaptive Prefix KV Cache is What Vision Instruction-Following Models Need for Efficient Generation [68.71450519846081]
キー値(KV)キャッシュは、長い入力シーケンスと出力シーケンスを必要とするが、特に高い推論コストに寄与する。
ここでは,すべてのレイヤのKVキャッシュサイズを決定するという課題を,最適なグローバルプレフィックス設定を探すタスクに再編成するPrefixKVを提案する。
本手法は他の手法と比較して最先端の性能を実現する。
論文 参考訳(メタデータ) (2024-12-04T15:48:59Z) - Compressing KV Cache for Long-Context LLM Inference with Inter-Layer Attention Similarity [24.118503938098307]
textscPoDはトークンの重要度に応じてメモリを割り当てる。
textscPoDは、パフォーマンスを損なうことなく、KVキャッシュメモリ使用量を最大35%削減する。
論文 参考訳(メタデータ) (2024-12-03T08:29:27Z) - LoRC: Low-Rank Compression for LLMs KV Cache with a Progressive Compression Strategy [59.1298692559785]
キーバリュー(KV)キャッシュは、トランスフォーマーベースの自己回帰型大言語モデル(LLM)を提供する上で重要なコンポーネントである。
この問題を緩和するためのアプローチとしては、(1) アップサイクルステージに統合された効率的な注意変動、(2) テスト時のKVキャッシュ圧縮、(3) テスト時のKVキャッシュ圧縮がある。
そこで我々は,KV重み行列の低ランク近似を提案し,モデル再学習なしに既存のトランスフォーマーベースLCMとのプラグイン統合を実現する。
本手法は,テスト段階におけるアップサイクリング段階のモデルチューニングやタスク固有のプロファイリングを伴わずに機能するように設計されている。
論文 参考訳(メタデータ) (2024-10-04T03:10:53Z) - A Simple and Effective $L_2$ Norm-Based Strategy for KV Cache Compression [13.981807478365452]
キーバリューキャッシュサイズを減らすための既存のアプローチは、圧縮戦略を学ぶためのモデルを微調整するか、シーケンス長を減らすためにアテンションスコアを利用するかのいずれかである。
キャッシュされたKVペアに対して、$L$とアテンションスコアとの間に明らかな相関関係が見られ、キー埋め込みの低い$L$がデコード時に高いアテンションスコアをもたらす。
実験の結果,この単純な手法により,言語モデリングやニードル・イン・ア・ヘイスタックタスクでは50%,パスキー検索タスクでは90%,精度を損なうことなく,KVキャッシュサイズを50%削減できることがわかった。
論文 参考訳(メタデータ) (2024-06-17T11:35:16Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。