論文の概要: RAP: KV-Cache Compression via RoPE-Aligned Pruning
- arxiv url: http://arxiv.org/abs/2602.02599v2
- Date: Wed, 04 Feb 2026 07:20:02 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-02-05 15:07:33.718861
- Title: RAP: KV-Cache Compression via RoPE-Aligned Pruning
- Title(参考訳): RAP: RoPE対応プルーニングによるKVキャッシュ圧縮
- Authors: Jihao Xin, Tian Lvu, David Keyes, Hatem Ltaief, Marco Canini,
- Abstract要約: 大規模言語モデルにおける長いコンテキスト推論は、KV-Cacheのメモリと計算コストによってますますボトルネックになっている。
我々は,RoPEの2x2回転構造を保ち,B吸収を回復し,復元をなくすために,全RoPEの列対を突破するRAP(RoPE-Aligned Pruning)を提案する。
- 参考スコア(独自算出の注目度): 3.6440310909465334
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Long-context inference in large language models is increasingly bottlenecked by the memory and compute cost of the KV-Cache. Low-rank factorization compresses KV projections by writing $W \approx A * B$, where A produces latent KV states and B can be absorbed into downstream weights. In modern RoPE-based LLMs, this absorption fails: RoPE forces latent KV states to be reconstructed to full dimension, reintroducing substantial memory and compute overhead. We propose RoPE-Aligned Pruning (RAP), which prunes entire RoPE-aligned column pairs to preserve RoPE's 2x2 rotation structure, restore B absorption, and eliminate reconstruction. Our evaluation on LLaMA-3-8B and Mistral-7B shows that RAP enables joint reduction of KV-Cache, attention parameters, and FLOPs by 20-30%, all at once, while maintaining strong accuracy. Notably, RAP reduces attention latency to 83% (prefill) and 77% (decode) of baseline.
- Abstract(参考訳): 大規模言語モデルにおける長いコンテキスト推論は、KV-Cacheのメモリと計算コストによってますますボトルネックになっている。
低ランク因子化は、KVプロジェクションを$W \approx A * B$と書くことで圧縮し、Aは潜在KV状態を生成し、Bは下流の重みに吸収される。
現代の RoPE ベースの LLM では、この吸収は失敗する: RoPE の潜在 KV 状態はフル次元に再構成され、かなりのメモリと計算オーバーヘッドが再導入される。
我々は,RoPEの2x2回転構造を保ち,B吸収を回復し,復元をなくすために,全RoPEの列対を突破するRAP(RoPE-Aligned Pruning)を提案する。
LLaMA-3-8B と Mistral-7B による評価の結果,RAP は KV-Cache ,注目パラメータ,FLOP を20~30% の高速化が可能であり,高い精度を維持した。
特に、RAPは注意の遅延を83%(プリフィル)、ベースラインの77%(デコード)に削減する。
関連論文リスト
- ForesightKV: Optimizing KV Cache Eviction for Reasoning Models by Learning Long-Term Contribution [84.41751286055909]
我々は、長文世代におけるどのKVペアを退避させるかを予測する訓練ベースのKVキャッシュ消去フレームワークを開発した。
我々は、マルコフ決定過程としてキャッシュ消去を定式化し、GRPOアルゴリズムを適用し、低エントロピートークンにおける言語モデリング損失の増加を緩和する。
論文 参考訳(メタデータ) (2026-02-03T07:16:51Z) - FlowKV: Enhancing Multi-Turn Conversational Coherence in LLMs via Isolated Key-Value Cache Management [48.904743679691414]
FlowKVはKVキャッシュ管理のための新しいマルチターン分離機構である。
蓄積された圧縮KVキャッシュを過去のターンから保存する。
古い文脈の再圧縮を防ぎ、破滅的な忘れを和らげる。
論文 参考訳(メタデータ) (2025-05-21T10:20:46Z) - EliteKV: Scalable KV Cache Compression via RoPE Frequency Selection and Joint Low-Rank Projection [32.046554914514026]
本稿では,可変KVキャッシュ圧縮比をサポートするRoPEモデルのためのフレキシブルフレームワークであるEliteKVを紹介する。
最小限のアップトレーニングにより、RoPEベースのモデルは、無視できるマージン内でパフォーマンスを保ちながら、KVキャッシュサイズを75%削減する。
論文 参考訳(メタデータ) (2025-03-03T14:26:51Z) - DBudgetKV: Dynamic Budget in KV Cache Compression for Ensuring Optimal Performance [125.81664663201282]
我々はDBudgetKVと呼ばれる新しいKVキャッシュ圧縮手法を提案する。
残りのKVキャッシュがフルキャッシュのパフォーマンスにマッチしない場合、注意ベースのメトリクスが特徴である。
提案手法は, 平均圧縮率25%を超え, 無損失KVプルーニングを効果的かつ堅牢に実現している。
論文 参考訳(メタデータ) (2025-02-24T06:33:39Z) - Towards Economical Inference: Enabling DeepSeek's Multi-Head Latent Attention in Any Transformer-based LLMs [92.7279890407059]
MLA(Multi-head Latent Attention)は、効率的かつ経済的推論を保証するために設計された革新的なアーキテクチャである。
本稿では,マルチヘッドアテンションからMLAへの移行のための,データ効率の良いファインチューニング手法を提案する。
論文 参考訳(メタデータ) (2025-02-20T18:50:42Z) - BaKlaVa -- Budgeted Allocation of KV cache for Long-context Inference [6.222836318380985]
BaKlaVaは、モデル全体で個々のKVキャッシュに対して最適なメモリを割り当てる手法である。
LLaMA-3-8BモデルとQwen2.5-7Bモデルについて検討した。
論文 参考訳(メタデータ) (2025-02-18T04:08:29Z) - LoRC: Low-Rank Compression for LLMs KV Cache with a Progressive Compression Strategy [59.1298692559785]
キーバリュー(KV)キャッシュは、トランスフォーマーベースの自己回帰型大言語モデル(LLM)を提供する上で重要なコンポーネントである。
この問題を緩和するためのアプローチとしては、(1) アップサイクルステージに統合された効率的な注意変動、(2) テスト時のKVキャッシュ圧縮、(3) テスト時のKVキャッシュ圧縮がある。
そこで我々は,KV重み行列の低ランク近似を提案し,モデル再学習なしに既存のトランスフォーマーベースLCMとのプラグイン統合を実現する。
本手法は,テスト段階におけるアップサイクリング段階のモデルチューニングやタスク固有のプロファイリングを伴わずに機能するように設計されている。
論文 参考訳(メタデータ) (2024-10-04T03:10:53Z) - KV-Compress: Paged KV-Cache Compression with Variable Compression Rates per Attention Head [0.8158530638728501]
そこで我々は,PagedAttentionフレームワーク内で連続KVブロックを除去する新しい圧縮手法であるKV-Compressを紹介する。
本手法は,Mistral-7B-Instruct-v0.2およびLlama-3.1-8B-InstructのLongBenchにおける圧縮KVの総数を4倍に減らしながら,最先端の性能を実現する。
Llama-3.1-8B-InstructとLlama-3.1-70B-Instruct-FP8の評価は、圧縮速度を最大8倍まで達成し、性能に悪影響を及ぼすことなく、フルキャッシュ性能の90%以上を維持しながら、最大64倍まで向上する。
論文 参考訳(メタデータ) (2024-09-30T19:09:13Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。