論文の概要: HeatKV: Head-tuned KV-cache Compression for Visual Autoregressive Modeling
- arxiv url: http://arxiv.org/abs/2605.14877v1
- Date: Thu, 14 May 2026 14:22:34 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-05-15 21:45:34.87008
- Title: HeatKV: Head-tuned KV-cache Compression for Visual Autoregressive Modeling
- Title(参考訳): HeatKV:視覚自己回帰モデリングのためのヘッドチューニングKV-cache圧縮
- Authors: Jonathan Cederlund, Axel Berg, Durmus Alp Emre Acar, Chuteng Zhou, Pontus Giselsson,
- Abstract要約: HeatKVは、各ヘッドのキャッシュ割り当てを、そのアテンションに基づいて予め生成されたスケールに適応させる新しい圧縮手法である。
HeatKVは、VARモデルKV-cache圧縮のための新しい最先端(SOTA)を実現し、粒度の細かいヘッド固有のキャッシュ割り当ての有効性を示している。
- 参考スコア(独自算出の注目度): 2.8560048042907744
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Visual Autoregressive (VAR) models have recently demonstrated impressive image generation quality while maintaining low latency. However, they suffer from severe KV-cache memory constraints, often requiring gigabytes of memory per generated image. We introduce HeatKV, a novel compression method that adapts cache allocation in each head based on its attention to previously generated scales. Using a small offline calibration set, the attention heads are ranked according to their attention scores over prior scales. Based on this ranking, we construct a static pruning schedule tailored to a given memory budget. Applied to the Infinity-2B model, HeatKV achieves $2 \times$ higher compression ratio in memory allocation for KV cache compared to existing methods, while maintaining similar or better image fidelity, prompt alignment and human perception score. Our method achieves a new state-of-the-art (SOTA) for VAR model KV-cache compression, showcasing the effectiveness of fine-grained, head-specific cache allocation.
- Abstract(参考訳): Visual Autoregressive (VAR)モデルは最近、低レイテンシを維持しながら、印象的な画像生成品質を誇示している。
しかし、それらはKVキャッシュの厳しいメモリ制約に悩まされ、しばしば生成された画像ごとにギガバイトのメモリを必要とする。
本研究では,各ヘッドにキャッシュ割り当てを適応させる新しい圧縮手法であるHeatKVを紹介する。
小さなオフラインキャリブレーションセットを使用して、アテンションヘッドは、以前のスケールよりもアテンションスコアに従ってランク付けされる。
このランキングに基づいて、所定のメモリ予算に合わせて静的プルーニングスケジュールを構築する。
Infinity-2Bモデルに適用すると、HeatKVはKVキャッシュのメモリ割り当てにおける圧縮率を2ドル(約2,300円)で達成できる。
提案手法は,VARモデルKVキャッシュ圧縮のための新しい最先端(SOTA)を実現する。
関連論文リスト
- ReCalKV: Low-Rank KV Cache Compression via Head Reordering and Offline Calibration [69.57122277845293]
ReCalKVは,キーと値の調整を施した低ランクKVキャッシュ圧縮手法である。
キーズでは、構造的に類似した頭部をグループにクラスタリングし、より正確な低ランク近似を可能にするSimisity aware Recontext (HSR)を提案する。
本稿では,オフラインヘッドワイド値(OVC)を提案する。これはトレーニングなしでキャリブレーションデータを用いて,効率的に値予測行列を校正する。
論文 参考訳(メタデータ) (2025-05-30T08:49:27Z) - DBudgetKV: Dynamic Budget in KV Cache Compression for Ensuring Optimal Performance [125.81664663201282]
我々はDBudgetKVと呼ばれる新しいKVキャッシュ圧縮手法を提案する。
残りのKVキャッシュがフルキャッシュのパフォーマンスにマッチしない場合、注意ベースのメトリクスが特徴である。
提案手法は, 平均圧縮率25%を超え, 無損失KVプルーニングを効果的かつ堅牢に実現している。
論文 参考訳(メタデータ) (2025-02-24T06:33:39Z) - BaKlaVa -- Budgeted Allocation of KV cache for Long-context Inference [6.222836318380985]
BaKlaVaは、モデル全体で個々のKVキャッシュに対して最適なメモリを割り当てる手法である。
LLaMA-3-8BモデルとQwen2.5-7Bモデルについて検討した。
論文 参考訳(メタデータ) (2025-02-18T04:08:29Z) - KVSharer: Efficient Inference via Layer-Wise Dissimilar KV Cache Sharing [58.29726147780976]
我々は,層間をKVキャッシュで共有し,層間圧縮を実現する,textit KVSharerと呼ばれるプラグアンドプレイ方式を提案する。
実験の結果、textit KVSharerはKVキャッシュの計算を30%削減し、メモリ消費を削減できることがわかった。
我々は,textit KVSharerが既存の層内KVキャッシュ圧縮手法と互換性があることを検証する。
論文 参考訳(メタデータ) (2024-10-24T08:06:41Z) - PyramidKV: Dynamic KV Cache Compression based on Pyramidal Information Funneling [38.732413451399]
ピラミッドKVは新規かつ効果的なKVキャッシュ圧縮法である。
提案手法は,KVキャッシュの12%しか保持せず,完全なKVキャッシュでモデルの性能と一致していることを示す。
Needle-in-a-Haystack実験では、Praamid KVは長文理解の維持において競合する手法より優れている。
論文 参考訳(メタデータ) (2024-06-04T07:51:30Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。