論文の概要: Quantized Keys Steal Attention: Bias Correction for KV-Cache Compression in Video Diffusion
- arxiv url: http://arxiv.org/abs/2605.26266v1
- Date: Mon, 25 May 2026 18:51:59 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-05-27 17:51:41.365036
- Title: Quantized Keys Steal Attention: Bias Correction for KV-Cache Compression in Video Diffusion
- Title(参考訳): 量子鍵ステアリング:ビデオ拡散におけるKVキャッシュ圧縮のバイアス補正
- Authors: Tuna Tuncer, Felix Becker, Thomas Pfeil,
- Abstract要約: KVキャッシュを低ビット幅に定量化する手法は、メモリ圧力を低減させるが、画質を低下させる。
この劣化の鍵となる要因は、注意重みの体系的なバイアスであることを示す。
我々は、この予測バイアスを除去するアテンションごとのスコア補正を導出する。
- 参考スコア(独自算出の注目度): 1.1852406625172218
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Chunk-wise autoregressive video diffusion models rely on a KV cache of previously generated chunks to avoid redundant computation, but this cache quickly becomes a memory bottleneck as videos grow longer. Methods that quantize the KV cache to low bitwidths reduce memory pressure but degrade video quality. We show that a key driver of this degradation is a systematic bias in attention weights: due to the convexity of the exponential in softmax attention, quantization noise inflates the contribution of cached keys, a phenomenon we call the Jensen bias. This effect causes quantized keys to steal attention mass from the unquantized current chunk. We derive a per-attention-score correction that removes this bias in expectation, computed on the fly from the quantization step sizes of the cached keys and the query norm. Using a second-order Taylor approximation, the additional computational overhead is negligible, and no additional memory is needed alongside the cache. Evaluated on MAGI-1, SkyReels-V2, and HY-WorldPlay at INT2 quantization, our correction recovers most of the quality lost to aggressive quantization, reaching near-BF16 video quality, and can outperform INT4 quantization while using 50% less memory.
- Abstract(参考訳): チャンクワイド自動回帰ビデオ拡散モデルは、冗長な計算を避けるために、以前に生成されたチャンクのKVキャッシュに依存するが、ビデオが長くなるにつれて、このキャッシュはすぐにメモリボトルネックとなる。
KVキャッシュを低ビット幅に定量化する手法は、メモリ圧力を低減させるが、画質を低下させる。
この劣化の鍵となる要因は注意重みの体系的バイアスであり、指数関数がソフトマックスアテンションの凸性のため、量子化ノイズはキャッシュされたキーの寄与を膨らませる、ジェンセンバイアスと呼ばれる現象である。
この効果により、量子化された鍵は、未定量な電流チャンクから注意質量を盗む。
キャッシュされたキーの量子化ステップサイズとクエリノルムから,期待値のこのバイアスを即時に計算するアテンションスコア補正を導出する。
2階のTaylor近似を用いることで、余分な計算オーバーヘッドが無視され、キャッシュとともに追加のメモリが不要になる。
MAGI-1, SkyReels-V2, HY-WorldPlay at INT2 Quantization で評価し, アグレッシブ量子化で失われる品質の大部分を回復し, BF16 に近いビデオ品質に到達し, メモリを50%削減して INT4 Quantization を上回ります。
関連論文リスト
- RDKV: Rate-Distortion Bit Allocation for Joint Eviction and Quantization of the KV Cache [28.54642982960947]
大規模言語モデル(LLM)は様々なタスクにまたがって高い性能を示すが、長い入力コンテキストでの推論はメモリサイズと帯域幅によってボトルネックとなる。
既存のメソッドは、消去または量子化によってキャッシュを減らすが、通常は2つを分離して扱う。
本稿では、KVキャッシュ圧縮をレート歪み問題とみなし、同じビット割り当て方式の2つの端点の消去と量子化を行う。
論文 参考訳(メタデータ) (2026-05-08T15:15:06Z) - InnerQ: Hardware-aware Tuning-free Quantization of KV Cache for Large Language Models [4.4248984733976275]
innerQはハードウェア対応のKVキャッシュ量子化スキームで、精度を犠牲にすることなく遅延を復号する。
内部次元上のキャッシュ行列をグループ化しながら、グループワイズ量子化を適用する。
Llamaモデルに対する評価実験により、InnerQは非量子化KVキャッシュに匹敵する数ショットのGSM8K性能を維持していることが示された。
論文 参考訳(メタデータ) (2026-02-26T16:50:36Z) - Quant VideoGen: Auto-Regressive Long Video Generation via 2-Bit KV-Cache Quantization [83.406036390582]
Quant VideoGen(QVG)は、自動回帰ビデオ拡散モデルのためのトレーニングフリーなKVキャッシュ量子化フレームワークである。
これにより、KVメモリを最大7.0倍に削減できる。
生成品質において、既存のベースラインを一貫して上回る。
論文 参考訳(メタデータ) (2026-02-03T00:54:32Z) - ReCalKV: Low-Rank KV Cache Compression via Head Reordering and Offline Calibration [69.57122277845293]
ReCalKVは,キーと値の調整を施した低ランクKVキャッシュ圧縮手法である。
キーズでは、構造的に類似した頭部をグループにクラスタリングし、より正確な低ランク近似を可能にするSimisity aware Recontext (HSR)を提案する。
本稿では,オフラインヘッドワイド値(OVC)を提案する。これはトレーニングなしでキャリブレーションデータを用いて,効率的に値予測行列を校正する。
論文 参考訳(メタデータ) (2025-05-30T08:49:27Z) - SQuat: Subspace-orthogonal KV Cache Quantization [19.131705063324883]
SQuat(Subspace-orthogonal KV cache Quantization)を導入し、ピークメモリを2.17から2.82に削減し、スループットを2.45から3.60に改善し、既存のKVキャッシュ量子化アルゴリズムよりも優れたベンチマークスコアを得る。
我々は,ピークメモリを2.17から2.82に削減し,スループットを2.45から3.60に改善し,既存のKVキャッシュ量子化アルゴリズムよりも優れたベンチマークスコアを得ることを示した。
論文 参考訳(メタデータ) (2025-03-31T17:37:32Z) - Plug-and-Play 1.x-Bit KV Cache Quantization for Video Large Language Models [34.412682369104765]
ビデオ大言語モデル(VideoLLM)は、より長いビデオ入力を処理し、複雑な推論と分析を可能にする能力を実証している。
ビデオフレームからの数千の視覚トークンのため、キー値(KV)キャッシュはメモリ要求を大幅に増加させることができる。
本稿では,KVキャッシュを2ビット未満に圧縮するKVキャッシュ量子化手法であるVidKVを紹介する。
論文 参考訳(メタデータ) (2025-03-20T15:52:43Z) - ThinK: Thinner Key Cache by Query-Driven Pruning [63.13363917871414]
大規模言語モデル(LLM)は自然言語処理の分野に革命をもたらし、様々なアプリケーションで前例のない性能を達成した。
本稿では,KVキャッシュのメモリ消費の非効率性に対処する長文シナリオに焦点を当てた。
我々は,最小のチャネルを選択的に切断しながら,注目重量損失を最小限に抑える新しいクエリ依存型KVキャッシュプルーニング手法であるThinKを提案する。
論文 参考訳(メタデータ) (2024-07-30T17:59:08Z) - KIVI: A Tuning-Free Asymmetric 2bit Quantization for KV Cache [67.9776980972508]
我々はKIVIというチューニング不要な2ビットKVキャッシュ量子化アルゴリズムを開発した。
KIVI は Llama, Falcon, Mistral のモデルを $mathbf2.6times$ less peak memory を使用しながらほぼ同じ品質を維持することができる。
論文 参考訳(メタデータ) (2024-02-05T06:06:47Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。