論文の概要: PatternKV: Flattening KV Representation Expands Quantization Headroom
- arxiv url: http://arxiv.org/abs/2510.05176v1
- Date: Sun, 05 Oct 2025 12:09:14 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-10-08 17:57:07.888338
- Title: PatternKV: Flattening KV Representation Expands Quantization Headroom
- Title(参考訳): PatternKV: フラット化KV表現が量子化ヘッドルームを拡大
- Authors: Ji Zhang, Yiwei Li, Shaoxiong Feng, Peiwen Yuan, Xinglin Wang, Jiayi Shi, Yueqi Zhang, Chuyi Tan, Boyuan Pan, Yao Hu, Kan Li,
- Abstract要約: 自己回帰 LLM における KV キャッシュは冗長な再計算を排除しているが、推論時に支配的なメモリと帯域幅のボトルネックとして出現している。
KV量子化はキャッシュコストを削減するキーレバーであるが、ネイティブなKV分布が平坦性に欠けるため、精度は急激に低下する。
Kキャッシュは、コンテキストとともに徐々に進化する安定した構造を維持し、Vキャッシュは潜在意味規則性を持つことを示す。
- 参考スコア(独自算出の注目度): 37.83913102876393
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: KV cache in autoregressive LLMs eliminates redundant recomputation but has emerged as the dominant memory and bandwidth bottleneck during inference, notably with long contexts and test-time scaling. KV quantization is a key lever for reducing cache cost, but accuracy drops sharply as the native KV distribution lacks flatness and thus maintains a wide quantization range. Prior work focuses on isolating outliers, which caps their error but fails to flatten the overall distribution, leaving performance fragile under low-bit settings. In this work, we show that the K cache maintains a stable structure that evolves gradually with context, while the V cache carries latent semantic regularities. Building on these insights, we propose PatternKV, a pattern-aligned residual quantization scheme. It mines representative pattern vectors online, aligns each KV vector to its nearest pattern, and quantizes only the residual. This reshaping of the KV distribution flattens the quantization target and narrows its range, thereby improving the fidelity of low-bit KV quantization. Across long-context and test-time scaling settings on multiple backbones, PatternKV delivers consistent 2-bit gains, with a 0.08% average 4-bit drop relative to FP16, improves test-time scaling accuracy by 10% on average, and raises throughput by 1.4x while supporting 1.25x larger batches.
- Abstract(参考訳): 自動回帰LDMにおけるKVキャッシュは冗長な再計算をなくすが、特に長期のコンテキストとテストタイムのスケーリングにおいて、推論において主要なメモリと帯域幅のボトルネックとして現れる。
KV量子化はキャッシュコストを削減するためのキーレバーであるが、ネイティブなKV分布が平坦性に欠け、広い量子化範囲を維持するため、精度は急激に低下する。
以前の作業では、エラーを克服するが、全体の分散をフラットにせず、パフォーマンスが低ビット設定で脆弱になるような、オフレイアの分離に重点を置いていた。
本稿では,Kキャッシュがコンテキストとともに徐々に進化する安定な構造を維持し,Vキャッシュが潜在意味規則性を持つことを示す。
これらの知見に基づいてパターン整合型残差量子化スキームであるPatternKVを提案する。
代表パターンベクトルをオンラインでマイニングし、各KVベクトルを最も近いパターンに整列し、残基のみを定量化する。
このKV分布の再構成は量子化ターゲットを平坦化し、その範囲を狭め、低ビットKV量子化の忠実度を向上させる。
複数のバックボーン上での長期コンテキストとテストタイムのスケーリング設定全体で、PatternKVは一貫性のある2ビットゲインを提供し、FP16と比較して平均4ビットのダウンが0.08%、テストタイムのスケーリング精度が平均10%向上し、スループットが1.4倍向上し、1.25倍のバッチをサポートする。
関連論文リスト
- KVLinC : KV Cache Quantization with Hadamard Rotation and Linear Correction [8.486713415198968]
我々は,KVキャッシュ量子化による注意欠陥を軽減するフレームワークKVLinCを提案する。
KVLinCは、値の量子化誤差を低減するアダマール回転と、軽量な線形補正アダプタを組み合わせたものである。
KVLinC は高い KV-cache 圧縮を達成しつつ, 高いベースラインを一貫して一致または超えることを示す。
論文 参考訳(メタデータ) (2025-10-06T21:08:11Z) - NQKV: A KV Cache Quantization Scheme Based on Normal Distribution Characteristics [6.048883141729117]
大規模言語モデル(LLM)は、幅広いタスクにまたがる卓越した習熟度を示してきた。
LLMは、スループットを高めるためにより大きなバッチサイズを必要とすることや、タスク要求を満たすために長いコンテキスト長を必要とすることも多い。
論文 参考訳(メタデータ) (2025-05-22T04:23:19Z) - KVCrush: Key value cache size-reduction using similarity in head-behaviour [40.792661186062396]
大規模言語モデル(LLM)における推論を高速化する重要な最適化手法としてキーバリューキャッシュ(KV)が登場している。
しかしながら、KVのメモリフットプリントは、モデルのバッチサイズに直接影響を与えるモデルデプロイメントにおいて、大きなボトルネックとなります。
我々は,KVCrushと多くのKV圧縮技術を組み合わせることで,より小さなメモリでモデル精度を向上させることを提案する。
論文 参考訳(メタデータ) (2025-02-24T02:57:51Z) - More Tokens, Lower Precision: Towards the Optimal Token-Precision Trade-off in KV Cache Compression [71.42818367729573]
大規模言語モデル(LLM)では、KVキャッシュのメモリ使用量は推論において重大なボトルネックとなっている。
KVプルーニングやKV量子化を含む主流のKV圧縮法は、主にトークンまたは精度寸法を別々に扱う。
本稿では,KVキャッシュ圧縮におけるトークン精度トレードオフを包括的に検討する。
論文 参考訳(メタデータ) (2024-12-17T09:20:31Z) - No Token Left Behind: Reliable KV Cache Compression via Importance-Aware
Mixed Precision Quantization [31.806112535762367]
キーバリューキャッシングは、生成型大規模言語モデル(LLM)の推論速度とスループットを加速する重要な技術となっている。
論文 参考訳(メタデータ) (2024-02-28T06:34:54Z) - KVQuant: Towards 10 Million Context Length LLM Inference with KV Cache Quantization [67.74400574357472]
LLMは、大きなコンテキストウィンドウを必要とするアプリケーションでの利用が増えており、この大きなコンテキストウィンドウでは、KVキャッシュのアクティベーションが推論時のメモリ消費の主要な要因として表面化している。
量子化はKVキャッシュのアクティベーションを圧縮する上で有望な手法であるが、既存のソリューションは4ビット以下の精度でアクティベーションを正確に表現できない。
我々の研究であるKVQuantは、いくつかの新しい手法を取り入れることで、低精度のKVキャッシュ量子化を容易にする。
論文 参考訳(メタデータ) (2024-01-31T18:58:14Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。