論文の概要: VQKV: High-Fidelity and High-Ratio Cache Compression via Vector-Quantization
- arxiv url: http://arxiv.org/abs/2603.16435v1
- Date: Tue, 17 Mar 2026 12:16:06 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-03-18 17:42:07.265926
- Title: VQKV: High-Fidelity and High-Ratio Cache Compression via Vector-Quantization
- Title(参考訳): VQKV:ベクトル量子化による高忠実・高比キャッシュ圧縮
- Authors: Yixuan Wang, Qingyu Shi, Jiayu Zhou, Dianbo Liu, Ziwei He, Zhouhan Lin,
- Abstract要約: 大きな言語モデル(LLM)はキーバリュー(KV)キャッシュを拡張し、リソース制限された環境へのデプロイメントを制限する。
本稿では,ベクトル量子化(VQ)を導入し,高モデル忠実性を保ちながら高度に圧縮されたKV表現を得る新しい学習自由手法であるVQKVを提案する。
その結果、VQKVはLLaMA3.1-8Bの圧縮率82.8%を達成し、LongBenchのベースライン性能の98.6%を維持し、同じメモリフットプリントで4.3倍の長大な生成を可能にする。
- 参考スコア(独自算出の注目度): 38.57074641965502
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: The growing context length of Large Language Models (LLMs) enlarges the Key-Value (KV) cache, limiting deployment in resource-limited environments. Prior training-free approaches for KV cache compression typically rely on low-rank approximation or scalar quantization, which fail to simultaneously achieve high compression ratios and high reconstruction fidelity. We propose VQKV, a novel, training-free method introducing vector quantization (VQ) to obtain highly compressed KV representations while preserving high model fidelity, allowing for the representation of thousands of floating-point values with just a few integer indices. As a result, VQKV achieves an 82.8\% compression ratio on LLaMA3.1-8B while retaining 98.6\% of the baseline performance on LongBench and enabling 4.3x longer generation length on the same memory footprint.
- Abstract(参考訳): 大きな言語モデル(LLM)のコンテキスト長の増大はキーバリュー(KV)キャッシュを拡大し、リソース制限された環境へのデプロイメントを制限する。
KVキャッシュ圧縮の以前のトレーニング不要なアプローチは、一般的に低ランク近似やスカラー量子化に依存しており、高い圧縮比と高い再構成忠実度を同時に達成できない。
VQKVはベクトル量子化(VQ)を導入し,高モデル忠実度を維持しつつ高い圧縮KV表現を得ることにより,数個の整数指標で数千個の浮動小数点値の表現を可能にする。
その結果、VQKVはLLaMA3.1-8Bで82.8\%の圧縮比を達成し、LongBenchでのベースライン性能の98.6\%を保持し、同じメモリフットプリントで4.3倍の長寿命を実現する。
関連論文リスト
- DeltaKV: Residual-Based KV Cache Compression via Long-Range Similarity [50.52392445266824]
そこで本稿では,KV表現における長距離間類似性と高共有遅延成分を動機とする残差ベースのKVキャッシュ圧縮フレームワークを提案する。
DeltaKVはトークンを捨てる代わりに、検索した履歴参照に対するセマンティックな残基をエンコードし、保存を著しく削減する。
実験によると、DeltaKVは、LongBench、SCBench、AIMEでほぼロスレスの精度を維持しながら、KVキャッシュメモリを元の29%に削減している。
論文 参考訳(メタデータ) (2026-02-08T15:14:36Z) - XQuant: Achieving Ultra-Low Bit KV Cache Quantization with Cross-Layer Compression [54.28208936996186]
大規模言語モデル(LLM)は、様々な自然言語処理タスクにまたがる顕著な機能を示している。
量子化は、歴史的情報を保持しながらメモリ消費を減らすための有望な解決策として現れてきた。
超低等価ビット幅KVキャッシュ量子化を実現するトレーニングフリーでプラグアンドプレイのフレームワークであるXQuantを提案する。
論文 参考訳(メタデータ) (2025-10-13T10:17:21Z) - ReCalKV: Low-Rank KV Cache Compression via Head Reordering and Offline Calibration [69.57122277845293]
ReCalKVは,キーと値の調整を施した低ランクKVキャッシュ圧縮手法である。
キーズでは、構造的に類似した頭部をグループにクラスタリングし、より正確な低ランク近似を可能にするSimisity aware Recontext (HSR)を提案する。
本稿では,オフラインヘッドワイド値(OVC)を提案する。これはトレーニングなしでキャリブレーションデータを用いて,効率的に値予測行列を校正する。
論文 参考訳(メタデータ) (2025-05-30T08:49:27Z) - KVSharer: Efficient Inference via Layer-Wise Dissimilar KV Cache Sharing [58.29726147780976]
我々は,層間をKVキャッシュで共有し,層間圧縮を実現する,textit KVSharerと呼ばれるプラグアンドプレイ方式を提案する。
実験の結果、textit KVSharerはKVキャッシュの計算を30%削減し、メモリ消費を削減できることがわかった。
我々は,textit KVSharerが既存の層内KVキャッシュ圧縮手法と互換性があることを検証する。
論文 参考訳(メタデータ) (2024-10-24T08:06:41Z) - KV-Compress: Paged KV-Cache Compression with Variable Compression Rates per Attention Head [0.8158530638728501]
そこで我々は,PagedAttentionフレームワーク内で連続KVブロックを除去する新しい圧縮手法であるKV-Compressを紹介する。
本手法は,Mistral-7B-Instruct-v0.2およびLlama-3.1-8B-InstructのLongBenchにおける圧縮KVの総数を4倍に減らしながら,最先端の性能を実現する。
Llama-3.1-8B-InstructとLlama-3.1-70B-Instruct-FP8の評価は、圧縮速度を最大8倍まで達成し、性能に悪影響を及ぼすことなく、フルキャッシュ性能の90%以上を維持しながら、最大64倍まで向上する。
論文 参考訳(メタデータ) (2024-09-30T19:09:13Z) - SKVQ: Sliding-window Key and Value Cache Quantization for Large Language Models [43.22490117833939]
SKVQはスライディングウインドウKVキャッシュ量子化の略である。
SKVQは、量子化グループにおけるチャネルの類似性を改善するために、KVキャッシュのチャネルを再構成する。
7bモデルで80GBのメモリGPU上で最大1Mのコンテキスト長を処理でき、最大7倍高速な復号を行うことができる。
論文 参考訳(メタデータ) (2024-05-10T03:06:24Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。