Fugu-MT 論文翻訳(概要): More for Keys, Less for Values: Adaptive KV Cache Quantization

論文の概要: More for Keys, Less for Values: Adaptive KV Cache Quantization

arxiv url: http://arxiv.org/abs/2502.15075v1
Date: Thu, 20 Feb 2025 22:24:27 GMT
ステータス: 翻訳完了
システム内更新日: 2025-02-24 21:37:39.002272
Title: More for Keys, Less for Values: Adaptive KV Cache Quantization
Title（参考訳）: キーと値の削減 - Adaptive KV Cache Quantization
Authors: Mohsen Hariri, Lam Nguyen, Sixu Chen, Shaochen Zhong, Qifan Wang, Xia Hu, Xiaotian Han, Vipin Chaudhary,
Abstract要約: 本稿では,大規模言語モデルにおけるキー値キャッシュを適応的に圧縮する情報認識量子化フレームワークを提案する。鍵行列が常に高いノルム値を示し、値行列よりも量子化に敏感であることを示す。我々は、鍵のビット幅を多く割り当て、値のビット幅を小さくする混合精度量子化戦略KV-AdaQuantを提案する。
参考スコア（独自算出の注目度）: 59.708443710731146
License: http://creativecommons.org/licenses/by/4.0/
Abstract: This paper introduces an information-aware quantization framework that adaptively compresses the key-value (KV) cache in large language models (LLMs). Although prior work has underscored the distinct roles of key and value cache during inference, our systematic analysis -- examining singular value distributions, spectral norms, and Frobenius norms -- reveals, for the first time, that key matrices consistently exhibit higher norm values and are more sensitive to quantization than value matrices. Furthermore, our theoretical analysis shows that matrices with higher spectral norms amplify quantization errors more significantly. Motivated by these insights, we propose a mixed-precision quantization strategy, KV-AdaQuant, which allocates more bit-width for keys and fewer for values since key matrices have higher norm values. With the same total KV bit budget, this approach effectively mitigates error propagation across transformer layers while achieving significant memory savings. Our extensive experiments on multiple LLMs (1B--70B) demonstrate that our mixed-precision quantization scheme maintains high model accuracy even under aggressive compression. For instance, using 4-bit for Key and 2-bit for Value achieves an accuracy of 75.2%, whereas reversing the assignment (2-bit for Key and 4-bit for Value) yields only 54.7% accuracy. The code is available at https://tinyurl.com/kv-adaquant
Abstract（参考訳）: 本稿では,大規模言語モデル(LLM)におけるキー値(KV)キャッシュを適応的に圧縮する情報認識量子化フレームワークを提案する。従来の研究は、推論におけるキーキャッシュとバリューキャッシュの役割を明らかにしてきたが、我々の体系的な分析 -- 特異値分布、スペクトルノルム、フロベニウスノルムを調べることで、キー行列が常に高いノルム値を示し、値行列よりも量子化に敏感であることを初めて明らかにした。さらに, スペクトルノルムの高い行列は, 量子化誤差をより大きく増幅することを示した。これらの知見により,鍵行列の基準値が高いため,鍵のビット幅が小さく,値のビット幅が小さい混合精度量子化戦略KV-AdaQuantを提案する。同じKVビットの予算で、このアプローチは、大きなメモリ節約を達成しつつ、トランスフォーマー層間のエラー伝播を効果的に軽減する。複数のLLM (1B--70B) に関する広範な実験により、我々の混合精度量子化スキームは、アグレッシブ圧縮の下でも高いモデル精度を維持することを示した。例えば、キーに4ビット、バリューに2ビットを使う場合の精度は75.2%、キーに2ビット、バリューに4ビットを使う場合の精度は54.7%である。コードはhttps://tinyurl.com/kv-adaquantで入手できる。

関連論文リスト

Draft-based Approximate Inference for LLMs [7.287280338330983]
本稿では,大規模言語モデル推論のための新しいフレームワークを提案する。提案手法の2つのインスタンス化について述べる: (i) SpecKV, ドラフトアウトプットを利用してKVペアの重要性を正確に評価し, より効率的なKVキャッシュダウンを実現する方法, (ii) SpecPC, ドラフトモデルのアテンションアクティベーションを使用して重要でないプロンプトトークンを識別・破棄する手法。我々の手法は、メモリ使用量、レイテンシ、スループットが同じ改善を保ちながら、既存のベースラインよりも常に高い精度を達成する。
論文参考訳（メタデータ） (2025-06-10T02:37:46Z)
Pushing the Limits of Low-Bit Optimizers: A Focus on EMA Dynamics [64.62231094774211]
ステートフル(例えばアダム)は、最適収束を達成するために、モデルサイズを2倍も補助情報を維持する。 SOLOにより、アダムスタイルは3ビットまたは2ビットの精度で量子化された状態を維持することができる。したがって、SOLOはAdamスタイルにシームレスに適用でき、精度の低下を最小限に抑えることができる。
論文参考訳（メタデータ） (2025-05-01T06:47:45Z)
SQuat: Subspace-orthogonal KV Cache Quantization [19.131705063324883]
SQuat(Subspace-orthogonal KV cache Quantization)を導入し、ピークメモリを2.17から2.82に削減し、スループットを2.45から3.60に改善し、既存のKVキャッシュ量子化アルゴリズムよりも優れたベンチマークスコアを得る。我々は,ピークメモリを2.17から2.82に削減し,スループットを2.45から3.60に改善し,既存のKVキャッシュ量子化アルゴリズムよりも優れたベンチマークスコアを得ることを示した。
論文参考訳（メタデータ） (2025-03-31T17:37:32Z)
RSQ: Learning from Important Tokens Leads to Better Quantized LLMs [65.5558181902098]
レイヤーワイド量子化は、高価なリトレーニングなしで大きなモデルを効率的に圧縮するための重要な技術である。モデルに回転を適用して外乱を緩和するRSQ(Rotate, Scale, then Quantize)を提案する。 RSQは、複数の下流タスクと3つのモデルファミリーで、ベースラインメソッドを一貫して上回っていることを実証する。
論文参考訳（メタデータ） (2025-03-03T18:46:33Z)
SVDq: 1.25-bit and 410x Key Cache Compression for LLM Attention [0.0]
KVキャッシュ圧縮技術の主な3つのタイプ、すなわちスパシティ、チャネル圧縮、量子化が同定された。本研究は,Kキャッシュの混合精度定量化法であるSVDqを提案する。
論文参考訳（メタデータ） (2025-02-21T08:55:21Z)
Massive Values in Self-Attention Modules are the Key to Contextual Knowledge Understanding [58.364933651703524]
注目クエリの特定の領域において、集中した巨大な値が一貫して現れることを示す。これらの膨大な価値は文脈知識の解釈において重要な役割を担っている。大量の値の出現を辿り、そのような濃度は回転位置によって引き起こされる。
論文参考訳（メタデータ） (2025-02-03T17:47:03Z)
More Tokens, Lower Precision: Towards the Optimal Token-Precision Trade-off in KV Cache Compression [71.42818367729573]
大規模言語モデル(LLM)では、KVキャッシュのメモリ使用量は推論において重大なボトルネックとなっている。 KVプルーニングやKV量子化を含む主流のKV圧縮法は、主にトークンまたは精度寸法を別々に扱う。本稿では,KVキャッシュ圧縮におけるトークン精度トレードオフを包括的に検討する。
論文参考訳（メタデータ） (2024-12-17T09:20:31Z)
Memory-Efficient 4-bit Preconditioned Stochastic Optimization [53.422307389223626]
シャンプーのプリコンディショナーに4ビット量子化を導入する。我々の知る限り、これはプレコンディショナーのチョレスキー因子に適用された最初の量子化手法である。 Cholesky量子化とエラーフィードバックを組み合わせることで、メモリ効率とアルゴリズム性能が向上することを示した。
論文参考訳（メタデータ） (2024-12-14T03:32:54Z)
Residual vector quantization for KV cache compression in large language model [2.3094645821058735]
KVキャッシュ圧縮法は主にデコード時のメモリ要求を減らすスカラー量子化技術に依存している。本研究では,大規模言語モデル(LLM)におけるKVキャッシュの圧縮に,高忠実度音声圧縮に広く用いられている残差ベクトル量子化を適用した。我々は指数移動平均を用いてコードブックを学習し、ベクトル量子化設定に通常使用される入力と出力のプロジェクションを含む他の学習可能なパラメータは存在しない。
論文参考訳（メタデータ） (2024-10-21T07:20:41Z)
AsymKV: Enabling 1-Bit Quantization of KV Cache with Layer-Wise Asymmetric Quantization Configurations [36.63586957377984]
大規模な言語モデルは、しばしばかなりのストレージスペースを必要とする。パラメータ数が膨大であるため、これらのモデルは大きなストレージスペースを必要とすることが多い。 1つの研究方向は、浮動小数点数の整数置換を用いてモデルを圧縮することを提案する。
論文参考訳（メタデータ） (2024-10-17T04:35:57Z)
AlignedKV: Reducing Memory Access of KV-Cache with Precision-Aligned Quantization [5.572159724234467]
混合精度量子化は重要なパラメータと重要でないパラメータを区別する。既存の手法は定性的分析と手動実験によってのみ重要なパラメータを識別できる。本稿では,パラメータの重要性を総合的に評価する定量的枠組みを構築するために,いわゆる「精度アライメント」という新しい基準を提案する。
論文参考訳（メタデータ） (2024-09-25T01:39:02Z)
Unlocking Data-free Low-bit Quantization with Matrix Decomposition for KV Cache Compression [87.5604418100301]
キー値(KV)キャッシングは,大規模言語モデルの推論を高速化する重要な手法である。既存の手法はしばしば精度を損なうか、キャリブレーションのために余分なデータを必要とする。テンソル分解法に基づく新しいデータフリー低ビット量子化手法である textbfDecoQuant を導入する。
論文参考訳（メタデータ） (2024-05-21T08:35:10Z)
LLMC: Benchmarking Large Language Model Quantization with a Versatile Compression Toolkit [55.73370804397226]
鍵圧縮技術である量子化は、大きな言語モデルを圧縮し、加速することにより、これらの要求を効果的に軽減することができる。本稿では,プラグアンドプレイ圧縮ツールキットであるLLMCについて,量子化の影響を公平かつ体系的に検討する。この汎用ツールキットによって、我々のベンチマークはキャリブレーションデータ、アルゴリズム(3つの戦略)、データフォーマットの3つの重要な側面をカバーしています。
論文参考訳（メタデータ） (2024-05-09T11:49:05Z)
WKVQuant: Quantizing Weight and Key/Value Cache for Large Language Models Gains More [55.0856305773081]
大規模言語モデル (LLM) は、そのメモリ要求と自動回帰テキスト生成プロセスの計算要求のために、重要なデプロイメント課題に直面している。本稿では、モデルパラメータとアクティベーションを低ビット整数に変換することでメモリ消費を低減する手法であるLCMの量子化に着目し、これらの課題に対処する。
論文参考訳（メタデータ） (2024-02-19T11:33:21Z)
KVQuant: Towards 10 Million Context Length LLM Inference with KV Cache Quantization [67.74400574357472]
LLMは、大きなコンテキストウィンドウを必要とするアプリケーションでの利用が増えており、この大きなコンテキストウィンドウでは、KVキャッシュのアクティベーションが推論時のメモリ消費の主要な要因として表面化している。量子化はKVキャッシュのアクティベーションを圧縮する上で有望な手法であるが、既存のソリューションは4ビット以下の精度でアクティベーションを正確に表現できない。我々の研究であるKVQuantは、いくつかの新しい手法を取り入れることで、低精度のKVキャッシュ量子化を容易にする。
論文参考訳（メタデータ） (2024-01-31T18:58:14Z)
Norm Tweaking: High-performance Low-bit Quantization of Large Language Models [21.855106896725598]
そこで本研究では,現在のPTQ手法のプラグインとして利用できるノルム調整手法を提案する。本手法は,重量のみの量子化と重みとアクティベーションの連成量子化の両面で有意な改善を示す。私たちのシンプルで効果的なアプローチは、現実世界のアプリケーションにとってより実用的です。
論文参考訳（メタデータ） (2023-09-06T06:51:15Z)
Towards Accurate Post-Training Quantization for Vision Transformer [48.779346466374406]
既存のトレーニング後の量子化手法は依然として深刻な性能低下を引き起こしている。 APQ-ViTは、既存のトレーニング後の量子化手法を証明マージンによって超越している。
論文参考訳（メタデータ） (2023-03-25T03:05:26Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。