Fugu-MT 論文翻訳(概要): Unlocking Data-free Low-bit Quantization with Matrix Decomposition for KV Cache Compression

論文の概要: Unlocking Data-free Low-bit Quantization with Matrix Decomposition for KV Cache Compression

arxiv url: http://arxiv.org/abs/2405.12591v1
Date: Tue, 21 May 2024 08:35:10 GMT
ステータス: 翻訳完了
システム内更新日: 2024-05-22 13:58:57.168798
Title: Unlocking Data-free Low-bit Quantization with Matrix Decomposition for KV Cache Compression
Title（参考訳）: KVキャッシュ圧縮のための行列分解によるデータフリー低ビット量子化
Authors: Peiyu Liu, Ze-Feng Gao, Wayne Xin Zhao, Yipeng Ma, Tao Wang, Ji-Rong Wen,
Abstract要約: キー値(KV)キャッシングは,大規模言語モデルの推論を高速化する重要な手法である。既存の手法はしばしば精度を損なうか、キャリブレーションのために余分なデータを必要とする。テンソル分解法に基づく新しいデータフリー低ビット量子化手法である textbfDecoQuant を導入する。
参考スコア（独自算出の注目度）: 87.5604418100301
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: Key-value~(KV) caching is an important technique to accelerate the inference of large language models~(LLMs), but incurs significant memory overhead. To compress the size of KV cache, existing methods often compromise precision or require extra data for calibration, limiting their practicality in LLM deployment. In this paper, we introduce \textbf{DecoQuant}, a novel data-free low-bit quantization technique based on tensor decomposition methods, to effectively compress KV cache. Our core idea is to adjust the outlier distribution of the original matrix by performing tensor decomposition, so that the quantization difficulties are migrated from the matrix to decomposed local tensors. Specially, we find that outliers mainly concentrate on small local tensors, while large tensors tend to have a narrower value range. Based on this finding, we propose to apply low-bit quantization to the large tensor, while maintaining high-precision representation for the small tensor. Furthermore, we utilize the proposed quantization method to compress the KV cache of LLMs to accelerate the inference and develop an efficient dequantization kernel tailored specifically for DecoQuant. Through extensive experiments, DecoQuant demonstrates remarkable efficiency gains, showcasing up to a $\sim$75\% reduction in memory footprint while maintaining comparable generation quality.
Abstract（参考訳）: キー値~(KV)キャッシングは、大きな言語モデル~(LLM)の推論を高速化する重要なテクニックであるが、メモリオーバーヘッドが大幅に増加する。 KVキャッシュのサイズを圧縮するために、既存の手法はしばしば精度を損なうか、キャリブレーションのために余分なデータを必要とする。本稿では、テンソル分解法に基づく新しいデータフリーな低ビット量子化手法である \textbf{DecoQuant} を導入し、KVキャッシュを効果的に圧縮する。我々の中心となる考え方は、テンソル分解を行うことで元の行列の外れ値分布を調整し、量子化の困難を行列から分解された局所テンソルへ移行させることである。特に、大きめのテンソルはより狭い値範囲を持つ傾向にあるのに対し、大きめのテンソルは主に小さな局所テンソルに集中していることが分かる。そこで本研究では,小テンソルの高精度表現を維持しつつ,低ビット量子化を大テンソルに適用することを提案する。さらに、提案手法を用いて、LLMのKVキャッシュを圧縮し、推論を高速化し、DecoQuantに特化した効率的な量子化カーネルを開発する。大規模な実験を通じて、DecoQuantは優れた効率向上を示し、同等の生成品質を維持しながら、メモリフットプリントを最大$\sim$75\%削減することを示した。

関連論文リスト

VecInfer: Efficient LLM Inference with Low-Bit KV Cache via Outlier-Suppressed Vector Quantization [23.781285860723248]
キーバリュー(KV)キャッシュは、大きな言語モデル(LLM)推論中にメモリオーバーヘッドを導入する。本稿では,効率的な推論を実現しつつ,能動的KVキャッシュ圧縮のための新しいVQ手法であるVecInferを提案する。 VecInferは、長いコンテキスト理解と数学的推論タスクの両方において、既存の量子化ベースラインを一貫して上回っている。
論文参考訳（メタデータ） (2025-10-07T17:35:28Z)
KVLinC : KV Cache Quantization with Hadamard Rotation and Linear Correction [8.486713415198968]
我々は,KVキャッシュ量子化による注意欠陥を軽減するフレームワークKVLinCを提案する。 KVLinCは、値の量子化誤差を低減するアダマール回転と、軽量な線形補正アダプタを組み合わせたものである。 KVLinC は高い KV-cache 圧縮を達成しつつ, 高いベースラインを一貫して一致または超えることを示す。
論文参考訳（メタデータ） (2025-10-06T21:08:11Z)
KV-Latent: Dimensional-level KV Cache Reduction with Frequency-aware Rotary Positional Embedding [72.12756830560217]
Transformer Decodersをベースとした大規模言語モデル(LLM)が、会話生成AIの選択肢として好まれている。デコーダアーキテクチャの全体的な優位性にもかかわらず、推論中にキーバリューキャッシュが徐々に増加し、主要な効率ボトルネックとなっている。キーバリューベクトル次元を潜在空間にダウンサンプリングすることで、KVキャッシュのフットプリントを大幅に削減し、推論速度を向上させることができる。
論文参考訳（メタデータ） (2025-07-15T12:52:12Z)
TaDA: Training-free recipe for Decoding with Adaptive KV Cache Compression and Mean-centering [10.427881558469442]
量子化精度の高いKVキャッシュ圧縮のためのトレーニング不要なレシピであるTaDAを紹介する。提案手法は,様々なコンテキスト長をサポートする複数のモデルに対して,大幅な精度向上を実現する。本手法は,言語モデルにおけるスケーラブルで高性能な推論手法である。
論文参考訳（メタデータ） (2025-06-05T05:23:38Z)
ReCalKV: Low-Rank KV Cache Compression via Head Reordering and Offline Calibration [81.81027217759433]
大きな言語モデル(LLM)はキーバリュー(KV)キャッシュを保存するのに必要な過剰なメモリによって制約されることが多い。近年,KVキャッシュの隠蔽次元の低減について検討されている。本稿では,KVキャッシュの隠れ次元を削減した後学習KVキャッシュ圧縮手法ReCalKVを提案する。
論文参考訳（メタデータ） (2025-05-30T08:49:27Z)
SQuat: Subspace-orthogonal KV Cache Quantization [19.131705063324883]
SQuat(Subspace-orthogonal KV cache Quantization)を導入し、ピークメモリを2.17から2.82に削減し、スループットを2.45から3.60に改善し、既存のKVキャッシュ量子化アルゴリズムよりも優れたベンチマークスコアを得る。我々は,ピークメモリを2.17から2.82に削減し,スループットを2.45から3.60に改善し,既存のKVキャッシュ量子化アルゴリズムよりも優れたベンチマークスコアを得ることを示した。
論文参考訳（メタデータ） (2025-03-31T17:37:32Z)
More Tokens, Lower Precision: Towards the Optimal Token-Precision Trade-off in KV Cache Compression [71.42818367729573]
大規模言語モデル(LLM)では、KVキャッシュのメモリ使用量は推論において重大なボトルネックとなっている。 KVプルーニングやKV量子化を含む主流のKV圧縮法は、主にトークンまたは精度寸法を別々に扱う。本稿では,KVキャッシュ圧縮におけるトークン精度トレードオフを包括的に検討する。
論文参考訳（メタデータ） (2024-12-17T09:20:31Z)
Residual vector quantization for KV cache compression in large language model [2.3094645821058735]
KVキャッシュ圧縮法は主にデコード時のメモリ要求を減らすスカラー量子化技術に依存している。本研究では,大規模言語モデル(LLM)におけるKVキャッシュの圧縮に,高忠実度音声圧縮に広く用いられている残差ベクトル量子化を適用した。我々は指数移動平均を用いてコードブックを学習し、ベクトル量子化設定に通常使用される入力と出力のプロジェクションを含む他の学習可能なパラメータは存在しない。
論文参考訳（メタデータ） (2024-10-21T07:20:41Z)
AsymKV: Enabling 1-Bit Quantization of KV Cache with Layer-Wise Asymmetric Quantization Configurations [36.63586957377984]
大規模な言語モデルは、しばしばかなりのストレージスペースを必要とする。パラメータ数が膨大であるため、これらのモデルは大きなストレージスペースを必要とすることが多い。 1つの研究方向は、浮動小数点数の整数置換を用いてモデルを圧縮することを提案する。
論文参考訳（メタデータ） (2024-10-17T04:35:57Z)
MatryoshkaKV: Adaptive KV Compression via Trainable Orthogonal Projection [14.073722038551125]
KVキャッシュは、大規模言語モデルの推論におけるデファクト技術となっている。本稿では,低ランクな投影行列を用いて,キャッシュ特性を次元を小さくした空間に変換する。提案手法は, 平均KVキャッシュ圧縮率60%で90%以上の性能を維持することができる。
論文参考訳（メタデータ） (2024-10-16T08:34:51Z)
LoRC: Low-Rank Compression for LLMs KV Cache with a Progressive Compression Strategy [59.1298692559785]
キーバリュー(KV)キャッシュは、トランスフォーマーベースの自己回帰型大言語モデル(LLM)を提供する上で重要なコンポーネントである。この問題を緩和するためのアプローチとしては、(1) アップサイクルステージに統合された効率的な注意変動、(2) テスト時のKVキャッシュ圧縮、(3) テスト時のKVキャッシュ圧縮がある。そこで我々は,KV重み行列の低ランク近似を提案し,モデル再学習なしに既存のトランスフォーマーベースLCMとのプラグイン統合を実現する。本手法は,テスト段階におけるアップサイクリング段階のモデルチューニングやタスク固有のプロファイリングを伴わずに機能するように設計されている。
論文参考訳（メタデータ） (2024-10-04T03:10:53Z)
ThinK: Thinner Key Cache by Query-Driven Pruning [63.13363917871414]
大規模言語モデル(LLM)は自然言語処理の分野に革命をもたらし、様々なアプリケーションで前例のない性能を達成した。本稿では,KVキャッシュのメモリ消費の非効率性に対処する長文シナリオに焦点を当てた。我々は,最小のチャネルを選択的に切断しながら,注目重量損失を最小限に抑える新しいクエリ依存型KVキャッシュプルーニング手法であるThinKを提案する。
論文参考訳（メタデータ） (2024-07-30T17:59:08Z)
Accurate Block Quantization in LLMs with Outliers [0.6138671548064355]
極大規模LLMの推理需要はここ数カ月で大きく伸びている。この問題は処理中のシーケンスの長さが爆発的に増加することで増大する。重みとアクティベーションの両方の正確な量子化を可能にする様々な量子化技術が提案されている。
論文参考訳（メタデータ） (2024-03-29T12:15:06Z)
WKVQuant: Quantizing Weight and Key/Value Cache for Large Language Models Gains More [55.0856305773081]
大規模言語モデル (LLM) は、そのメモリ要求と自動回帰テキスト生成プロセスの計算要求のために、重要なデプロイメント課題に直面している。本稿では、モデルパラメータとアクティベーションを低ビット整数に変換することでメモリ消費を低減する手法であるLCMの量子化に着目し、これらの課題に対処する。
論文参考訳（メタデータ） (2024-02-19T11:33:21Z)
KIVI: A Tuning-Free Asymmetric 2bit Quantization for KV Cache [67.9776980972508]
我々はKIVIというチューニング不要な2ビットKVキャッシュ量子化アルゴリズムを開発した。 KIVI は Llama, Falcon, Mistral のモデルを $mathbf2.6times$ less peak memory を使用しながらほぼ同じ品質を維持することができる。
論文参考訳（メタデータ） (2024-02-05T06:06:47Z)
KVQuant: Towards 10 Million Context Length LLM Inference with KV Cache Quantization [67.74400574357472]
LLMは、大きなコンテキストウィンドウを必要とするアプリケーションでの利用が増えており、この大きなコンテキストウィンドウでは、KVキャッシュのアクティベーションが推論時のメモリ消費の主要な要因として表面化している。量子化はKVキャッシュのアクティベーションを圧縮する上で有望な手法であるが、既存のソリューションは4ビット以下の精度でアクティベーションを正確に表現できない。我々の研究であるKVQuantは、いくつかの新しい手法を取り入れることで、低精度のKVキャッシュ量子化を容易にする。
論文参考訳（メタデータ） (2024-01-31T18:58:14Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。