論文の概要: QET: Enhancing Quantized LLM Parameters and KV cache Compression through Element Substitution and Residual Clustering
- arxiv url: http://arxiv.org/abs/2407.03637v3
- Date: Wed, 21 Aug 2024 02:32:43 GMT
- ステータス: 処理完了
- システム内更新日: 2024-08-22 12:00:34.832413
- Title: QET: Enhancing Quantized LLM Parameters and KV cache Compression through Element Substitution and Residual Clustering
- Title(参考訳): QET:要素置換と残留クラスタリングによる量子LDMパラメータとKVキャッシュ圧縮の強化
- Authors: Yanshu Wang, Wang Li, Tong Yang,
- Abstract要約: 行列量子化(Matrix Quantization)は、行列要素をよりコンパクトな形式に圧縮し、記憶要求を減らす。
この手法は,Large Language Model (LLM) の重み圧縮やKVキャッシュ圧縮といった応用において重要である。
本稿では,量子化エラー最小化問題に対処するため,量子エンタングルメントツリー(QET)を提案する。
- 参考スコア(独自算出の注目度): 5.858734684979008
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Matrix quantization compresses matrix elements into a more compact form to reduce storage requirements, with dequantization enabling reconstruction for use. We define the Quantization Error Minimization (QEM) problem as minimizing the difference between the original and quantized matrices while ensuring the quantized matrix remains within fixed memory constraints. This technique is crucial in applications like Large Language Model (LLM) weight compression and KV cache compression, where large matrix sizes demand efficient storage solutions. As modern LLMs like GPT-4 and BERT continue to grow, effective matrix compression is increasingly important. These models contain billions of parameters in matrix form, making efficient weight quantization essential for both storage and computational efficiency. Similarly, KV caches, storing intermediate inference results, are matrix-based and benefit significantly from optimized compression techniques. To address the QEM problem in the context of LLM weight and KV cache compression, we propose Quantum Entanglement Trees (QET). QET leverages the local structure of matrix elements by iteratively swapping elements to create a locally ordered matrix, which is then grouped and quantized column by column. To enhance QET, we introduce two optimizations: residual quantization to further reduce Mean Squared Error (MSE) and masking with batch processing to accelerate the algorithm. Our experiments demonstrate that QET can reduce MSE to 12.3% of its original value at the same compression ratio, outperforming leading baseline methods. Our contributions include framing the QEM problem specifically for LLM and KV cache compression, developing the QET algorithm, and implementing optimizations that improve accuracy and processing speed.
- Abstract(参考訳): 行列量子化(Matrix Quantization)は、行列要素をよりコンパクトな形式に圧縮し、ストレージ要求を減らす。
量子化誤差最小化(QEM)問題を、元の行列と量子化行列の差を最小限に抑えつつ、固定メモリの制約内に量子化行列が残ることを保証するものとして定義する。
この技術は、Large Language Model (LLM) 重み圧縮やKVキャッシュ圧縮のようなアプリケーションにおいて重要であり、大きな行列サイズは効率的なストレージソリューションを必要とする。
GPT-4やBERTのような現代のLCMは成長を続けており、効率的な行列圧縮がますます重要になっている。
これらのモデルは、数十億のパラメータを行列形式に含んでおり、記憶と計算の効率の両方において、効率的な量量子化が不可欠である。
同様に、中間推論結果を格納するKVキャッシュは行列ベースであり、最適化された圧縮技術から大きな恩恵を受ける。
LLM重みとKVキャッシュ圧縮の文脈におけるQEM問題に対処するために、量子エンタングルメントツリー(QET)を提案する。
QETは、行列要素の局所構造を反復的に交換することで、局所的に順序付けられた行列を生成し、列によってグループ化され、量子化された列を生成する。
QETを強化するために,平均二乗誤差(MSE)をさらに削減するための残差量子化と,アルゴリズムを高速化するためのバッチ処理によるマスキングという2つの最適化を導入する。
実験により,QETは圧縮比でMSEを12.3%まで低減し,ベースライン法よりも優れた性能を発揮することが示された。
コントリビューションには、LLMおよびKVキャッシュ圧縮に特化したQEM問題のフレーミング、QETアルゴリズムの開発、精度と処理速度を改善する最適化の実施が含まれている。
関連論文リスト
- SMM-Conv: Scalar Matrix Multiplication with Zero Packing for Accelerated Convolution [4.14360329494344]
本稿では、CPUアーキテクチャの推論中に畳み込みを加速するための新しいアプローチを提案する。
ネットワークアーキテクチャを用いた実験は,既存の間接手法に比べて大幅に高速化された。
論文 参考訳(メタデータ) (2024-11-23T21:43:38Z) - Residual vector quantization for KV cache compression in large language model [2.3094645821058735]
KVキャッシュ圧縮法は主にデコード時のメモリ要求を減らすスカラー量子化技術に依存している。
本研究では,大規模言語モデル(LLM)におけるKVキャッシュの圧縮に,高忠実度音声圧縮に広く用いられている残差ベクトル量子化を適用した。
我々は指数移動平均を用いてコードブックを学習し、ベクトル量子化設定に通常使用される入力と出力のプロジェクションを含む他の学習可能なパラメータは存在しない。
論文 参考訳(メタデータ) (2024-10-21T07:20:41Z) - AsymKV: Enabling 1-Bit Quantization of KV Cache with Layer-Wise Asymmetric Quantization Configurations [36.63586957377984]
大規模な言語モデルは、しばしばかなりのストレージスペースを必要とする。
パラメータ数が膨大であるため、これらのモデルは大きなストレージスペースを必要とすることが多い。
1つの研究方向は、浮動小数点数の整数置換を用いてモデルを圧縮することを提案する。
論文 参考訳(メタデータ) (2024-10-17T04:35:57Z) - Fast Matrix Multiplications for Lookup Table-Quantized LLMs [58.11584672945781]
FLUTEはLUT量子化LLM用のフレキシブルなルックアップテーブルエンジンである。
バッチサイズ32と量子化グループサイズ128では、FLUTEカーネルは既存のGEMMカーネルよりも2〜4倍高速である。
論文 参考訳(メタデータ) (2024-07-15T17:55:42Z) - SliM-LLM: Salience-Driven Mixed-Precision Quantization for Large Language Models [67.67135738642547]
後学習量子化(PTQ)は、大規模言語モデル(LLM)において研究される強力な圧縮手法である。
既存のPTQ法は、特に4ビット幅以下では、精度と効率の点で理想的ではない。
本稿では,LSM,すなわちSliM-LLMに対するSalience-Driven Mixed-Precision Quantizationスキームを提案する。
論文 参考訳(メタデータ) (2024-05-23T16:21:48Z) - Unlocking Data-free Low-bit Quantization with Matrix Decomposition for KV Cache Compression [87.5604418100301]
キー値(KV)キャッシングは,大規模言語モデルの推論を高速化する重要な手法である。
既存の手法はしばしば精度を損なうか、キャリブレーションのために余分なデータを必要とする。
テンソル分解法に基づく新しいデータフリー低ビット量子化手法である textbfDecoQuant を導入する。
論文 参考訳(メタデータ) (2024-05-21T08:35:10Z) - WKVQuant: Quantizing Weight and Key/Value Cache for Large Language
Models Gains More [55.0856305773081]
大規模言語モデル (LLM) は、そのメモリ要求と自動回帰テキスト生成プロセスの計算要求のために、重要なデプロイメント課題に直面している。
本稿では、モデルパラメータとアクティベーションを低ビット整数に変換することでメモリ消費を低減する手法であるLCMの量子化に着目し、これらの課題に対処する。
論文 参考訳(メタデータ) (2024-02-19T11:33:21Z) - OneBit: Towards Extremely Low-bit Large Language Models [66.29839811207617]
本稿では, LLMの重量行列を1ビットに大胆に定量化し, LLMの極低ビット幅展開への道を開く。
実験によると、OneBitは(LLaMAモデルの非量子化性能の少なくとも81%)優れたパフォーマンスを、堅牢なトレーニングプロセスで達成している。
論文 参考訳(メタデータ) (2024-02-17T14:26:57Z) - LQ-LoRA: Low-rank Plus Quantized Matrix Decomposition for Efficient Language Model Finetuning [66.85589263870702]
提案手法では,事前学習した行列を高精度の低ランク成分とメモリ効率の量子化成分に分解するために反復アルゴリズムを用いる。
微調整されたRoBERTaとLLaMA-2の実験は、我々の低ランク+量子化行列分解法(LQ-LoRA)が強いQLoRAおよびGPTQ-LoRAベースラインより優れていることを示した。
論文 参考訳(メタデータ) (2023-11-20T18:57:41Z) - Sufficient dimension reduction for feature matrices [3.04585143845864]
そこで本研究では,主支持行列マシン (PSMM) を用いた行列次元削減手法を提案する。
数値解析により、PSMMは既存の手法よりも優れ、実データアプリケーションでは高い解釈性を有することが示された。
論文 参考訳(メタデータ) (2023-03-07T23:16:46Z) - A quantum algorithm for solving eigenproblem of the Laplacian matrix of
a fully connected weighted graph [4.045204834863644]
完全連結重み付きグラフのラプラシア行列の固有確率を解くための効率的な量子アルゴリズムを提案する。
具体的には,ブロック符号化フレームワークに基づく最適ハミルトンシミュレーション手法を採用する。
また、このアルゴリズムは対称(非対称)正規化ラプラス行列の固有確率を解くために拡張可能であることを示す。
論文 参考訳(メタデータ) (2022-03-28T02:24:08Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。