論文の概要: QET: Enhancing Quantized LLM Parameters and KV cache Compression through Element Substitution and Residual Clustering
- arxiv url: http://arxiv.org/abs/2407.03637v3
- Date: Wed, 21 Aug 2024 02:32:43 GMT
- ステータス: 処理完了
- システム内更新日: 2024-08-22 12:00:34.832413
- Title: QET: Enhancing Quantized LLM Parameters and KV cache Compression through Element Substitution and Residual Clustering
- Title(参考訳): QET:要素置換と残留クラスタリングによる量子LDMパラメータとKVキャッシュ圧縮の強化
- Authors: Yanshu Wang, Wang Li, Tong Yang,
- Abstract要約: 行列量子化(Matrix Quantization)は、行列要素をよりコンパクトな形式に圧縮し、記憶要求を減らす。
この手法は,Large Language Model (LLM) の重み圧縮やKVキャッシュ圧縮といった応用において重要である。
本稿では,量子化エラー最小化問題に対処するため,量子エンタングルメントツリー(QET)を提案する。
- 参考スコア(独自算出の注目度): 5.858734684979008
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Matrix quantization compresses matrix elements into a more compact form to reduce storage requirements, with dequantization enabling reconstruction for use. We define the Quantization Error Minimization (QEM) problem as minimizing the difference between the original and quantized matrices while ensuring the quantized matrix remains within fixed memory constraints. This technique is crucial in applications like Large Language Model (LLM) weight compression and KV cache compression, where large matrix sizes demand efficient storage solutions. As modern LLMs like GPT-4 and BERT continue to grow, effective matrix compression is increasingly important. These models contain billions of parameters in matrix form, making efficient weight quantization essential for both storage and computational efficiency. Similarly, KV caches, storing intermediate inference results, are matrix-based and benefit significantly from optimized compression techniques. To address the QEM problem in the context of LLM weight and KV cache compression, we propose Quantum Entanglement Trees (QET). QET leverages the local structure of matrix elements by iteratively swapping elements to create a locally ordered matrix, which is then grouped and quantized column by column. To enhance QET, we introduce two optimizations: residual quantization to further reduce Mean Squared Error (MSE) and masking with batch processing to accelerate the algorithm. Our experiments demonstrate that QET can reduce MSE to 12.3% of its original value at the same compression ratio, outperforming leading baseline methods. Our contributions include framing the QEM problem specifically for LLM and KV cache compression, developing the QET algorithm, and implementing optimizations that improve accuracy and processing speed.
- Abstract(参考訳): 行列量子化(Matrix Quantization)は、行列要素をよりコンパクトな形式に圧縮し、ストレージ要求を減らす。
量子化誤差最小化(QEM)問題を、元の行列と量子化行列の差を最小限に抑えつつ、固定メモリの制約内に量子化行列が残ることを保証するものとして定義する。
この技術は、Large Language Model (LLM) 重み圧縮やKVキャッシュ圧縮のようなアプリケーションにおいて重要であり、大きな行列サイズは効率的なストレージソリューションを必要とする。
GPT-4やBERTのような現代のLCMは成長を続けており、効率的な行列圧縮がますます重要になっている。
これらのモデルは、数十億のパラメータを行列形式に含んでおり、記憶と計算の効率の両方において、効率的な量量子化が不可欠である。
同様に、中間推論結果を格納するKVキャッシュは行列ベースであり、最適化された圧縮技術から大きな恩恵を受ける。
LLM重みとKVキャッシュ圧縮の文脈におけるQEM問題に対処するために、量子エンタングルメントツリー(QET)を提案する。
QETは、行列要素の局所構造を反復的に交換することで、局所的に順序付けられた行列を生成し、列によってグループ化され、量子化された列を生成する。
QETを強化するために,平均二乗誤差(MSE)をさらに削減するための残差量子化と,アルゴリズムを高速化するためのバッチ処理によるマスキングという2つの最適化を導入する。
実験により,QETは圧縮比でMSEを12.3%まで低減し,ベースライン法よりも優れた性能を発揮することが示された。
コントリビューションには、LLMおよびKVキャッシュ圧縮に特化したQEM問題のフレーミング、QETアルゴリズムの開発、精度と処理速度を改善する最適化の実施が含まれている。
関連論文リスト
- SHERL: Synthesizing High Accuracy and Efficient Memory for Resource-Limited Transfer Learning [63.93193829913252]
本稿では,リソース制限シナリオに対するSHERLと呼ばれる革新的なMETL戦略を提案する。
初期経路では、中間出力は反冗長動作によって統合される。
遅延ルートでは、最小限の遅延事前トレーニングされたレイヤを利用することで、メモリオーバーヘッドのピーク需要を軽減できる。
論文 参考訳(メタデータ) (2024-07-10T10:22:35Z) - ALPS: Improved Optimization for Highly Sparse One-Shot Pruning for Large Language Models [14.310720048047136]
ALPSは,演算子分割法と事前条件付き勾配共役型後処理法を用いて,プルーニング問題に対処する最適化ベースのフレームワークである。
提案手法はベクトル化とGPU並列性を有効利用しながら収束を加速し理論的に保証する新しい手法を取り入れている。
OPT-30Bモデルでは70%の間隔で、ALPSはWikiTextデータセットにおけるテストの難易度を13%削減し、既存の手法と比較してゼロショットベンチマークのパフォーマンスを19%改善した。
論文 参考訳(メタデータ) (2024-06-12T02:57:41Z) - Athena: Efficient Block-Wise Post-Training Quantization for Large Language Models Using Second-Order Matrix Derivative Information [5.756323337411276]
大規模言語モデル(LLM)は、機械翻訳、テキスト生成、感情分析などの高度な自然言語処理タスクを持つ。
数十億のパラメータで構成されるその大きなサイズは、ストレージ、計算、デプロイメントの課題を提起する。
我々は,LLMの効率的なブロックワイズ後量子化のための新しいアルゴリズムであるAthenaを提案する。
論文 参考訳(メタデータ) (2024-05-24T03:14:29Z) - A Survey on Transformer Compression [84.18094368700379]
自然言語処理(NLP)とコンピュータビジョン(CV)の領域においてトランスフォーマーは重要な役割を果たす
モデル圧縮法は、Transformerのメモリと計算コストを削減する。
この調査は、Transformerベースのモデルに適用することに焦点を当てた、最近の圧縮方法に関する包括的なレビューを提供する。
論文 参考訳(メタデータ) (2024-02-05T12:16:28Z) - LoMA: Lossless Compressed Memory Attention [0.0]
Lossless Compressed Memory Attention (LoMA) は、自己回帰生成時のメモリと計算要求を減らす新しいアプローチである。
LoMAには、圧縮コンテキストに最適化された自己回帰生成アルゴリズムとともに、特別なトレーニングや微調整の事前処理が組み込まれている。
実験的検証により、LoMAは計算消費とメモリ使用量を大幅に削減した。
論文 参考訳(メタデータ) (2024-01-16T09:18:46Z) - Extreme Compression of Large Language Models via Additive Quantization [59.3122859349777]
AQLMは、パラメータ毎に3ビット未満に圧縮する場合、精度-vs-モデルサイズで最適である最初のスキームである。
トークン生成のためのAQLMの高速GPUおよびCPU実装を提供する。
論文 参考訳(メタデータ) (2024-01-11T18:54:44Z) - Rethinking Compression: Reduced Order Modelling of Latent Features in
Large Language Models [9.91972450276408]
本稿では,Large Language Models (LLMs) のパラメトリックおよび実用的な圧縮に対して,低次モデリングに基づく革新的なアプローチを提案する。
本手法は, 行列分解を利用したモデル圧縮の顕著な進歩を示し, 最先端の構造化プルーニング法よりも優れた有効性を示した。
論文 参考訳(メタデータ) (2023-12-12T07:56:57Z) - Blockwise Compression of Transformer-based Models without Retraining [6.118476907408718]
本稿では,再学習を伴わない変圧器のブロックワイド圧縮フレームワークであるBCTを提案する。
層ワイド圧縮法とは異なり、BCTはブロックワイド操作によりトランス全体のより微細な圧縮を実現する。
BCTは、埋め込み、行列乗算、GELU、Softmax、層正規化、中間結果など、モデルの全コンポーネントを効果的に圧縮する。
論文 参考訳(メタデータ) (2023-04-04T02:55:40Z) - Energy-efficient Task Adaptation for NLP Edge Inference Leveraging
Heterogeneous Memory Architectures [68.91874045918112]
Adapter-ALBERTは、様々なタスクにわたる最大データ再利用のための効率的なモデル最適化である。
検証されたNLPエッジアクセラレータ上でシミュレーションを行うことにより、モデルを不均一なオンチップメモリアーキテクチャにマッピングする利点を実証する。
論文 参考訳(メタデータ) (2023-03-25T14:40:59Z) - Efficient Micro-Structured Weight Unification and Pruning for Neural
Network Compression [56.83861738731913]
ディープニューラルネットワーク(DNN)モデルは、特にリソース制限されたデバイスにおいて、実用的なアプリケーションに不可欠である。
既往の非構造的あるいは構造化された重量刈り法は、推論を真に加速することはほとんど不可能である。
ハードウェア互換のマイクロ構造レベルでの一般化された重み統一フレームワークを提案し,高い圧縮と加速度を実現する。
論文 参考訳(メタデータ) (2021-06-15T17:22:59Z) - Neural Network Compression for Noisy Storage Devices [71.4102472611862]
従来、モデル圧縮と物理ストレージは分離される。
このアプローチでは、ストレージは圧縮されたモデルの各ビットを等しく扱い、各ビットに同じ量のリソースを割り当てるように強制される。
i) 各メモリセルの容量を最大化するためにアナログメモリを使用し, (ii) モデル圧縮と物理ストレージを共同で最適化し, メモリの有用性を最大化する。
論文 参考訳(メタデータ) (2021-02-15T18:19:07Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。