Fugu-MT 論文翻訳(概要): QET: Enhancing Quantized LLM Parameters and KV cache Compression through Element Substitution and Residual Clustering

論文の概要: QET: Enhancing Quantized LLM Parameters and KV cache Compression through Element Substitution and Residual Clustering

arxiv url: http://arxiv.org/abs/2407.03637v4
Date: Fri, 6 Sep 2024 08:28:01 GMT
ステータス: 翻訳完了
システム内更新日: 2024-09-09 18:20:31.102765
Title: QET: Enhancing Quantized LLM Parameters and KV cache Compression through Element Substitution and Residual Clustering
Title（参考訳）: QET:要素置換と残留クラスタリングによる量子LDMパラメータとKVキャッシュ圧縮の強化
Authors: Yanshu Wang, Wang Li, Zhaoqian Yao, Tong Yang,
Abstract要約: 量子化前後の行列間の距離を最小化するために、量子化誤差最小化問題を定式化する。行列量子化は、Large Language Models (LLM) 重み量子化、ベクトルデータベース、KVキャッシュ量子化、グラフ圧縮、画像圧縮など、様々なアプリケーションにおいて重要である。行列要素の局所順序性を利用してQEM問題に対処する量子エンタングルメントツリー(QET)を提案する。
参考スコア（独自算出の注目度）: 5.363038867793461
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: The matrix quantization entails representing matrix elements in a more space-efficient form to reduce storage usage, with dequantization restoring the original matrix for use. We formulate the Quantization Error Minimization (QEM) problem as minimizing the distance between a matrix before and after quantization, under the condition that the quantized matrix occupies the same memory space. Matrix quantization is crucial in various applications, including Large Language Models (LLMs) weight quantization, vector databases, KV cache quantization, graph compression, and image compression. Recent advancements in LLMs, such as GPT-4 and BERT, have highlighted the importance of matrix compression due to the large size of parameters and KV cache, which are stored as matrices. We propose Quantum Entanglement Trees (QET) to address the QEM problem by leveraging the local orderliness of matrix elements, involving iterative element swapping to form a locally ordered matrix. This matrix is then grouped and quantized by columns. To enhance QET, we introduce two optimizations: further quantizing residuals to reduce MSE, and using masking and batch processing to accelerate the algorithm. Experimental results demonstrate that QET can effectively reduce MSE to 5.05%, 13.33%, and 11.89% of the current best method on the LLM dataset, K cache, and V cache, respectively. Our contributions include the abstraction of the QEM problem, the design of the QET algorithm, and the proposal of two optimizations to improve accuracy and speed.
Abstract（参考訳）: 行列量子化は、ストレージ使用量を減らすためにより空間効率の良い形式で行列要素を表現し、元の行列を復調する。我々は、量子化行列が同じメモリ空間を占める条件の下で、量子化前後の行列間の距離を最小化するものとして量子化誤差最小化(QEM)問題を定式化する。行列量子化は、Large Language Models (LLM) 重み量子化、ベクトルデータベース、KVキャッシュ量子化、グラフ圧縮、画像圧縮など、様々なアプリケーションにおいて重要である。 GPT-4 や BERT などの最近の LLM の進歩は,行列として格納されるパラメータや KV キャッシュの大きいため,行列圧縮の重要性を強調している。行列要素の局所順序性を利用してQEM問題に対処する量子エンタングルメントツリー(QET)を提案する。この行列はその後、列によってグループ化され、定量化される。そこで本研究では,MSE削減のための残差の定量化と,マスキングとバッチ処理によるアルゴリズムの高速化という2つの最適化手法を提案する。実験の結果、QET は MSE を LLM データセット、K キャッシュ、V キャッシュでそれぞれ11.89% の5.05%、13.33%、および11.89% に効果的に削減できることが示された。コントリビューションには、QEM問題の抽象化、QETアルゴリズムの設計、精度と速度を改善するための2つの最適化の提案が含まれている。

関連論文リスト

Orthogonal Finetuning Made Scalable [87.49040247077389]
OFT(Orthogonal Finetuning)は、壊滅的な忘れ込みを防止しつつ、パラメータ効率の高い適応を提供するが、実行時とメモリの要求が高いため、実際のデプロイメントが制限される。ここでは,OFTの計算ボトルネックを重み中心の実装とみなす。本稿では,行列ベクトル乗法(行列フリー計算)を用いて,計算コストを2次に削減する入力中心の変換法OFTv2を提案する。これらの修正により、OFTv2はパフォーマンスを損なうことなく、最大10倍高速なトレーニングと3倍のGPUメモリ使用率を達成することができる。
論文参考訳（メタデータ） (2025-06-24T17:59:49Z)
More for Keys, Less for Values: Adaptive KV Cache Quantization [59.708443710731146]
本稿では,大規模言語モデルにおけるキー値キャッシュを適応的に圧縮する情報認識量子化フレームワークを提案する。鍵行列が常に高いノルム値を示し、値行列よりも量子化に敏感であることを示す。我々は、鍵のビット幅を多く割り当て、値のビット幅を小さくする混合精度量子化戦略KV-AdaQuantを提案する。
論文参考訳（メタデータ） (2025-02-20T22:24:27Z)
Memory-Efficient 4-bit Preconditioned Stochastic Optimization [53.422307389223626]
シャンプーのプリコンディショナーに4ビット量子化を導入する。我々の知る限り、これはプレコンディショナーのチョレスキー因子に適用された最初の量子化手法である。 Cholesky量子化とエラーフィードバックを組み合わせることで、メモリ効率とアルゴリズム性能が向上することを示した。
論文参考訳（メタデータ） (2024-12-14T03:32:54Z)
MVQ:Towards Efficient DNN Compression and Acceleration with Masked Vector Quantization [8.057807176915896]
限られた数のコードワードで重要な重みをよりよく近似することを目的としたMVQと呼ばれる新しいアプローチが提案されている。本アルゴリズムは,画像分類,オブジェクト検出,セグメンテーションタスクの様々なモデルで検証される。 ASIC評価では, MVQ加速器はエネルギー効率を2.3$times$で向上し, ベースEWS加速器と比較してサイストリックアレイのサイズを55%削減する。
論文参考訳（メタデータ） (2024-12-13T16:30:35Z)
SMM-Conv: Scalar Matrix Multiplication with Zero Packing for Accelerated Convolution [4.14360329494344]
本稿では、CPUアーキテクチャの推論中に畳み込みを加速するための新しいアプローチを提案する。ネットワークアーキテクチャを用いた実験は,既存の間接手法に比べて大幅に高速化された。
論文参考訳（メタデータ） (2024-11-23T21:43:38Z)
Residual vector quantization for KV cache compression in large language model [2.3094645821058735]
KVキャッシュ圧縮法は主にデコード時のメモリ要求を減らすスカラー量子化技術に依存している。本研究では,大規模言語モデル(LLM)におけるKVキャッシュの圧縮に,高忠実度音声圧縮に広く用いられている残差ベクトル量子化を適用した。我々は指数移動平均を用いてコードブックを学習し、ベクトル量子化設定に通常使用される入力と出力のプロジェクションを含む他の学習可能なパラメータは存在しない。
論文参考訳（メタデータ） (2024-10-21T07:20:41Z)
AsymKV: Enabling 1-Bit Quantization of KV Cache with Layer-Wise Asymmetric Quantization Configurations [36.63586957377984]
大規模な言語モデルは、しばしばかなりのストレージスペースを必要とする。パラメータ数が膨大であるため、これらのモデルは大きなストレージスペースを必要とすることが多い。 1つの研究方向は、浮動小数点数の整数置換を用いてモデルを圧縮することを提案する。
論文参考訳（メタデータ） (2024-10-17T04:35:57Z)
Quantization-aware Matrix Factorization for Low Bit Rate Image Compression [8.009813033356478]
画像圧縮は効率的な伝送と保存に不可欠である。本稿では、量子化対応行列分解法(QMF)を導入し、新しい損失画像圧縮法を提案する。我々の手法は、JPEGを低ビットレートで0.25ビット/ピクセル(bpp)以下で連続的に上回り、高いビットレートで比較する。
論文参考訳（メタデータ） (2024-08-22T19:08:08Z)
Fast Matrix Multiplications for Lookup Table-Quantized LLMs [58.11584672945781]
FLUTEはLUT量子化LLM用のフレキシブルなルックアップテーブルエンジンである。バッチサイズ32と量子化グループサイズ128では、FLUTEカーネルは既存のGEMMカーネルよりも2〜4倍高速である。
論文参考訳（メタデータ） (2024-07-15T17:55:42Z)
SliM-LLM: Salience-Driven Mixed-Precision Quantization for Large Language Models [67.67135738642547]
後学習量子化(PTQ)は、大規模言語モデル(LLM)において研究される強力な圧縮手法である。既存のPTQ法は、特に4ビット幅以下では、精度と効率の点で理想的ではない。本稿では,LSM,すなわちSliM-LLMに対するSalience-Driven Mixed-Precision Quantizationスキームを提案する。
論文参考訳（メタデータ） (2024-05-23T16:21:48Z)
Unlocking Data-free Low-bit Quantization with Matrix Decomposition for KV Cache Compression [87.5604418100301]
キー値(KV)キャッシングは,大規模言語モデルの推論を高速化する重要な手法である。既存の手法はしばしば精度を損なうか、キャリブレーションのために余分なデータを必要とする。テンソル分解法に基づく新しいデータフリー低ビット量子化手法である textbfDecoQuant を導入する。
論文参考訳（メタデータ） (2024-05-21T08:35:10Z)
WKVQuant: Quantizing Weight and Key/Value Cache for Large Language Models Gains More [55.0856305773081]
大規模言語モデル (LLM) は、そのメモリ要求と自動回帰テキスト生成プロセスの計算要求のために、重要なデプロイメント課題に直面している。本稿では、モデルパラメータとアクティベーションを低ビット整数に変換することでメモリ消費を低減する手法であるLCMの量子化に着目し、これらの課題に対処する。
論文参考訳（メタデータ） (2024-02-19T11:33:21Z)
OneBit: Towards Extremely Low-bit Large Language Models [66.29839811207617]
本稿では, LLMの重量行列を1ビットに大胆に定量化し, LLMの極低ビット幅展開への道を開く。実験によると、OneBitは(LLaMAモデルの非量子化性能の少なくとも81%)優れたパフォーマンスを、堅牢なトレーニングプロセスで達成している。
論文参考訳（メタデータ） (2024-02-17T14:26:57Z)
LQ-LoRA: Low-rank Plus Quantized Matrix Decomposition for Efficient Language Model Finetuning [66.85589263870702]
提案手法では,事前学習した行列を高精度の低ランク成分とメモリ効率の量子化成分に分解するために反復アルゴリズムを用いる。微調整されたRoBERTaとLLaMA-2の実験は、我々の低ランク+量子化行列分解法(LQ-LoRA)が強いQLoRAおよびGPTQ-LoRAベースラインより優れていることを示した。
論文参考訳（メタデータ） (2023-11-20T18:57:41Z)
Sufficient dimension reduction for feature matrices [3.04585143845864]
そこで本研究では,主支持行列マシン (PSMM) を用いた行列次元削減手法を提案する。数値解析により、PSMMは既存の手法よりも優れ、実データアプリケーションでは高い解釈性を有することが示された。
論文参考訳（メタデータ） (2023-03-07T23:16:46Z)
A quantum algorithm for solving eigenproblem of the Laplacian matrix of a fully connected weighted graph [4.045204834863644]
完全連結重み付きグラフのラプラシア行列の固有確率を解くための効率的な量子アルゴリズムを提案する。具体的には,ブロック符号化フレームワークに基づく最適ハミルトンシミュレーション手法を採用する。また、このアルゴリズムは対称(非対称)正規化ラプラス行列の固有確率を解くために拡張可能であることを示す。
論文参考訳（メタデータ） (2022-03-28T02:24:08Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。