論文の概要: HERA: High-efficiency Matrix Compression via Element Replacement
- arxiv url: http://arxiv.org/abs/2407.03637v2
- Date: Mon, 19 Aug 2024 03:18:59 GMT
- ステータス: 処理完了
- システム内更新日: 2024-08-21 02:18:56.988517
- Title: HERA: High-efficiency Matrix Compression via Element Replacement
- Title(参考訳): HERA: 要素置換による高効率マトリックス圧縮
- Authors: Yanshu Wang, Wang Li, Tong Yang,
- Abstract要約: 行列量子化は、Large Language Models (LLM) における重み量子化、ベクトルデータベース、KVキャッシュ量子化、グラフ圧縮、画像圧縮など、様々な分野において不可欠である。
本稿では,行列要素の局所順序を反復的に交換して局所順序行列を生成するアルゴリズムであるHETAを紹介する。
実験の結果,HETA は MSE の12.3% を圧縮比で効果的に削減し,主要なベースラインアルゴリズムより優れていることがわかった。
- 参考スコア(独自算出の注目度): 5.858734684979008
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Matrix quantization involves encoding matrix elements in a more space-efficient manner to minimize storage requirements, with dequantization used to reconstruct the original matrix for practical use. We define the Quantization Error Minimization (QEM) problem as minimizing the difference between a matrix before and after quantization while ensuring that the quantized matrix occupies the same amount of memory. Matrix quantization is essential in various fields, including weight quantization in Large Language Models (LLMs), vector databases, KV cache quantization, graph compression, and image compression. The growing scale of LLMs, such as GPT-4 and BERT, underscores the need for matrix compression due to the large size of parameters and KV caches, which are stored as matrices. To address the QEM problem, we introduce HETA, an algorithm that leverages the local orderliness of matrix elements by iteratively swapping elements to create a locally ordered matrix. This matrix is then grouped and quantized by columns. To further improve HETA, we present two optimizations: additional quantization of residuals to reduce mean squared error (MSE) and the application of masking and batch processing to accelerate the algorithm. Our experiments show that HETA effectively reduces MSE to 12.3% of its original value at the same compression ratio, outperforming leading baseline algorithms. Our contributions include formalizing the QEM problem, developing the HETA algorithm, and proposing two optimizations to enhance both accuracy and processing speed.
- Abstract(参考訳): 行列量子化は、記憶要求を最小限に抑えるためにより空間効率のよい方法で行列要素を符号化する。
量子化エラー最小化(QEM)問題を、量子化前と後の違いを最小化しつつ、その量子化行列が同じメモリ量を占めることを保証するものとして定義する。
行列量子化は、Large Language Models (LLM) における重み量子化、ベクトルデータベース、KVキャッシュ量子化、グラフ圧縮、画像圧縮など、様々な分野において不可欠である。
GPT-4 や BERT のような LLM の大規模化は、パラメータの大きなサイズと行列として格納される KV キャッシュのため、行列圧縮の必要性を浮き彫りにしている。
QEM問題に対処するために,行列要素の局所順序を反復的に交換して局所順序行列を生成するアルゴリズムであるHETAを導入する。
この行列はその後、列によってグループ化され、定量化される。
HETAをさらに改善するために、平均二乗誤差(MSE)を低減するための残差の量子化と、アルゴリズムを高速化するためのマスキングとバッチ処理の2つの最適化を提案する。
実験の結果,HETA は MSE の12.3% を圧縮比で効果的に削減し,主要なベースラインアルゴリズムより優れていることがわかった。
我々の貢献は、QEM問題を形式化し、HETAアルゴリズムを開発し、精度と処理速度を両立させる2つの最適化を提案することである。
関連論文リスト
- Reducing QUBO Density by Factoring Out Semi-Symmetries [4.581191399651181]
本稿では,QUBO行列におけるテクステミシンメトリの概念を紹介する。
提案アルゴリズムは結合数と回路深さを最大45%削減することを示した。
論文 参考訳(メタデータ) (2024-12-18T12:05:18Z) - Memory-Efficient 4-bit Preconditioned Stochastic Optimization [53.422307389223626]
シャンプーのプリコンディショナーに4ビット量子化を導入する。
我々の知る限り、これはプレコンディショナーのチョレスキー因子に適用された最初の量子化手法である。
論文 参考訳(メタデータ) (2024-12-14T03:32:54Z) - MVQ:Towards Efficient DNN Compression and Acceleration with Masked Vector Quantization [8.057807176915896]
限られた数のコードワードで重要な重みをよりよく近似することを目的としたMVQと呼ばれる新しいアプローチが提案されている。
本アルゴリズムは,画像分類,オブジェクト検出,セグメンテーションタスクの様々なモデルで検証される。
ASIC評価では, MVQ加速器はエネルギー効率を2.3$times$で向上し, ベースEWS加速器と比較してサイストリックアレイのサイズを55%削減する。
論文 参考訳(メタデータ) (2024-12-13T16:30:35Z) - Residual vector quantization for KV cache compression in large language model [2.3094645821058735]
KVキャッシュ圧縮法は主にデコード時のメモリ要求を減らすスカラー量子化技術に依存している。
本研究では,大規模言語モデル(LLM)におけるKVキャッシュの圧縮に,高忠実度音声圧縮に広く用いられている残差ベクトル量子化を適用した。
我々は指数移動平均を用いてコードブックを学習し、ベクトル量子化設定に通常使用される入力と出力のプロジェクションを含む他の学習可能なパラメータは存在しない。
論文 参考訳(メタデータ) (2024-10-21T07:20:41Z) - AsymKV: Enabling 1-Bit Quantization of KV Cache with Layer-Wise Asymmetric Quantization Configurations [36.63586957377984]
大規模な言語モデルは、しばしばかなりのストレージスペースを必要とする。
パラメータ数が膨大であるため、これらのモデルは大きなストレージスペースを必要とすることが多い。
1つの研究方向は、浮動小数点数の整数置換を用いてモデルを圧縮することを提案する。
論文 参考訳(メタデータ) (2024-10-17T04:35:57Z) - Fast Matrix Multiplications for Lookup Table-Quantized LLMs [58.11584672945781]
FLUTEはLUT量子化LLM用のフレキシブルなルックアップテーブルエンジンである。
バッチサイズ32と量子化グループサイズ128では、FLUTEカーネルは既存のGEMMカーネルよりも2〜4倍高速である。
論文 参考訳(メタデータ) (2024-07-15T17:55:42Z) - SliM-LLM: Salience-Driven Mixed-Precision Quantization for Large Language Models [67.67135738642547]
後学習量子化(PTQ)は、大規模言語モデル(LLM)において研究される強力な圧縮手法である。
既存のPTQ法は、特に4ビット幅以下では、精度と効率の点で理想的ではない。
本稿では,LSM,すなわちSliM-LLMに対するSalience-Driven Mixed-Precision Quantizationスキームを提案する。
論文 参考訳(メタデータ) (2024-05-23T16:21:48Z) - WKVQuant: Quantizing Weight and Key/Value Cache for Large Language
Models Gains More [55.0856305773081]
大規模言語モデル (LLM) は、そのメモリ要求と自動回帰テキスト生成プロセスの計算要求のために、重要なデプロイメント課題に直面している。
本稿では、モデルパラメータとアクティベーションを低ビット整数に変換することでメモリ消費を低減する手法であるLCMの量子化に着目し、これらの課題に対処する。
論文 参考訳(メタデータ) (2024-02-19T11:33:21Z) - OneBit: Towards Extremely Low-bit Large Language Models [66.29839811207617]
本稿では, LLMの重量行列を1ビットに大胆に定量化し, LLMの極低ビット幅展開への道を開く。
実験によると、OneBitは(LLaMAモデルの非量子化性能の少なくとも81%)優れたパフォーマンスを、堅牢なトレーニングプロセスで達成している。
論文 参考訳(メタデータ) (2024-02-17T14:26:57Z) - LQ-LoRA: Low-rank Plus Quantized Matrix Decomposition for Efficient Language Model Finetuning [66.85589263870702]
提案手法では,事前学習した行列を高精度の低ランク成分とメモリ効率の量子化成分に分解するために反復アルゴリズムを用いる。
微調整されたRoBERTaとLLaMA-2の実験は、我々の低ランク+量子化行列分解法(LQ-LoRA)が強いQLoRAおよびGPTQ-LoRAベースラインより優れていることを示した。
論文 参考訳(メタデータ) (2023-11-20T18:57:41Z) - A quantum algorithm for solving eigenproblem of the Laplacian matrix of
a fully connected weighted graph [4.045204834863644]
完全連結重み付きグラフのラプラシア行列の固有確率を解くための効率的な量子アルゴリズムを提案する。
具体的には,ブロック符号化フレームワークに基づく最適ハミルトンシミュレーション手法を採用する。
また、このアルゴリズムは対称(非対称)正規化ラプラス行列の固有確率を解くために拡張可能であることを示す。
論文 参考訳(メタデータ) (2022-03-28T02:24:08Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。