論文の概要: LUT-GEMM: Quantized Matrix Multiplication based on LUTs for Efficient
Inference in Large-Scale Generative Language Models
- arxiv url: http://arxiv.org/abs/2206.09557v3
- Date: Sat, 15 Apr 2023 15:16:40 GMT
- ステータス: 処理完了
- システム内更新日: 2023-04-19 00:32:45.948706
- Title: LUT-GEMM: Quantized Matrix Multiplication based on LUTs for Efficient
Inference in Large-Scale Generative Language Models
- Title(参考訳): LUT-GEMM:大規模生成言語モデルにおける効率的な推論のためのLUTに基づく量子行列乗法
- Authors: Gunho Park, Baeseong Park, Minsub Kim, Sungjae Lee, Jeonghoon Kim,
Beomseok Kwon, Se Jung Kwon, Byeongwook Kim, Youngjoo Lee, and Dongsoo Lee
- Abstract要約: 大規模生成言語モデルに適した効率的な推論フレームワークを提案する。
我々は、アクティベーションの完全精度を維持しながら、重量のみの量子化戦略を採用する。
LUT-GEMMと呼ばれる提案したカーネルは、量子化された行列乗法を高速化する。
- 参考スコア(独自算出の注目度): 9.467007917417456
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: The recent advancements in self-supervised learning, combined with the
Transformer architecture, have enabled natural language processing (NLP) to
achieve remarkably low perplexity. However, powerful NLP models necessitate
increasing model size, leading to substantial computational and memory
requirements. In this paper, we introduce an efficient inference framework
tailored for large-scale generative language models. To reduce the model size,
we employ a weight-only quantization strategy while preserving full precision
for activations. As a result, we attain sub-4-bit quantization for each weight
through non-uniform or uniform quantization techniques. Our proposed kernel,
called LUT-GEMM, then accelerates quantized matrix multiplications, offering a
flexible balance between compression ratio and accuracy. Unlike earlier matrix
multiplication kernels that accommodated weight-only quantization, LUT-GEMM
efficiently eliminates the resource-demanding dequantization process for both
uniform and non-uniform quantization methods. By reducing the latency of
individual GPUs and the overall inference process for large-scale language
models, LUT-GEMM provides significant performance improvements in inference.
The impact of LUT-GEMM is facilitated by implementing high compression ratios
through low-bit quantization and efficient LUT-based operations, which
decreases the number of required GPUs. For the OPT-175B model with 3-bit
quantization, we show that LUT-GEMM accelerates the latency for generating each
token by 2.1x compared to OPTQ, which requires costly dequantization.
Consequently, LUT-GEMM enables inference of the OPT-175B model on a single GPU
without noticeable degradation in accuracy or performance, while the
non-quantized OPT-175B model requires a minimum of 8 GPUs.
- Abstract(参考訳): 近年の自己教師型学習の進歩とTransformerアーキテクチャが組み合わさって、自然言語処理(NLP)が著しく低難易度を実現している。
しかし、強力なnlpモデルはモデルサイズを増加させ、かなりの計算量とメモリ要件をもたらす。
本稿では,大規模生成言語モデルに適した効率的な推論フレームワークを提案する。
モデルサイズを小さくするために、活性化の完全精度を維持しながら、重量のみの量子化戦略を用いる。
その結果,非一様あるいは一様量子化技術により,各重みに対するサブ4ビット量子化を実現する。
提案手法はlut-gemmと呼ばれ,圧縮率と精度のバランスを柔軟に保ち,量子化行列の乗算を高速化する。
重みのみ量子化に対応する以前の行列乗算核とは異なり、lut-gemmは一様および非一様量子化法の両方の資源要求非量子化プロセスを効率的に除去する。
個々のGPUのレイテンシと大規模言語モデルの全体的な推論プロセスを削減することで、LUT-GEMMは推論の性能を大幅に改善する。
LUT-GEMMの影響は、低ビット量子化と効率的なLUTベースの演算によって高い圧縮比を実装し、必要なGPUの数を減少させることで促進される。
3ビット量子化を用いた OPT-175B モデルでは,LUT-GEMM がコストのかかる OPTQ と比較して,各トークンの生成遅延を 2.1 倍高速化することを示した。
したがって、LUT-GEMMは1つのGPU上でOPT-175Bモデルの精度や性能を著しく低下させることなく推定できる。
関連論文リスト
- MixPE: Quantization and Hardware Co-design for Efficient LLM Inference [16.42907854119748]
MixPEは、大規模言語モデルにおける効率的な低ビット量子化のために設計された、特殊な混合精度処理素子である。
我々は、MixPEが最先端の量子化アクセラレータを2.6倍のスピードアップと1.4倍のエネルギー削減で超えることを示した。
論文 参考訳(メタデータ) (2024-11-25T07:34:53Z) - SLiM: One-shot Quantized Sparse Plus Low-rank Approximation of LLMs [2.7624021966289605]
大規模言語モデル(LLM)は、自然言語の理解と生成タスクに革命をもたらした。
LLMは、大きなパラメータサイズのため、メモリ消費が高く、推論時間が遅い。
本稿では,1ショットの量子スパースプラス低ランク近似を用いたLEMの圧縮手法であるSLiMを紹介する。
論文 参考訳(メタデータ) (2024-10-12T18:36:07Z) - SliM-LLM: Salience-Driven Mixed-Precision Quantization for Large Language Models [67.67135738642547]
後学習量子化(PTQ)は、大規模言語モデル(LLM)において研究される強力な圧縮手法である。
既存のPTQ法は、特に4ビット幅以下では、精度と効率の点で理想的ではない。
本稿では,LSM,すなわちSliM-LLMに対するSalience-Driven Mixed-Precision Quantizationスキームを提案する。
論文 参考訳(メタデータ) (2024-05-23T16:21:48Z) - PikeLPN: Mitigating Overlooked Inefficiencies of Low-Precision Neural Networks [4.827161693957252]
非量子化要素演算は、低精度モデルの推論コストを支配している。
PikeLPNモデルは、要素演算と乗算累積演算の両方に量子化を適用することで、これらの問題に対処する。
論文 参考訳(メタデータ) (2024-03-29T18:23:34Z) - AffineQuant: Affine Transformation Quantization for Large Language Models [58.45460102764]
ポストトレーニング量子化(PTQ)は、その圧縮効率とトレーニングの文脈における費用対効果により、かなりの関心を集めている。
既存の大規模言語モデル(LLM)のPTQ手法は、事前量子化重みと後量子化重みの間の変換のスケーリングに最適化範囲を制限している。
本稿では,PTQ(AffineQuant)における等価アフィン変換を用いた直接最適化を提唱する。
論文 参考訳(メタデータ) (2024-03-19T08:40:21Z) - On-Chip Hardware-Aware Quantization for Mixed Precision Neural Networks [52.97107229149988]
エッジデバイス上でハードウェア対応の混合精度量子化を行うOn-Chipハードウェア・アウェア量子化フレームワークを提案する。
このパイプラインは、量子化プロセスが量子化演算子の実際のハードウェア効率を知覚することを可能にする。
精度測定のために,マルチチップシナリオにおける演算子の精度への影響を効果的に推定するMask-Guided Quantization Estimation技術を提案する。
論文 参考訳(メタデータ) (2023-09-05T04:39:34Z) - OmniQuant: Omnidirectionally Calibrated Quantization for Large Language Models [57.27101446992148]
大規模言語モデル(LLM)は自然言語処理タスクに革命をもたらした。
近年のPTQ法はメモリフットプリントの削減とLLMの計算効率の向上に有効である。
多様な量子化設定において優れた性能を実現するLLMのOmnidirectly calibrated Quantization手法を提案する。
論文 参考訳(メタデータ) (2023-08-25T02:28:35Z) - FineQuant: Unlocking Efficiency with Fine-Grained Weight-Only
Quantization for LLMs [9.072821427818557]
大規模言語モデル(LLM)は、様々な言語タスクで最先端のパフォーマンスを達成しているが、実用的なデプロイメントには課題がある。
メモリ消費を削減し,LLMの推論を高速化する,効率的な重みのみの量子化法を提案する。
我々は,OPT-175Bや内部MoEモデルのような大規模オープンソースモデルに対するアプローチを評価し,スループットを最大3.65倍に向上しながら,最小限の精度の損失を示す。
論文 参考訳(メタデータ) (2023-08-16T23:57:41Z) - SqueezeLLM: Dense-and-Sparse Quantization [80.32162537942138]
LLMにおける生成推論の主なボトルネックは、単一のバッチ推論のための計算ではなく、メモリ帯域幅である。
学習後量子化フレームワークであるSqueezeLLMを導入し、最大3ビットの超低精度でのロスレス圧縮を実現する。
本フレームワークは,2次情報に基づく最適ビット精度割当を探索する感度ベース非一様量子化法と,2次情報に基づくDense-and-Sparse分解法と,2次情報量割当値と感度重み値を効率的にスパース形式で格納するDense-and-Sparse分解法である。
論文 参考訳(メタデータ) (2023-06-13T08:57:54Z) - Mixed Precision Low-bit Quantization of Neural Network Language Models
for Speech Recognition [67.95996816744251]
長期間のメモリリカレントニューラルネットワーク(LSTM-RNN)とトランスフォーマーで表される最先端言語モデル(LM)は、実用アプリケーションではますます複雑で高価なものになりつつある。
現在の量子化法は、均一な精度に基づいており、量子化誤差に対するLMの異なる部分での様々な性能感度を考慮できない。
本稿では,新しい混合精度ニューラルネットワークLM量子化法を提案する。
論文 参考訳(メタデータ) (2021-11-29T12:24:02Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。