論文の概要: LUT-GEMM: Quantized Matrix Multiplication based on LUTs for Efficient
Inference in Large-Scale Generative Language Models
- arxiv url: http://arxiv.org/abs/2206.09557v3
- Date: Sat, 15 Apr 2023 15:16:40 GMT
- ステータス: 処理完了
- システム内更新日: 2023-04-19 00:32:45.948706
- Title: LUT-GEMM: Quantized Matrix Multiplication based on LUTs for Efficient
Inference in Large-Scale Generative Language Models
- Title(参考訳): LUT-GEMM:大規模生成言語モデルにおける効率的な推論のためのLUTに基づく量子行列乗法
- Authors: Gunho Park, Baeseong Park, Minsub Kim, Sungjae Lee, Jeonghoon Kim,
Beomseok Kwon, Se Jung Kwon, Byeongwook Kim, Youngjoo Lee, and Dongsoo Lee
- Abstract要約: 大規模生成言語モデルに適した効率的な推論フレームワークを提案する。
我々は、アクティベーションの完全精度を維持しながら、重量のみの量子化戦略を採用する。
LUT-GEMMと呼ばれる提案したカーネルは、量子化された行列乗法を高速化する。
- 参考スコア(独自算出の注目度): 9.467007917417456
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: The recent advancements in self-supervised learning, combined with the
Transformer architecture, have enabled natural language processing (NLP) to
achieve remarkably low perplexity. However, powerful NLP models necessitate
increasing model size, leading to substantial computational and memory
requirements. In this paper, we introduce an efficient inference framework
tailored for large-scale generative language models. To reduce the model size,
we employ a weight-only quantization strategy while preserving full precision
for activations. As a result, we attain sub-4-bit quantization for each weight
through non-uniform or uniform quantization techniques. Our proposed kernel,
called LUT-GEMM, then accelerates quantized matrix multiplications, offering a
flexible balance between compression ratio and accuracy. Unlike earlier matrix
multiplication kernels that accommodated weight-only quantization, LUT-GEMM
efficiently eliminates the resource-demanding dequantization process for both
uniform and non-uniform quantization methods. By reducing the latency of
individual GPUs and the overall inference process for large-scale language
models, LUT-GEMM provides significant performance improvements in inference.
The impact of LUT-GEMM is facilitated by implementing high compression ratios
through low-bit quantization and efficient LUT-based operations, which
decreases the number of required GPUs. For the OPT-175B model with 3-bit
quantization, we show that LUT-GEMM accelerates the latency for generating each
token by 2.1x compared to OPTQ, which requires costly dequantization.
Consequently, LUT-GEMM enables inference of the OPT-175B model on a single GPU
without noticeable degradation in accuracy or performance, while the
non-quantized OPT-175B model requires a minimum of 8 GPUs.
- Abstract(参考訳): 近年の自己教師型学習の進歩とTransformerアーキテクチャが組み合わさって、自然言語処理(NLP)が著しく低難易度を実現している。
しかし、強力なnlpモデルはモデルサイズを増加させ、かなりの計算量とメモリ要件をもたらす。
本稿では,大規模生成言語モデルに適した効率的な推論フレームワークを提案する。
モデルサイズを小さくするために、活性化の完全精度を維持しながら、重量のみの量子化戦略を用いる。
その結果,非一様あるいは一様量子化技術により,各重みに対するサブ4ビット量子化を実現する。
提案手法はlut-gemmと呼ばれ,圧縮率と精度のバランスを柔軟に保ち,量子化行列の乗算を高速化する。
重みのみ量子化に対応する以前の行列乗算核とは異なり、lut-gemmは一様および非一様量子化法の両方の資源要求非量子化プロセスを効率的に除去する。
個々のGPUのレイテンシと大規模言語モデルの全体的な推論プロセスを削減することで、LUT-GEMMは推論の性能を大幅に改善する。
LUT-GEMMの影響は、低ビット量子化と効率的なLUTベースの演算によって高い圧縮比を実装し、必要なGPUの数を減少させることで促進される。
3ビット量子化を用いた OPT-175B モデルでは,LUT-GEMM がコストのかかる OPTQ と比較して,各トークンの生成遅延を 2.1 倍高速化することを示した。
したがって、LUT-GEMMは1つのGPU上でOPT-175Bモデルの精度や性能を著しく低下させることなく推定できる。
関連論文リスト
- OneBit: Towards Extremely Low-bit Large Language Models [69.15388378646395]
本稿では, LLMの重量行列を1ビットに大胆に定量化し, LLMの極低ビット幅展開への道を開く。
実験によると、OneBitは、堅牢なトレーニングプロセスで優れたパフォーマンス(少なくとも、非量子化パフォーマンスの83%)を達成する。
論文 参考訳(メタデータ) (2024-02-17T14:26:57Z) - LQ-LoRA: Low-rank Plus Quantized Matrix Decomposition for Efficient
Language Model Finetuning [73.03525981320749]
提案手法では,事前学習した行列を高精度の低ランク成分とメモリ効率の量子化成分に分解するために反復アルゴリズムを用いる。
微調整されたRoBERTaとLLaMA-2の実験は、我々の低ランク+量子化行列分解法(LQ-LoRA)が強いQLoRAおよびGPTQ-LoRAベースラインより優れていることを示した。
論文 参考訳(メタデータ) (2023-11-20T18:57:41Z) - OmniQuant: Omnidirectionally Calibrated Quantization for Large Language
Models [59.176603429408225]
大規模言語モデル(LLM)は自然言語処理タスクに革命をもたらした。
最近のPTQ法はメモリフットプリントの削減に有効であるが、極端に低ビットの量子化に対処できない。
多様な量子化設定において優れた性能を実現するLLMのOmnidirectly calibrated Quantization手法を提案する。
論文 参考訳(メタデータ) (2023-08-25T02:28:35Z) - FineQuant: Unlocking Efficiency with Fine-Grained Weight-Only
Quantization for LLMs [9.072821427818557]
大規模言語モデル(LLM)は、様々な言語タスクで最先端のパフォーマンスを達成しているが、実用的なデプロイメントには課題がある。
メモリ消費を削減し,LLMの推論を高速化する,効率的な重みのみの量子化法を提案する。
我々は,OPT-175Bや内部MoEモデルのような大規模オープンソースモデルに対するアプローチを評価し,スループットを最大3.65倍に向上しながら,最小限の精度の損失を示す。
論文 参考訳(メタデータ) (2023-08-16T23:57:41Z) - NUPES : Non-Uniform Post-Training Quantization via Power Exponent Search [7.971065005161565]
量子化は浮動小数点表現を低ビット幅の固定点表現に変換する技術である。
量子化空間全体にわたって新しい量子化重みを学習する方法を示す。
本研究では,データフリーとデータ駆動の両構成において,最先端の圧縮率を実現する手法の有効性を示す。
論文 参考訳(メタデータ) (2023-08-10T14:19:58Z) - SqueezeLLM: Dense-and-Sparse Quantization [83.7810943431625]
LLMにおける生成推論の主なボトルネックは、単一のバッチ推論のための計算ではなく、メモリ帯域幅である。
学習後量子化フレームワークであるSqueezeLLMを導入し、最大3ビットの超低精度でのロスレス圧縮を実現する。
本フレームワークは,2次情報に基づく最適ビット精度割当を探索する感度ベース非一様量子化法と,2次情報に基づくDense-and-Sparse分解法と,2次情報量割当値と感度重み値を効率的にスパース形式で格納するDense-and-Sparse分解法である。
論文 参考訳(メタデータ) (2023-06-13T08:57:54Z) - Mixed Precision Low-bit Quantization of Neural Network Language Models
for Speech Recognition [67.95996816744251]
長期間のメモリリカレントニューラルネットワーク(LSTM-RNN)とトランスフォーマーで表される最先端言語モデル(LM)は、実用アプリケーションではますます複雑で高価なものになりつつある。
現在の量子化法は、均一な精度に基づいており、量子化誤差に対するLMの異なる部分での様々な性能感度を考慮できない。
本稿では,新しい混合精度ニューラルネットワークLM量子化法を提案する。
論文 参考訳(メタデータ) (2021-11-29T12:24:02Z) - Mixed Precision of Quantization of Transformer Language Models for
Speech Recognition [67.95996816744251]
トランスフォーマーが表現する最先端のニューラルネットワークモデルは、実用アプリケーションにとってますます複雑で高価なものになりつつある。
現在の低ビット量子化法は、均一な精度に基づいており、量子化エラーに対するシステムの異なる部分での様々な性能感度を考慮できない。
最適局所精度設定は2つの手法を用いて自動的に学習される。
Penn Treebank (PTB)とSwitchboard corpusによるLF-MMI TDNNシステムの試験を行った。
論文 参考訳(メタデータ) (2021-11-29T09:57:00Z) - Automatic heterogeneous quantization of deep neural networks for
low-latency inference on the edge for particle detectors [5.609098985493794]
我々は,チップ上での最小エネルギー,高精度,ナノ秒の推論,完全自動展開のための,深層ニューラルネットワークモデルの最適ヘテロジニゼーションバージョンを設計する手法を提案する。
これはCERN大型ハドロン衝突型加速器における陽子-陽子衝突におけるイベント選択の手順に不可欠であり、リソースは厳密に制限され、$mathcal O(1)mu$sのレイテンシが要求される。
論文 参考訳(メタデータ) (2020-06-15T15:07:49Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。