論文の概要: nuQmm: Quantized MatMul for Efficient Inference of Large-Scale
Generative Language Models
- arxiv url: http://arxiv.org/abs/2206.09557v1
- Date: Mon, 20 Jun 2022 03:48:17 GMT
- ステータス: 処理完了
- システム内更新日: 2022-06-22 17:38:52.121620
- Title: nuQmm: Quantized MatMul for Efficient Inference of Large-Scale
Generative Language Models
- Title(参考訳): nuQmm:大規模生成言語モデルの効率的な推論のための量子化MatMul
- Authors: Gunho Park, Baeseong Park, Se Jung Kwon, Byeongwook Kim, Youngjoo Lee,
and Dongsoo Lee
- Abstract要約: 本稿では,大規模生成言語モデルのための効率的な推論フレームワークを提案する。
我々は, nuQmm が GPT-3 (175B) モデルの推論速度を約14.4倍に加速し, エネルギー消費を93%削減できることを実証した。
- 参考スコア(独自算出の注目度): 7.989204209647691
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: The recent advance of self-supervised learning associated with the
Transformer architecture enables natural language processing (NLP) to exhibit
extremely low perplexity. Such powerful models demand ever-increasing model
size, and thus, large amounts of computations and memory footprints. In this
paper, we propose an efficient inference framework for large-scale generative
language models. As the key to reducing model size, we quantize weights by a
non-uniform quantization method. Then, quantized matrix multiplications are
accelerated by our proposed kernel, called nuQmm, which allows a wide trade-off
between compression ratio and accuracy. Our proposed nuQmm reduces the latency
of not only each GPU but also the entire inference of large LMs because a high
compression ratio (by low-bit quantization) mitigates the minimum required
number of GPUs. We demonstrate that nuQmm can accelerate the inference speed of
the GPT-3 (175B) model by about 14.4 times and save energy consumption by 93%.
- Abstract(参考訳): トランスフォーマーアーキテクチャに関連する自己教師型学習の最近の進歩により、自然言語処理(NLP)は極めて低いパープレキシティを示すことができる。
このような強力なモデルはモデルサイズを継続的に増加させ、そのため大量の計算とメモリフットプリントを必要とする。
本稿では,大規模生成言語モデルのための効率的な推論フレームワークを提案する。
モデルサイズを減らす鍵として、非一様量子化法により重みを定量化する。
次に,提案するカーネルであるnuQmmにより,量子化行列乗算を高速化し,圧縮比と精度のトレードオフを広く行う。
提案したnuQmmは,各GPUの遅延を低減させるだけでなく,低ビット量子化による)高い圧縮比がGPUの最小要求数を軽減しているため,大きなLM全体の推定も行う。
nuQmm は GPT-3 (175B) モデルの推論速度を約14.4倍に加速し、エネルギー消費を93%削減できることを示した。
関連論文リスト
- MixPE: Quantization and Hardware Co-design for Efficient LLM Inference [16.42907854119748]
MixPEは、大規模言語モデルにおける効率的な低ビット量子化のために設計された、特殊な混合精度処理素子である。
我々は、MixPEが最先端の量子化アクセラレータを2.6倍のスピードアップと1.4倍のエネルギー削減で超えることを示した。
論文 参考訳(メタデータ) (2024-11-25T07:34:53Z) - SLiM: One-shot Quantized Sparse Plus Low-rank Approximation of LLMs [2.7624021966289605]
大規模言語モデル(LLM)は、自然言語の理解と生成タスクに革命をもたらした。
LLMは、大きなパラメータサイズのため、メモリ消費が高く、推論時間が遅い。
本稿では,1ショットの量子スパースプラス低ランク近似を用いたLEMの圧縮手法であるSLiMを紹介する。
論文 参考訳(メタデータ) (2024-10-12T18:36:07Z) - SliM-LLM: Salience-Driven Mixed-Precision Quantization for Large Language Models [67.67135738642547]
後学習量子化(PTQ)は、大規模言語モデル(LLM)において研究される強力な圧縮手法である。
既存のPTQ法は、特に4ビット幅以下では、精度と効率の点で理想的ではない。
本稿では,LSM,すなわちSliM-LLMに対するSalience-Driven Mixed-Precision Quantizationスキームを提案する。
論文 参考訳(メタデータ) (2024-05-23T16:21:48Z) - PikeLPN: Mitigating Overlooked Inefficiencies of Low-Precision Neural Networks [4.827161693957252]
非量子化要素演算は、低精度モデルの推論コストを支配している。
PikeLPNモデルは、要素演算と乗算累積演算の両方に量子化を適用することで、これらの問題に対処する。
論文 参考訳(メタデータ) (2024-03-29T18:23:34Z) - AffineQuant: Affine Transformation Quantization for Large Language Models [58.45460102764]
ポストトレーニング量子化(PTQ)は、その圧縮効率とトレーニングの文脈における費用対効果により、かなりの関心を集めている。
既存の大規模言語モデル(LLM)のPTQ手法は、事前量子化重みと後量子化重みの間の変換のスケーリングに最適化範囲を制限している。
本稿では,PTQ(AffineQuant)における等価アフィン変換を用いた直接最適化を提唱する。
論文 参考訳(メタデータ) (2024-03-19T08:40:21Z) - On-Chip Hardware-Aware Quantization for Mixed Precision Neural Networks [52.97107229149988]
エッジデバイス上でハードウェア対応の混合精度量子化を行うOn-Chipハードウェア・アウェア量子化フレームワークを提案する。
このパイプラインは、量子化プロセスが量子化演算子の実際のハードウェア効率を知覚することを可能にする。
精度測定のために,マルチチップシナリオにおける演算子の精度への影響を効果的に推定するMask-Guided Quantization Estimation技術を提案する。
論文 参考訳(メタデータ) (2023-09-05T04:39:34Z) - OmniQuant: Omnidirectionally Calibrated Quantization for Large Language Models [57.27101446992148]
大規模言語モデル(LLM)は自然言語処理タスクに革命をもたらした。
近年のPTQ法はメモリフットプリントの削減とLLMの計算効率の向上に有効である。
多様な量子化設定において優れた性能を実現するLLMのOmnidirectly calibrated Quantization手法を提案する。
論文 参考訳(メタデータ) (2023-08-25T02:28:35Z) - FineQuant: Unlocking Efficiency with Fine-Grained Weight-Only
Quantization for LLMs [9.072821427818557]
大規模言語モデル(LLM)は、様々な言語タスクで最先端のパフォーマンスを達成しているが、実用的なデプロイメントには課題がある。
メモリ消費を削減し,LLMの推論を高速化する,効率的な重みのみの量子化法を提案する。
我々は,OPT-175Bや内部MoEモデルのような大規模オープンソースモデルに対するアプローチを評価し,スループットを最大3.65倍に向上しながら,最小限の精度の損失を示す。
論文 参考訳(メタデータ) (2023-08-16T23:57:41Z) - SqueezeLLM: Dense-and-Sparse Quantization [80.32162537942138]
LLMにおける生成推論の主なボトルネックは、単一のバッチ推論のための計算ではなく、メモリ帯域幅である。
学習後量子化フレームワークであるSqueezeLLMを導入し、最大3ビットの超低精度でのロスレス圧縮を実現する。
本フレームワークは,2次情報に基づく最適ビット精度割当を探索する感度ベース非一様量子化法と,2次情報に基づくDense-and-Sparse分解法と,2次情報量割当値と感度重み値を効率的にスパース形式で格納するDense-and-Sparse分解法である。
論文 参考訳(メタデータ) (2023-06-13T08:57:54Z) - Mixed Precision Low-bit Quantization of Neural Network Language Models
for Speech Recognition [67.95996816744251]
長期間のメモリリカレントニューラルネットワーク(LSTM-RNN)とトランスフォーマーで表される最先端言語モデル(LM)は、実用アプリケーションではますます複雑で高価なものになりつつある。
現在の量子化法は、均一な精度に基づいており、量子化誤差に対するLMの異なる部分での様々な性能感度を考慮できない。
本稿では,新しい混合精度ニューラルネットワークLM量子化法を提案する。
論文 参考訳(メタデータ) (2021-11-29T12:24:02Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。