論文の概要: QUIK: Towards End-to-End 4-Bit Inference on Generative Large Language
Models
- arxiv url: http://arxiv.org/abs/2310.09259v2
- Date: Thu, 2 Nov 2023 14:26:57 GMT
- ステータス: 処理完了
- システム内更新日: 2023-11-03 16:30:58.400566
- Title: QUIK: Towards End-to-End 4-Bit Inference on Generative Large Language
Models
- Title(参考訳): QUIK: 生成する大規模言語モデルに対するエンド・ツー・エンド4ビット推論
- Authors: Saleh Ashkboos, Ilia Markov, Elias Frantar, Tingxuan Zhong, Xincheng
Wang, Jie Ren, Torsten Hoefler, Dan Alistarh
- Abstract要約: 重み付けとアクティベーションの両方を4ビットにキャストすることで、大きな生成モデルに対する推論計算の大部分が実行可能であることを示す。
これをQUIKと呼ばれるハイブリッド量子化戦略により実現し、重みとアクティベーションの大部分を4ビットに圧縮する。
我々は、QUIKフォーマットを高効率なレイヤワイドランタイムに適合させるGPUカーネルを提供し、これにより、エンドツーエンドのスループットが3.4倍に向上する。
- 参考スコア(独自算出の注目度): 57.04178959678024
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Large Language Models (LLMs) from the GPT family have become extremely
popular, leading to a race towards reducing their inference costs to allow for
efficient local computation. Yet, the vast majority of existing work focuses on
weight-only quantization, which can reduce runtime costs in the memory-bound
one-token-at-a-time generative setting, but does not address them in
compute-bound scenarios, such as batched inference or prompt processing. In
this paper, we address the general quantization problem, where both weights and
activations should be quantized. We show, for the first time, that the majority
of inference computations for large generative models such as LLaMA, OPT, and
Falcon can be performed with both weights and activations being cast to 4 bits,
in a way that leads to practical speedups, while at the same time maintaining
good accuracy. We achieve this via a hybrid quantization strategy called QUIK,
which compresses most of the weights and activations to 4-bit, while keeping
some outlier weights and activations in higher-precision. The key feature of
our scheme is that it is designed with computational efficiency in mind: we
provide GPU kernels matching the QUIK format with highly-efficient layer-wise
runtimes, which lead to practical end-to-end throughput improvements of up to
3.4x relative to FP16 execution. We provide detailed studies for models from
the OPT, LLaMA-2 and Falcon families, as well as a first instance of accurate
inference using quantization plus 2:4 sparsity. Code is available at:
https://github.com/IST-DASLab/QUIK.
- Abstract(参考訳): GPTファミリーの大規模言語モデル(LLM)は非常に人気があり、効率的な局所計算を可能にするために推論コストを削減しようとしている。
しかし、既存の作業の大部分はウェイトのみの量子化にフォーカスしており、メモリバウンドのワントケン・ア・タイム生成設定のランタイムコストを削減できるが、バッチ推論やプロンプト処理といった計算バウンドのシナリオでは処理しない。
本稿では,重みとアクティベーションの両方を量子化すべき一般量子化問題に対処する。
LLaMA, OPT, Falconなどの大規模生成モデルに対する推論計算の大半は, 4ビットの重み付けとアクティベーションを同時に行うことができ, 高い精度を維持しつつ, 実用的な高速化を実現することができることを示す。
我々はQUIKと呼ばれるハイブリッド量子化戦略によりこれを達成し、ほとんどの重量と活性化を4ビットに圧縮し、より精度の高い重量と活性化を維持する。
このスキームの重要な特徴は、計算効率を念頭に置いて設計されていることである。我々は、quikフォーマットと高効率な層毎ランタイムをマッチするgpuカーネルを提供し、fp16実行と比較して、エンド・ツー・エンドのスループットを最大3.4倍改善する。
我々は、OPT、LLaMA-2、Falconファミリーのモデルに関する詳細な研究と、量子化と2:4の間隔を用いた正確な推論の第一例について述べる。
コードはhttps://github.com/ist-daslab/quik。
関連論文リスト
- A Speed Odyssey for Deployable Quantization of LLMs [19.12232212257625]
量子化アルゴリズムの構築において,ハードウェア中心のアプローチを導入する。
我々の方法であるOdysseyLLMは、FastGEMMと呼ばれる新しいW4A8カーネル実装と、量子化戦略のレシピを組み合わせたものである。
実験では、Hugging Face FP16や textbf2.23$times$と、最先端の推論エンジンと比較して、実際の速度が textbf4$times$に向上するW4A8メソッドの優位性を示しています。
論文 参考訳(メタデータ) (2023-11-16T04:11:19Z) - Dual Grained Quantization: Efficient Fine-Grained Quantization for LLM [6.85331857224501]
LLM(Large Language Models)は、メモリ要件と計算能力に関する重要なハードウェア上の課題を提起する。
LLMには2つの主要な量子化スキームがある: 粗粒(textite.g.$ channel-wise)量子化と細粒(textite.g.$ group-wise)量子化である。
我々は、高速な推論速度を確保しつつ優れた性能を維持するLLMのための新しいA8W4量子化であるDual Grained Quantization (DGQ)を紹介する。
論文 参考訳(メタデータ) (2023-10-07T14:50:28Z) - FPTQ: Fine-grained Post-Training Quantization for Large Language Models [28.11564378745513]
利用可能なオープンソースLLMのための新しいW4A8ポストトレーニング量子化法を提案する。
我々は,BLOOM,LLaMA,LLaMA-2における最先端のW4A8量子化性能を標準ベンチマークで取得する。
論文 参考訳(メタデータ) (2023-08-30T12:18:18Z) - OmniQuant: Omnidirectionally Calibrated Quantization for Large Language
Models [59.176603429408225]
大規模言語モデル(LLM)は自然言語処理タスクに革命をもたらした。
最近のPTQ法はメモリフットプリントの削減に有効であるが、極端に低ビットの量子化に対処できない。
多様な量子化設定において優れた性能を実現するLLMのOmnidirectly calibrated Quantization手法を提案する。
論文 参考訳(メタデータ) (2023-08-25T02:28:35Z) - SqueezeLLM: Dense-and-Sparse Quantization [83.7810943431625]
LLMにおける生成推論の主なボトルネックは、単一のバッチ推論のための計算ではなく、メモリ帯域幅である。
学習後量子化フレームワークであるSqueezeLLMを導入し、最大3ビットの超低精度でのロスレス圧縮を実現する。
本フレームワークは,2次情報に基づく最適ビット精度割当を探索する感度ベース非一様量子化法と,2次情報に基づくDense-and-Sparse分解法と,2次情報量割当値と感度重み値を効率的にスパース形式で格納するDense-and-Sparse分解法である。
論文 参考訳(メタデータ) (2023-06-13T08:57:54Z) - SpQR: A Sparse-Quantized Representation for Near-Lossless LLM Weight
Compression [76.73007709690306]
Sparse-Quantized Representation (SpQR) は,新しい圧縮フォーマットと量子化技術である。
SpQRは、高精度なLLaMAとFalcon LLMのパープレキシティにおいて、1%未満の相対的精度の損失を達成している。
これにより、1台の24GBのコンシューマGPU上で33BパラメータのLSMを実行でき、15%のスピードアップでパフォーマンスの劣化は発生しない。
論文 参考訳(メタデータ) (2023-06-05T17:53:28Z) - DeepGEMM: Accelerated Ultra Low-Precision Inference on CPU Architectures
using Lookup Tables [49.965024476651706]
DeepGEMMはSIMDハードウェア上で超高精度畳み込みニューラルネットワークを実行するためのルックアップテーブルベースのアプローチである。
実装は、x86プラットフォーム上で、対応する8ビット整数カーネルを最大1.74倍の性能で上回る。
論文 参考訳(メタデータ) (2023-04-18T15:13:10Z) - Q-ASR: Integer-only Zero-shot Quantization for Efficient Speech
Recognition [65.7040645560855]
ASRモデルに対する整数のみのゼロショット量子化スキームであるQ-ASRを提案する。
全精度ベースラインモデルと比較すると,wrの変化は無視できる。
Q-ASRは、WER劣化が少ない4倍以上の圧縮率を示します。
論文 参考訳(メタデータ) (2021-03-31T06:05:40Z) - FBGEMM: Enabling High-Performance Low-Precision Deep Learning Inference [1.1292678337479967]
fbgemmは、次世代cpuの高性能量子化推論のための高性能カーネルライブラリである。
fbgemmは、高速なgem実装で共通量子化演算を融合させ、実行時に形状およびサイズ固有のカーネルコード生成によって効率を向上する。
このライブラリはfacebookにデプロイされ、現在のプロダクションベースラインの2倍以上のパフォーマンス向上を実現しています。
論文 参考訳(メタデータ) (2021-01-13T00:34:04Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。