論文の概要: Towards End-to-end 4-Bit Inference on Generative Large Language Models
- arxiv url: http://arxiv.org/abs/2310.09259v1
- Date: Fri, 13 Oct 2023 17:15:05 GMT
- ステータス: 処理完了
- システム内更新日: 2023-10-16 11:50:37.232477
- Title: Towards End-to-end 4-Bit Inference on Generative Large Language Models
- Title(参考訳): 生成型大規模言語モデルにおけるエンドツーエンド4ビット推論に向けて
- Authors: Saleh Ashkboos, Ilia Markov, Elias Frantar, Tingxuan Zhong, Xincheng
Wang, Jie Ren, Torsten Hoefler, Dan Alistarh
- Abstract要約: LLaMA や OPT のような大規模生成モデルに対するほとんどの推論計算は、重みとアクティベーションの両方を4ビットにキャストすることで行うことができる。
これをQUIKと呼ばれるハイブリッド量子化戦略により実現し、重みとアクティベーションの大部分を4ビットに圧縮する。
- 参考スコア(独自算出の注目度): 57.04178959678024
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: We show that the majority of the inference computations for large generative
models such as LLaMA and OPT can be performed with both weights and activations
being cast to 4 bits, in a way that leads to practical speedups while at the
same time maintaining good accuracy. We achieve this via a hybrid quantization
strategy called QUIK, which compresses most of the weights and activations to
4-bit, while keeping some outlier weights and activations in higher-precision.
Crucially, our scheme is designed with computational efficiency in mind: we
provide GPU kernels with highly-efficient layer-wise runtimes, which lead to
practical end-to-end throughput improvements of up to 3.1x relative to FP16
execution. Code and models are provided at https://github.com/IST-DASLab/QUIK.
- Abstract(参考訳): llama や opt などの大規模生成モデルに対する推論計算は, 重みとアクティベーションの両方を4ビットにキャスティングすることで, 高い精度を維持しつつ, 実用的な高速化を実現することができることを示す。
我々はQUIKと呼ばれるハイブリッド量子化戦略によりこれを達成し、ほとんどの重量と活性化を4ビットに圧縮し、より精度の高い重量と活性化を維持する。
計算効率を念頭に設計されており、GPUカーネルに高い効率のレイヤワイドランタイムを提供し、FP16実行と比較して3.1倍のスループット向上を実現している。
コードとモデルはhttps://github.com/IST-DASLab/QUIKで提供されている。
関連論文リスト
- Mitigating the Impact of Outlier Channels for Language Model Quantization with Activation Regularization [62.15918574997175]
言語モデルには、平均値が他のチャネルよりも桁違いに高い外れ値チャネルが含まれていることが知られている。
本稿では,QAT(Quantization-Aware Training)とアクティベーション・カルトシス・正規化(Activation Kurtosis regularization)によって,レイヤの入力を正規化する戦略を提案する。
入力と出力の両方を正規化することは、入力量子化の難しさを重みに"移行"するのを防ぐために重要であることを示す。
論文 参考訳(メタデータ) (2024-04-04T17:25:30Z) - A Speed Odyssey for Deployable Quantization of LLMs [19.12232212257625]
量子化アルゴリズムの構築において,ハードウェア中心のアプローチを導入する。
我々の方法であるOdysseyLLMは、FastGEMMと呼ばれる新しいW4A8カーネル実装と、量子化戦略のレシピを組み合わせたものである。
実験では、Hugging Face FP16や textbf2.23$times$と、最先端の推論エンジンと比較して、実際の速度が textbf4$times$に向上するW4A8メソッドの優位性を示しています。
論文 参考訳(メタデータ) (2023-11-16T04:11:19Z) - Dual Grained Quantization: Efficient Fine-Grained Quantization for LLM [6.85331857224501]
LLM(Large Language Models)は、メモリ要件と計算能力に関する重要なハードウェア上の課題を提起する。
LLMには2つの主要な量子化スキームがある: 粗粒(textite.g.$ channel-wise)量子化と細粒(textite.g.$ group-wise)量子化である。
我々は、高速な推論速度を確保しつつ優れた性能を維持するLLMのための新しいA8W4量子化であるDual Grained Quantization (DGQ)を紹介する。
論文 参考訳(メタデータ) (2023-10-07T14:50:28Z) - FPTQ: Fine-grained Post-Training Quantization for Large Language Models [28.11564378745513]
利用可能なオープンソースLLMのための新しいW4A8ポストトレーニング量子化法を提案する。
我々は,BLOOM,LLaMA,LLaMA-2における最先端のW4A8量子化性能を標準ベンチマークで取得する。
論文 参考訳(メタデータ) (2023-08-30T12:18:18Z) - OmniQuant: Omnidirectionally Calibrated Quantization for Large Language Models [57.27101446992148]
大規模言語モデル(LLM)は自然言語処理タスクに革命をもたらした。
近年のPTQ法はメモリフットプリントの削減とLLMの計算効率の向上に有効である。
多様な量子化設定において優れた性能を実現するLLMのOmnidirectly calibrated Quantization手法を提案する。
論文 参考訳(メタデータ) (2023-08-25T02:28:35Z) - SqueezeLLM: Dense-and-Sparse Quantization [83.7810943431625]
LLMにおける生成推論の主なボトルネックは、単一のバッチ推論のための計算ではなく、メモリ帯域幅である。
学習後量子化フレームワークであるSqueezeLLMを導入し、最大3ビットの超低精度でのロスレス圧縮を実現する。
本フレームワークは,2次情報に基づく最適ビット精度割当を探索する感度ベース非一様量子化法と,2次情報に基づくDense-and-Sparse分解法と,2次情報量割当値と感度重み値を効率的にスパース形式で格納するDense-and-Sparse分解法である。
論文 参考訳(メタデータ) (2023-06-13T08:57:54Z) - SpQR: A Sparse-Quantized Representation for Near-Lossless LLM Weight
Compression [76.73007709690306]
Sparse-Quantized Representation (SpQR) は,新しい圧縮フォーマットと量子化技術である。
SpQRは、高精度なLLaMAとFalcon LLMのパープレキシティにおいて、1%未満の相対的精度の損失を達成している。
これにより、1台の24GBのコンシューマGPU上で33BパラメータのLSMを実行でき、15%のスピードアップでパフォーマンスの劣化は発生しない。
論文 参考訳(メタデータ) (2023-06-05T17:53:28Z) - Q-ASR: Integer-only Zero-shot Quantization for Efficient Speech
Recognition [65.7040645560855]
ASRモデルに対する整数のみのゼロショット量子化スキームであるQ-ASRを提案する。
全精度ベースラインモデルと比較すると,wrの変化は無視できる。
Q-ASRは、WER劣化が少ない4倍以上の圧縮率を示します。
論文 参考訳(メタデータ) (2021-03-31T06:05:40Z) - FBGEMM: Enabling High-Performance Low-Precision Deep Learning Inference [1.1292678337479967]
fbgemmは、次世代cpuの高性能量子化推論のための高性能カーネルライブラリである。
fbgemmは、高速なgem実装で共通量子化演算を融合させ、実行時に形状およびサイズ固有のカーネルコード生成によって効率を向上する。
このライブラリはfacebookにデプロイされ、現在のプロダクションベースラインの2倍以上のパフォーマンス向上を実現しています。
論文 参考訳(メタデータ) (2021-01-13T00:34:04Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。