論文の概要: GPTQ: Accurate Post-Training Quantization for Generative Pre-trained
Transformers
- arxiv url: http://arxiv.org/abs/2210.17323v2
- Date: Wed, 22 Mar 2023 13:10:47 GMT
- ステータス: 処理完了
- システム内更新日: 2023-03-24 02:24:35.391244
- Title: GPTQ: Accurate Post-Training Quantization for Generative Pre-trained
Transformers
- Title(参考訳): GPTQ: 生成事前学習変圧器の高精度後量子化
- Authors: Elias Frantar, Saleh Ashkboos, Torsten Hoefler, Dan Alistarh
- Abstract要約: GPTQは、近似二階情報に基づく新しい一発量量子化法である。
約4GPU時間で、1750億のパラメータを持つGPTモデルを定量化できる。
提案手法は,従来提案したワンショット量子化法と比較して圧縮ゲインを2倍以上に向上させる。
- 参考スコア(独自算出の注目度): 34.91478831993398
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Generative Pre-trained Transformer models, known as GPT or OPT, set
themselves apart through breakthrough performance across complex language
modelling tasks, but also by their extremely high computational and storage
costs. Specifically, due to their massive size, even inference for large,
highly-accurate GPT models may require multiple performant GPUs, which limits
the usability of such models. While there is emerging work on relieving this
pressure via model compression, the applicability and performance of existing
compression techniques is limited by the scale and complexity of GPT models. In
this paper, we address this challenge, and propose GPTQ, a new one-shot weight
quantization method based on approximate second-order information, that is both
highly-accurate and highly-efficient. Specifically, GPTQ can quantize GPT
models with 175 billion parameters in approximately four GPU hours, reducing
the bitwidth down to 3 or 4 bits per weight, with negligible accuracy
degradation relative to the uncompressed baseline. Our method more than doubles
the compression gains relative to previously-proposed one-shot quantization
methods, preserving accuracy, allowing us for the first time to execute an 175
billion-parameter model inside a single GPU for generative inference. Moreover,
we also show that our method can still provide reasonable accuracy in the
extreme quantization regime, in which weights are quantized to 2-bit or even
ternary quantization levels. We show experimentally that these improvements can
be leveraged for end-to-end inference speedups over FP16, of around 3.25x when
using high-end GPUs (NVIDIA A100) and 4.5x when using more cost-effective ones
(NVIDIA A6000). The implementation is available at
https://github.com/IST-DASLab/gptq.
- Abstract(参考訳): GPT(英語版)やOPT(英語版)として知られる生成事前学習トランスフォーマーモデルは、複雑な言語モデリングタスクにおけるブレークスルー性能だけでなく、計算と記憶のコストも非常に高い。
特に、その巨大なサイズのため、大規模で高精度なGPTモデルの推測でさえ、そのようなモデルのユーザビリティを制限する複数のパフォーマンスGPUを必要とする可能性がある。
モデル圧縮によるこのプレッシャーの軽減に向けた新たな取り組みがあるが、既存の圧縮技術の適用性と性能は、GPTモデルのスケールと複雑さによって制限されている。
本稿では,この課題に対処し,高正確かつ高効率な,近似的な2次情報に基づく新しい単発重量量子化法であるgptqを提案する。
特にgptqは、約4gpu時間で175億のパラメータを持つgptモデルを量子化でき、ビット幅を3ビットから4ビットに減らし、圧縮されていないベースラインと比較して精度を低下させる。
提案手法は,従来提案した1ショット量子化法と比較して圧縮ゲインを2倍以上にし,精度を保ち,生成推論のための1つのGPU内で175億パラメータモデルを実行することができる。
さらに,重みを2ビットあるいは3値の量子化レベルに定量化する極端量子化方式においても,本手法が妥当な精度が得られることを示す。
これらの改善は、よりコスト効率の良いGPU(NVIDIA A6000)を使用する場合、ハイエンドGPU(NVIDIA A100)と4.5倍(NVIDIA A6000)を使用する場合、FP16よりも3.25倍のエンドツーエンドの推論スピードアップに活用できることを実験的に示す。
実装はhttps://github.com/ist-daslab/gptqで利用可能である。
関連論文リスト
- GPTQT: Quantize Large Language Models Twice to Push the Efficiency [1.3149617027696827]
本稿では,学習後量子化手法であるGPTQTを導入し,メモリ使用量の削減と処理速度の向上を図る。
重みの量子化誤差の最小化は非効率であり、過度に適合することを示した。
GPTQTは、最初は線形量子化を用いて重みを相対的に高いビットに量子化し、続いて得られた重みを低ビットバイナリ符号化に変換する。
論文 参考訳(メタデータ) (2024-07-03T08:08:01Z) - decoupleQ: Towards 2-bit Post-Training Uniform Quantization via decoupling Parameters into Integer and Floating Points [10.238677144792279]
deoupleQは従来の量子化パラダイムを捨て、モデルパラメータを整数と浮動小数点に分解する。
ByteDanceの大規模音声モデルの2ビット量子化では,fp16/bf16付近のオンライン精度が良好であった。
論文 参考訳(メタデータ) (2024-04-19T10:02:53Z) - QMoE: Practical Sub-1-Bit Compression of Trillion-Parameter Models [64.34635279436054]
Mixture-of-Experts (MoE)アーキテクチャは、スパースルーティングによる大規模言語モデル(LLM)の高推論コストに対する一般的な解決策を提供する。
本稿では,QMoEと呼ばれる新しい圧縮実行フレームワークの形で,このメモリ問題に対する解決策を提案する。
論文 参考訳(メタデータ) (2023-10-25T17:24:53Z) - QUIK: Towards End-to-End 4-Bit Inference on Generative Large Language
Models [57.04178959678024]
重み付けとアクティベーションの両方を4ビットにキャストすることで、大きな生成モデルに対する推論計算の大部分が実行可能であることを示す。
これをQUIKと呼ばれるハイブリッド量子化戦略により実現し、重みとアクティベーションの大部分を4ビットに圧縮する。
我々は、QUIKフォーマットを高効率なレイヤワイドランタイムに適合させるGPUカーネルを提供し、これにより、エンドツーエンドのスループットが3.4倍に向上する。
論文 参考訳(メタデータ) (2023-10-13T17:15:05Z) - Norm Tweaking: High-performance Low-bit Quantization of Large Language
Models [21.855106896725598]
そこで本研究では,現在のPTQ手法のプラグインとして利用できるノルム調整手法を提案する。
本手法は,重量のみの量子化と重みとアクティベーションの連成量子化の両面で有意な改善を示す。
私たちのシンプルで効果的なアプローチは、現実世界のアプリケーションにとってより実用的です。
論文 参考訳(メタデータ) (2023-09-06T06:51:15Z) - SqueezeLLM: Dense-and-Sparse Quantization [80.32162537942138]
LLMにおける生成推論の主なボトルネックは、単一のバッチ推論のための計算ではなく、メモリ帯域幅である。
学習後量子化フレームワークであるSqueezeLLMを導入し、最大3ビットの超低精度でのロスレス圧縮を実現する。
本フレームワークは,2次情報に基づく最適ビット精度割当を探索する感度ベース非一様量子化法と,2次情報に基づくDense-and-Sparse分解法と,2次情報量割当値と感度重み値を効率的にスパース形式で格納するDense-and-Sparse分解法である。
論文 参考訳(メタデータ) (2023-06-13T08:57:54Z) - Q-ASR: Integer-only Zero-shot Quantization for Efficient Speech
Recognition [65.7040645560855]
ASRモデルに対する整数のみのゼロショット量子化スキームであるQ-ASRを提案する。
全精度ベースラインモデルと比較すると,wrの変化は無視できる。
Q-ASRは、WER劣化が少ない4倍以上の圧縮率を示します。
論文 参考訳(メタデータ) (2021-03-31T06:05:40Z) - Training with Quantization Noise for Extreme Model Compression [57.51832088938618]
与えられたモデルサイズに対する精度を最大化しながら、コンパクトなモデルを作成するという問題に取り組む。
標準的な解決策は、トレーニング中に重みが定量化され、勾配がストレート・スルー推定器に近似される量子化意識訓練(Quantization Aware Training)でネットワークをトレーニングすることである。
本稿では, この手法を, 極端な圧縮法を用いて, int8 の固定点量子化を超えて機能するように拡張する。
論文 参考訳(メタデータ) (2020-04-15T20:10:53Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。