論文の概要: GPTQ: Accurate Post-Training Quantization for Generative Pre-trained
Transformers
- arxiv url: http://arxiv.org/abs/2210.17323v1
- Date: Mon, 31 Oct 2022 13:42:40 GMT
- ステータス: 処理完了
- システム内更新日: 2022-11-01 18:19:08.156602
- Title: GPTQ: Accurate Post-Training Quantization for Generative Pre-trained
Transformers
- Title(参考訳): GPTQ: 生成事前学習変圧器の高精度後量子化
- Authors: Elias Frantar, Saleh Ashkboos, Torsten Hoefler, Dan Alistarh
- Abstract要約: GPTQは、近似二階情報に基づく新しい一発量量子化法である。
約4GPU時間で、1750億のパラメータを持つGPTモデルを定量化できる。
実験により,これらの改良はFP16上でのエンドツーエンドの推論高速化に有効であることを示す。
- 参考スコア(独自算出の注目度): 34.91478831993398
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Generative Pre-trained Transformer (GPT) models set themselves apart through
breakthrough performance across complex language modelling tasks, but also by
their extremely high computational and storage costs. Specifically, due to
their massive size, even inference for large, highly-accurate GPT models may
require multiple performant GPUs to execute, which limits the usability of such
models. While there is emerging work on relieving this pressure via model
compression, the applicability and performance of existing compression
techniques is limited by the scale and complexity of GPT models. In this paper,
we address this challenge, and propose GPTQ, a new one-shot weight quantization
method based on approximate second-order information, that is both
highly-accurate and highly-efficient. Specifically, GPTQ can quantize GPT
models with 175 billion parameters in approximately four GPU hours, reducing
the bitwidth down to 3 or 4 bits per weight, with negligible accuracy
degradation relative to the uncompressed baseline. Our method more than doubles
the compression gains relative to previously-proposed one-shot quantization
methods, preserving accuracy, allowing us for the first time to execute an 175
billion-parameter model inside a single GPU. We show experimentally that these
improvements can be leveraged for end-to-end inference speedups over FP16, of
around 2x when using high-end GPUs (NVIDIA A100) and 4x when using more
cost-effective ones (NVIDIA A6000). The implementation is available at
https://github.com/IST-DASLab/gptq.
- Abstract(参考訳): Generative Pre-trained Transformer (GPT) モデルは、複雑な言語モデリングタスクにまたがるブレークスルー性能と、非常に高い計算とストレージコストによって、自身を分離した。
特に、その巨大なサイズのため、大規模で高精度なGPTモデルに対する推論でさえ、実行には複数のパフォーマンスGPUを必要とする可能性があるため、そのようなモデルのユーザビリティが制限される。
モデル圧縮によるこのプレッシャーの軽減に向けた新たな取り組みがあるが、既存の圧縮技術の適用性と性能は、GPTモデルのスケールと複雑さによって制限されている。
本稿では,この課題に対処し,高正確かつ高効率な,近似的な2次情報に基づく新しい単発重量量子化法であるgptqを提案する。
特にgptqは、約4gpu時間で175億のパラメータを持つgptモデルを量子化でき、ビット幅を3ビットから4ビットに減らし、圧縮されていないベースラインと比較して精度を低下させる。
提案手法は,従来提案した1ショット量子化法と比較して圧縮ゲインを2倍以上にし,精度を保ち,単一のGPU内で175億パラメータモデルを実行することができる。
ハイエンドgpu(nvidia a100)と4倍(nvidia a6000)を使用することで、fp16よりもエンドツーエンドの推論速度を2倍程度向上できることを実験的に示します。
実装はhttps://github.com/ist-daslab/gptqで利用可能である。
関連論文リスト
- GPTQT: Quantize Large Language Models Twice to Push the Efficiency [1.3149617027696827]
本稿では,学習後量子化手法であるGPTQTを導入し,メモリ使用量の削減と処理速度の向上を図る。
重みの量子化誤差の最小化は非効率であり、過度に適合することを示した。
GPTQTは、最初は線形量子化を用いて重みを相対的に高いビットに量子化し、続いて得られた重みを低ビットバイナリ符号化に変換する。
論文 参考訳(メタデータ) (2024-07-03T08:08:01Z) - decoupleQ: Towards 2-bit Post-Training Uniform Quantization via decoupling Parameters into Integer and Floating Points [10.238677144792279]
deoupleQは従来の量子化パラダイムを捨て、モデルパラメータを整数と浮動小数点に分解する。
ByteDanceの大規模音声モデルの2ビット量子化では,fp16/bf16付近のオンライン精度が良好であった。
論文 参考訳(メタデータ) (2024-04-19T10:02:53Z) - QMoE: Practical Sub-1-Bit Compression of Trillion-Parameter Models [64.34635279436054]
Mixture-of-Experts (MoE)アーキテクチャは、スパースルーティングによる大規模言語モデル(LLM)の高推論コストに対する一般的な解決策を提供する。
本稿では,QMoEと呼ばれる新しい圧縮実行フレームワークの形で,このメモリ問題に対する解決策を提案する。
論文 参考訳(メタデータ) (2023-10-25T17:24:53Z) - QUIK: Towards End-to-End 4-Bit Inference on Generative Large Language
Models [57.04178959678024]
重み付けとアクティベーションの両方を4ビットにキャストすることで、大きな生成モデルに対する推論計算の大部分が実行可能であることを示す。
これをQUIKと呼ばれるハイブリッド量子化戦略により実現し、重みとアクティベーションの大部分を4ビットに圧縮する。
我々は、QUIKフォーマットを高効率なレイヤワイドランタイムに適合させるGPUカーネルを提供し、これにより、エンドツーエンドのスループットが3.4倍に向上する。
論文 参考訳(メタデータ) (2023-10-13T17:15:05Z) - Norm Tweaking: High-performance Low-bit Quantization of Large Language
Models [21.855106896725598]
そこで本研究では,現在のPTQ手法のプラグインとして利用できるノルム調整手法を提案する。
本手法は,重量のみの量子化と重みとアクティベーションの連成量子化の両面で有意な改善を示す。
私たちのシンプルで効果的なアプローチは、現実世界のアプリケーションにとってより実用的です。
論文 参考訳(メタデータ) (2023-09-06T06:51:15Z) - SqueezeLLM: Dense-and-Sparse Quantization [80.32162537942138]
LLMにおける生成推論の主なボトルネックは、単一のバッチ推論のための計算ではなく、メモリ帯域幅である。
学習後量子化フレームワークであるSqueezeLLMを導入し、最大3ビットの超低精度でのロスレス圧縮を実現する。
本フレームワークは,2次情報に基づく最適ビット精度割当を探索する感度ベース非一様量子化法と,2次情報に基づくDense-and-Sparse分解法と,2次情報量割当値と感度重み値を効率的にスパース形式で格納するDense-and-Sparse分解法である。
論文 参考訳(メタデータ) (2023-06-13T08:57:54Z) - Q-ASR: Integer-only Zero-shot Quantization for Efficient Speech
Recognition [65.7040645560855]
ASRモデルに対する整数のみのゼロショット量子化スキームであるQ-ASRを提案する。
全精度ベースラインモデルと比較すると,wrの変化は無視できる。
Q-ASRは、WER劣化が少ない4倍以上の圧縮率を示します。
論文 参考訳(メタデータ) (2021-03-31T06:05:40Z) - Training with Quantization Noise for Extreme Model Compression [57.51832088938618]
与えられたモデルサイズに対する精度を最大化しながら、コンパクトなモデルを作成するという問題に取り組む。
標準的な解決策は、トレーニング中に重みが定量化され、勾配がストレート・スルー推定器に近似される量子化意識訓練(Quantization Aware Training)でネットワークをトレーニングすることである。
本稿では, この手法を, 極端な圧縮法を用いて, int8 の固定点量子化を超えて機能するように拡張する。
論文 参考訳(メタデータ) (2020-04-15T20:10:53Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。