Fugu-MT 論文翻訳(概要): GPTQ: Accurate Post-Training Quantization for Generative Pre-trained Transformers

論文の概要: GPTQ: Accurate Post-Training Quantization for Generative Pre-trained Transformers

arxiv url: http://arxiv.org/abs/2210.17323v1
Date: Mon, 31 Oct 2022 13:42:40 GMT
ステータス: 翻訳完了
システム内更新日: 2022-11-01 18:19:08.156602
Title: GPTQ: Accurate Post-Training Quantization for Generative Pre-trained Transformers
Title（参考訳）: GPTQ: 生成事前学習変圧器の高精度後量子化
Authors: Elias Frantar, Saleh Ashkboos, Torsten Hoefler, Dan Alistarh
Abstract要約: GPTQは、近似二階情報に基づく新しい一発量量子化法である。約4GPU時間で、1750億のパラメータを持つGPTモデルを定量化できる。実験により,これらの改良はFP16上でのエンドツーエンドの推論高速化に有効であることを示す。
参考スコア（独自算出の注目度）: 34.91478831993398
License: http://creativecommons.org/licenses/by/4.0/
Abstract: Generative Pre-trained Transformer (GPT) models set themselves apart through breakthrough performance across complex language modelling tasks, but also by their extremely high computational and storage costs. Specifically, due to their massive size, even inference for large, highly-accurate GPT models may require multiple performant GPUs to execute, which limits the usability of such models. While there is emerging work on relieving this pressure via model compression, the applicability and performance of existing compression techniques is limited by the scale and complexity of GPT models. In this paper, we address this challenge, and propose GPTQ, a new one-shot weight quantization method based on approximate second-order information, that is both highly-accurate and highly-efficient. Specifically, GPTQ can quantize GPT models with 175 billion parameters in approximately four GPU hours, reducing the bitwidth down to 3 or 4 bits per weight, with negligible accuracy degradation relative to the uncompressed baseline. Our method more than doubles the compression gains relative to previously-proposed one-shot quantization methods, preserving accuracy, allowing us for the first time to execute an 175 billion-parameter model inside a single GPU. We show experimentally that these improvements can be leveraged for end-to-end inference speedups over FP16, of around 2x when using high-end GPUs (NVIDIA A100) and 4x when using more cost-effective ones (NVIDIA A6000). The implementation is available at https://github.com/IST-DASLab/gptq.
Abstract（参考訳）: Generative Pre-trained Transformer (GPT) モデルは、複雑な言語モデリングタスクにまたがるブレークスルー性能と、非常に高い計算とストレージコストによって、自身を分離した。特に、その巨大なサイズのため、大規模で高精度なGPTモデルに対する推論でさえ、実行には複数のパフォーマンスGPUを必要とする可能性があるため、そのようなモデルのユーザビリティが制限される。モデル圧縮によるこのプレッシャーの軽減に向けた新たな取り組みがあるが、既存の圧縮技術の適用性と性能は、GPTモデルのスケールと複雑さによって制限されている。本稿では,この課題に対処し,高正確かつ高効率な,近似的な2次情報に基づく新しい単発重量量子化法であるgptqを提案する。特にgptqは、約4gpu時間で175億のパラメータを持つgptモデルを量子化でき、ビット幅を3ビットから4ビットに減らし、圧縮されていないベースラインと比較して精度を低下させる。提案手法は,従来提案した1ショット量子化法と比較して圧縮ゲインを2倍以上にし,精度を保ち,単一のGPU内で175億パラメータモデルを実行することができる。ハイエンドgpu(nvidia a100)と4倍(nvidia a6000)を使用することで、fp16よりもエンドツーエンドの推論速度を2倍程度向上できることを実験的に示します。実装はhttps://github.com/ist-daslab/gptqで利用可能である。

関連論文リスト

PoTPTQ: A Two-step Power-of-Two Post-training for LLMs [27.141872509108122]
大規模言語モデル(LLM)は、様々な自然言語処理(NLP)タスクにおいて顕著な性能を示している。パワーオブツー(PoT)量子化は、この困難に対処するための一般的なツールである。本稿では,LLM重み付けのための新しいPOT量子化フレームワークを提案する。
論文参考訳（メタデータ） (2025-07-16T06:44:14Z)
Power-of-Two (PoT) Weights in Large Language Models (LLMs) [0.0]
モデルパラメータの数はここ数年で指数関数的に増加しており、例えば、GPT2の15億からGPT3の1750億までである。これにより、特にメモリと処理能力が非常に制限されたエッジデバイスにおいて、実装上の大きな課題が提起される。
論文参考訳（メタデータ） (2025-05-31T00:01:25Z)
PTQ1.61: Push the Real Limit of Extremely Low-Bit Post-Training Quantization Methods for Large Language Models [64.84734437930362]
大規模言語モデル(LLM)は、非常に低ビット(2ビット未満)の量子化に直面した場合、性能が著しく低下する。我々はPTQ1.61と呼ばれる極低ビットのPTQ法を提案し、これによって初めて1.61ビットの重み量子化が可能となる。実験により、PTQ1.61は極低ビット量子化において最先端の性能を達成することが示された。
論文参考訳（メタデータ） (2025-02-18T08:04:58Z)
SLiM: One-shot Quantization and Sparsity with Low-rank Approximation for LLM Weight Compression [7.6131620435684875]
SLIMは新しいワンショット圧縮フレームワークで、ハードウェアフレンドリーな量子化、スパーシティ、低ランク近似を統合する。 SLIMはモデル精度を最大5.66%(LLaMA-2-7B)に改善し、4ビットの重み量子化で2:4の間隔で計算し、従来の手法より優れている。また,小調整なしでSLIMと比較して,最大1.66%(LLaMA-2-13B)の精度向上を図ったPEFTレシピを提案する。
論文参考訳（メタデータ） (2024-10-12T18:36:07Z)
GPTQT: Quantize Large Language Models Twice to Push the Efficiency [1.3149617027696827]
本稿では,学習後量子化手法であるGPTQTを導入し,メモリ使用量の削減と処理速度の向上を図る。重みの量子化誤差の最小化は非効率であり、過度に適合することを示した。 GPTQTは、最初は線形量子化を用いて重みを相対的に高いビットに量子化し、続いて得られた重みを低ビットバイナリ符号化に変換する。
論文参考訳（メタデータ） (2024-07-03T08:08:01Z)
decoupleQ: Towards 2-bit Post-Training Uniform Quantization via decoupling Parameters into Integer and Floating Points [10.238677144792279]
deoupleQは従来の量子化パラダイムを捨て、モデルパラメータを整数と浮動小数点に分解する。 ByteDanceの大規模音声モデルの2ビット量子化では,fp16/bf16付近のオンライン精度が良好であった。
論文参考訳（メタデータ） (2024-04-19T10:02:53Z)
QMoE: Practical Sub-1-Bit Compression of Trillion-Parameter Models [64.34635279436054]
Mixture-of-Experts (MoE)アーキテクチャは、スパースルーティングによる大規模言語モデル(LLM)の高推論コストに対する一般的な解決策を提供する。本稿では,QMoEと呼ばれる新しい圧縮実行フレームワークの形で,このメモリ問題に対する解決策を提案する。
論文参考訳（メタデータ） (2023-10-25T17:24:53Z)
QUIK: Towards End-to-End 4-Bit Inference on Generative Large Language Models [57.04178959678024]
重み付けとアクティベーションの両方を4ビットにキャストすることで、大きな生成モデルに対する推論計算の大部分が実行可能であることを示す。これをQUIKと呼ばれるハイブリッド量子化戦略により実現し、重みとアクティベーションの大部分を4ビットに圧縮する。我々は、QUIKフォーマットを高効率なレイヤワイドランタイムに適合させるGPUカーネルを提供し、これにより、エンドツーエンドのスループットが3.4倍に向上する。
論文参考訳（メタデータ） (2023-10-13T17:15:05Z)
Norm Tweaking: High-performance Low-bit Quantization of Large Language Models [21.855106896725598]
そこで本研究では,現在のPTQ手法のプラグインとして利用できるノルム調整手法を提案する。本手法は,重量のみの量子化と重みとアクティベーションの連成量子化の両面で有意な改善を示す。私たちのシンプルで効果的なアプローチは、現実世界のアプリケーションにとってより実用的です。
論文参考訳（メタデータ） (2023-09-06T06:51:15Z)
SqueezeLLM: Dense-and-Sparse Quantization [80.32162537942138]
LLMにおける生成推論の主なボトルネックは、単一のバッチ推論のための計算ではなく、メモリ帯域幅である。学習後量子化フレームワークであるSqueezeLLMを導入し、最大3ビットの超低精度でのロスレス圧縮を実現する。本フレームワークは,2次情報に基づく最適ビット精度割当を探索する感度ベース非一様量子化法と,2次情報に基づくDense-and-Sparse分解法と,2次情報量割当値と感度重み値を効率的にスパース形式で格納するDense-and-Sparse分解法である。
論文参考訳（メタデータ） (2023-06-13T08:57:54Z)
Q-ASR: Integer-only Zero-shot Quantization for Efficient Speech Recognition [65.7040645560855]
ASRモデルに対する整数のみのゼロショット量子化スキームであるQ-ASRを提案する。全精度ベースラインモデルと比較すると,wrの変化は無視できる。 Q-ASRは、WER劣化が少ない4倍以上の圧縮率を示します。
論文参考訳（メタデータ） (2021-03-31T06:05:40Z)
Training with Quantization Noise for Extreme Model Compression [57.51832088938618]
与えられたモデルサイズに対する精度を最大化しながら、コンパクトなモデルを作成するという問題に取り組む。標準的な解決策は、トレーニング中に重みが定量化され、勾配がストレート・スルー推定器に近似される量子化意識訓練(Quantization Aware Training)でネットワークをトレーニングすることである。本稿では, この手法を, 極端な圧縮法を用いて, int8 の固定点量子化を超えて機能するように拡張する。
論文参考訳（メタデータ） (2020-04-15T20:10:53Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。