論文の概要: Understanding INT4 Quantization for Transformer Models: Latency Speedup,
Composability, and Failure Cases
- arxiv url: http://arxiv.org/abs/2301.12017v2
- Date: Tue, 30 May 2023 21:32:11 GMT
- ステータス: 処理完了
- システム内更新日: 2023-06-01 23:15:17.128515
- Title: Understanding INT4 Quantization for Transformer Models: Latency Speedup,
Composability, and Failure Cases
- Title(参考訳): int4量子化のトランスフォーマモデルへの応用 : レイテンシ高速化,コンポーザビリティ,障害ケース
- Authors: Xiaoxia Wu, Cheng Li, Reza Yazdani Aminabadi, Zhewei Yao, Yuxiong He
- Abstract要約: W4A4量子化は、エンコーダのみのモデルとエンコーダデコーダのみのモデルに対して、無視可能な精度劣化を起こさないが、デコーダのみのモデルでは相当な精度低下を引き起こすことを示す。
我々は、異なる量子化戦略をサポートする高度に最適化されたエンドツーエンドのW4A4エンコーダ推論パイプラインを開発した。
- 参考スコア(独自算出の注目度): 24.34969722921442
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Improving the deployment efficiency of transformer-based language models has
been challenging given their high computation and memory cost. While INT8
quantization has recently been shown to be effective in reducing both the
memory cost and latency while preserving model accuracy, it remains unclear
whether we can leverage INT4 (which doubles peak hardware throughput) to
achieve further latency improvement. In this study, we explore the feasibility
of employing INT4 weight and activation (W4A4) quantization for language
models. Our findings indicate that W4A4 quantization introduces no to
negligible accuracy degradation for encoder-only and encoder-decoder models,
but causes a significant accuracy drop for decoder-only models. To materialize
the performance gain using W4A4, we develop a highly optimized end-to-end W4A4
encoder inference pipeline supporting different quantization strategies. Our
INT4 pipeline is $8.5\times$ faster for latency-oriented scenarios and up to
$3\times$ for throughput-oriented scenarios compared to the inference of FP16,
and improves the SOTA BERT INT8 performance from FasterTransformer by up to
$1.7\times$. We provide insights into the failure cases when applying W4A4 to
decoder-only models, and further explore the compatibility of INT4 quantization
with other compression methods, like pruning and layer reduction.
- Abstract(参考訳): 高い計算コストとメモリコストを考えると、トランスフォーマーベースの言語モデルのデプロイ効率の向上は困難である。
INT8量子化は、モデル精度を維持しながらメモリコストとレイテンシの両方を削減するのに有効であることが最近示されているが、INT4(ハードウェアスループットのピークを2倍にする)を活用してさらなるレイテンシ改善を実現することができるかどうかは不明だ。
本研究では、言語モデルにおけるINT4重みとアクティベーション(W4A4)量子化の実現可能性について検討する。
以上の結果から,w4a4量子化ではエンコーダのみおよびエンコーダデコーダモデルでは精度低下が認められず,デコーダのみモデルでは大きな精度低下がみられた。
w4a4を用いた性能向上を実現するため、異なる量子化戦略をサポートする高度に最適化されたエンドツーエンドw4a4エンコーダ推論パイプラインを開発した。
私たちのINT4パイプラインは、レイテンシ指向のシナリオでは8.5\times$、スループット指向のシナリオでは最大$3\times$でFP16の推論よりも高速です。
我々は、デコーダのみのモデルにw4a4を適用する場合の障害事例に関する洞察を提供し、さらにpruningやlayer reductionといった他の圧縮手法とのint4量子化の互換性について検討する。
関連論文リスト
- ZeroQuant(4+2): Redefining LLMs Quantization with a New FP6-Centric
Strategy for Diverse Generative Tasks [31.431016659268206]
本研究では,大規模言語モデル(LLM)におけるGPTQのような4ビット量子化手法について検討する。
タスクスコープは、コード生成や抽象的な要約といった、より生成的なカテゴリに拡張します。
最新のINT4微細粒量子化に類似したレイテンシを実現するために,FP6のための新しい4+2設計を提案する。
論文 参考訳(メタデータ) (2023-12-14T01:06:37Z) - QUIK: Towards End-to-End 4-Bit Inference on Generative Large Language
Models [57.04178959678024]
重み付けとアクティベーションの両方を4ビットにキャストすることで、大きな生成モデルに対する推論計算の大部分が実行可能であることを示す。
これをQUIKと呼ばれるハイブリッド量子化戦略により実現し、重みとアクティベーションの大部分を4ビットに圧縮する。
我々は、QUIKフォーマットを高効率なレイヤワイドランタイムに適合させるGPUカーネルを提供し、これにより、エンドツーエンドのスループットが3.4倍に向上する。
論文 参考訳(メタデータ) (2023-10-13T17:15:05Z) - Towards Accurate Post-Training Quantization for Vision Transformer [48.779346466374406]
既存のトレーニング後の量子化手法は依然として深刻な性能低下を引き起こしている。
APQ-ViTは、既存のトレーニング後の量子化手法を証明マージンによって超越している。
論文 参考訳(メタデータ) (2023-03-25T03:05:26Z) - Accelerating Inference and Language Model Fusion of Recurrent Neural
Network Transducers via End-to-End 4-bit Quantization [35.198615417316056]
我々は、リカレントニューラルネットワークトランスデューサ(RNN-T)の推論を大幅に高速化するアグレッシブ量子化戦略について報告する。
重みとアクティベーションの両方に4ビット整数表現を使用し、完全なモデルをトレーニングするために量子化アウェアトレーニング(QAT)を適用します。
ネットワークのローカルな特性に合わせてカスタマイズされた量子化方式は、優れた性能を実現するために不可欠であることを示す。
論文 参考訳(メタデータ) (2022-06-16T02:17:49Z) - ZeroQuant: Efficient and Affordable Post-Training Quantization for
Large-Scale Transformers [29.566132632781848]
我々は、ZeroQuantと呼ばれる大きなTransformerベースのモデルを圧縮するための、効率的で安価なポストトレーニング量子化手法を提案する。
ZeroQuantは3つの主要コンポーネントを備えたエンドツーエンドの量子化と推論パイプラインである。
論文 参考訳(メタデータ) (2022-06-04T00:28:21Z) - Q-ASR: Integer-only Zero-shot Quantization for Efficient Speech
Recognition [65.7040645560855]
ASRモデルに対する整数のみのゼロショット量子化スキームであるQ-ASRを提案する。
全精度ベースラインモデルと比較すると,wrの変化は無視できる。
Q-ASRは、WER劣化が少ない4倍以上の圧縮率を示します。
論文 参考訳(メタデータ) (2021-03-31T06:05:40Z) - FantastIC4: A Hardware-Software Co-Design Approach for Efficiently
Running 4bit-Compact Multilayer Perceptrons [19.411734658680967]
深層ニューラルネットワーク(DNN)の高効率な実行エンジンを得るためのソフトウェアハードウェア最適化パラダイムを提案する。
私たちのアプローチは、予測性能の高い多層パーセプトロン(MLP)の面積と電力要件を低減するための手段として、圧縮を中心にしています。
仮想超大規模FPGA XCVU440デバイス実装では総消費電力3.6Wで2.45 TOPSのスループットを達成し、22nmプロセスASICバージョンでは20.17 TOPS/Wの総電力効率を達成できることを示した。
論文 参考訳(メタデータ) (2020-12-17T19:10:04Z) - HAWQV3: Dyadic Neural Network Quantization [73.11579145354801]
現在の低精度量子化アルゴリズムは、浮動小数点から量子化された整数値への変換の隠れコストを持つことが多い。
HAWQV3は、新しい混合精度整数のみの量子化フレームワークである。
論文 参考訳(メタデータ) (2020-11-20T23:51:43Z) - Widening and Squeezing: Towards Accurate and Efficient QNNs [125.172220129257]
量子化ニューラルネットワーク(QNN)は、非常に安価な計算とストレージオーバーヘッドのため、業界にとって非常に魅力的なものだが、その性能は、完全な精度パラメータを持つネットワークよりも悪い。
既存の手法の多くは、より効果的なトレーニング技術を利用して、特にバイナリニューラルネットワークの性能を高めることを目的としている。
本稿では,従来の完全精度ネットワークで高次元量子化機能に特徴を投影することで,この問題に対処する。
論文 参考訳(メタデータ) (2020-02-03T04:11:13Z) - Towards Unified INT8 Training for Convolutional Neural Network [83.15673050981624]
共用畳み込みニューラルネットワークのための統合8ビット(INT8)トレーニングフレームワークを構築した。
まず、勾配の4つの特徴を経験的に発見し、勾配量子化の洞察力のある手がかりを与える。
勾配の方向ずれを低減させる方向感度勾配クリッピングを含む2つの普遍的手法を提案する。
論文 参考訳(メタデータ) (2019-12-29T08:37:53Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。