論文の概要: Softmax Bias Correction for Quantized Generative Models
- arxiv url: http://arxiv.org/abs/2309.01729v1
- Date: Mon, 4 Sep 2023 17:29:31 GMT
- ステータス: 処理完了
- システム内更新日: 2023-09-06 17:55:37.870948
- Title: Softmax Bias Correction for Quantized Generative Models
- Title(参考訳): 量子化生成モデルのソフトマックスバイアス補正
- Authors: Nilesh Prasad Pandey, Marios Fournarakis, Chirag Patel, Markus Nagel
- Abstract要約: ポストトレーニング量子化(PTQ)は、安定拡散や大言語モデルのような大きな生成モデルのためのゴート圧縮技術である。
PTQ法は一般に、量子化ノイズに非常に敏感であることが示されているため、ソフトマックスの活性化を高い精度で維持する。
これにより、リソース制約のあるエッジデバイス上での推論において、大幅なランタイムと電力オーバーヘッドが発生する可能性がある。
本稿では,デプロイ中に計算量を増やすことなく,ソフトマックスの定量化性を向上するオフラインバイアス補正手法を提案する。
- 参考スコア(独自算出の注目度): 8.953308552614438
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Post-training quantization (PTQ) is the go-to compression technique for large
generative models, such as stable diffusion or large language models. PTQ
methods commonly keep the softmax activation in higher precision as it has been
shown to be very sensitive to quantization noise. However, this can lead to a
significant runtime and power overhead during inference on resource-constraint
edge devices. In this work, we investigate the source of the softmax
sensitivity to quantization and show that the quantization operation leads to a
large bias in the softmax output, causing accuracy degradation. To overcome
this issue, we propose an offline bias correction technique that improves the
quantizability of softmax without additional compute during deployment, as it
can be readily absorbed into the quantization parameters. We demonstrate the
effectiveness of our method on stable diffusion v1.5 and 125M-size OPT language
model, achieving significant accuracy improvement for 8-bit quantized softmax.
- Abstract(参考訳): ポストトレーニング量子化(PTQ)は、安定拡散や大言語モデルのような大きな生成モデルのためのゴート圧縮技術である。
PTQ法は一般に、量子化ノイズに非常に敏感であることが示されているため、ソフトマックスの活性化を高い精度で維持する。
しかし、リソース制約のあるエッジデバイスでの推論において、これは大きなランタイムと電力オーバーヘッドにつながる可能性がある。
本研究では,量子化に対するソフトマックス感度の源泉を調査し,量子化操作がソフトマックス出力に大きなバイアスをもたらし,精度の低下を引き起こすことを示す。
そこで本研究では,展開中の計算量を増やすことなくソフトマックスの定量性を向上し,量子化パラメータに容易に吸収できるオフラインバイアス補正手法を提案する。
安定拡散v1.5および125MサイズのOPT言語モデルに対する本手法の有効性を実証し,8ビット量子化ソフトマックスの精度向上を実現した。
関連論文リスト
- Post-training Quantization with Progressive Calibration and Activation
Relaxing for Text-to-Image Diffusion Models [52.298040414591135]
テキスト・画像拡散モデルのための学習後量子化手法を提案する。
我々は,安定拡散XLの量子化を初めて達成し,その性能を維持した。
論文 参考訳(メタデータ) (2023-11-10T09:10:09Z) - MixQuant: Mixed Precision Quantization with a Bit-width Optimization
Search [7.564770908909927]
量子化は、効率的なディープニューラルネットワーク(DNN)を作成する技術である
ラウンドオフ誤差に基づいて各層重みに対する最適な量子化ビット幅を求める検索アルゴリズムであるMixQuantを提案する。
我々は、MixQuantと最先端の量子化手法BRECQを組み合わせることで、BRECQ単独よりも優れた量子化モデル精度が得られることを示す。
論文 参考訳(メタデータ) (2023-09-29T15:49:54Z) - Norm Tweaking: High-performance Low-bit Quantization of Large Language
Models [21.855106896725598]
そこで本研究では,現在のPTQ手法のプラグインとして利用できるノルム調整手法を提案する。
本手法は,重量のみの量子化と重みとアクティベーションの連成量子化の両面で有意な改善を示す。
私たちのシンプルで効果的なアプローチは、現実世界のアプリケーションにとってより実用的です。
論文 参考訳(メタデータ) (2023-09-06T06:51:15Z) - Towards Accurate Post-Training Quantization for Vision Transformer [48.779346466374406]
既存のトレーニング後の量子化手法は依然として深刻な性能低下を引き起こしている。
APQ-ViTは、既存のトレーニング後の量子化手法を証明マージンによって超越している。
論文 参考訳(メタデータ) (2023-03-25T03:05:26Z) - Density-Softmax: Scalable and Calibrated Uncertainty Estimation under
Distribution Shifts [8.02980715531745]
密度-ソフトマックスは、キャリブレーションされた不確実性推定を改善するための高速で軽量な決定論的手法である。
ニューラルネットワークを用いて,密度-ソフトマックスが高品質な不確実性を推定できることを示す。
論文 参考訳(メタデータ) (2023-02-13T16:21:03Z) - Q-Diffusion: Quantizing Diffusion Models [52.978047249670276]
ポストトレーニング量子化(PTQ)は、他のタスクに対するゴーツー圧縮法であると考えられている。
本稿では,一意なマルチステップパイプラインとモデルアーキテクチャに適した新しいPTQ手法を提案する。
提案手法は,完全精度の非条件拡散モデルを同等の性能を維持しつつ4ビットに定量化できることを示す。
論文 参考訳(メタデータ) (2023-02-08T19:38:59Z) - Q-Rater: Non-Convex Optimization for Post-Training Uniform Quantization [9.062897838978955]
様々な訓練後の量子一様化法は通常凸最適化に基づいている。
提案手法は,特に低量子化の場合,高いモデル精度を示す。
論文 参考訳(メタデータ) (2021-05-05T05:14:22Z) - Amortized Conditional Normalized Maximum Likelihood: Reliable Out of
Distribution Uncertainty Estimation [99.92568326314667]
本研究では,不確実性推定のための拡張性のある汎用的アプローチとして,償却条件正規化最大値(ACNML)法を提案する。
提案アルゴリズムは条件付き正規化最大度(CNML)符号化方式に基づいており、最小記述長の原理に従って最小値の最適特性を持つ。
我々は、ACNMLが、分布外入力のキャリブレーションの観点から、不確実性推定のための多くの手法と好意的に比較することを示した。
論文 参考訳(メタデータ) (2020-11-05T08:04:34Z) - Scalable quantum processor noise characterization [57.57666052437813]
累積展開に基づく多ビットデバイスに対する近似的MCMを構築するためのスケーラブルな方法を提案する。
また,本手法は,様々な種類の相関誤差を特徴付けるためにも利用できる。
論文 参考訳(メタデータ) (2020-06-02T17:39:42Z) - Training with Quantization Noise for Extreme Model Compression [57.51832088938618]
与えられたモデルサイズに対する精度を最大化しながら、コンパクトなモデルを作成するという問題に取り組む。
標準的な解決策は、トレーニング中に重みが定量化され、勾配がストレート・スルー推定器に近似される量子化意識訓練(Quantization Aware Training)でネットワークをトレーニングすることである。
本稿では, この手法を, 極端な圧縮法を用いて, int8 の固定点量子化を超えて機能するように拡張する。
論文 参考訳(メタデータ) (2020-04-15T20:10:53Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。