論文の概要: Softmax Bias Correction for Quantized Generative Models
- arxiv url: http://arxiv.org/abs/2309.01729v1
- Date: Mon, 4 Sep 2023 17:29:31 GMT
- ステータス: 処理完了
- システム内更新日: 2023-09-06 17:55:37.870948
- Title: Softmax Bias Correction for Quantized Generative Models
- Title(参考訳): 量子化生成モデルのソフトマックスバイアス補正
- Authors: Nilesh Prasad Pandey, Marios Fournarakis, Chirag Patel, Markus Nagel
- Abstract要約: ポストトレーニング量子化(PTQ)は、安定拡散や大言語モデルのような大きな生成モデルのためのゴート圧縮技術である。
PTQ法は一般に、量子化ノイズに非常に敏感であることが示されているため、ソフトマックスの活性化を高い精度で維持する。
これにより、リソース制約のあるエッジデバイス上での推論において、大幅なランタイムと電力オーバーヘッドが発生する可能性がある。
本稿では,デプロイ中に計算量を増やすことなく,ソフトマックスの定量化性を向上するオフラインバイアス補正手法を提案する。
- 参考スコア(独自算出の注目度): 8.953308552614438
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Post-training quantization (PTQ) is the go-to compression technique for large
generative models, such as stable diffusion or large language models. PTQ
methods commonly keep the softmax activation in higher precision as it has been
shown to be very sensitive to quantization noise. However, this can lead to a
significant runtime and power overhead during inference on resource-constraint
edge devices. In this work, we investigate the source of the softmax
sensitivity to quantization and show that the quantization operation leads to a
large bias in the softmax output, causing accuracy degradation. To overcome
this issue, we propose an offline bias correction technique that improves the
quantizability of softmax without additional compute during deployment, as it
can be readily absorbed into the quantization parameters. We demonstrate the
effectiveness of our method on stable diffusion v1.5 and 125M-size OPT language
model, achieving significant accuracy improvement for 8-bit quantized softmax.
- Abstract(参考訳): ポストトレーニング量子化(PTQ)は、安定拡散や大言語モデルのような大きな生成モデルのためのゴート圧縮技術である。
PTQ法は一般に、量子化ノイズに非常に敏感であることが示されているため、ソフトマックスの活性化を高い精度で維持する。
しかし、リソース制約のあるエッジデバイスでの推論において、これは大きなランタイムと電力オーバーヘッドにつながる可能性がある。
本研究では,量子化に対するソフトマックス感度の源泉を調査し,量子化操作がソフトマックス出力に大きなバイアスをもたらし,精度の低下を引き起こすことを示す。
そこで本研究では,展開中の計算量を増やすことなくソフトマックスの定量性を向上し,量子化パラメータに容易に吸収できるオフラインバイアス補正手法を提案する。
安定拡散v1.5および125MサイズのOPT言語モデルに対する本手法の有効性を実証し,8ビット量子化ソフトマックスの精度向上を実現した。
関連論文リスト
- 2DQuant: Low-bit Post-Training Quantization for Image Super-Resolution [83.09117439860607]
低ビット量子化は、エッジ展開のための画像超解像(SR)モデルを圧縮するために広く普及している。
低ビット量子化は、フル精度(FP)と比較してSRモデルの精度を低下させることが知られている。
本稿では2DQuantという画像超解像のための2段階の低ビット後量子化(PTQ)法を提案する。
論文 参考訳(メタデータ) (2024-06-10T06:06:11Z) - QuEST: Low-bit Diffusion Model Quantization via Efficient Selective Finetuning [52.157939524815866]
本稿では,現行手法の有効性を損なう量子拡散モデルの3つの特性を実証的に明らかにする。
重要な時間的情報を保持する層と、ビット幅の低減に敏感な層という、2つの重要なタイプの量子化層を同定する。
提案手法は,3つの高分解能画像生成タスクに対して評価し,様々なビット幅設定で最先端の性能を実現する。
論文 参考訳(メタデータ) (2024-02-06T03:39:44Z) - Post-training Quantization for Text-to-Image Diffusion Models with Progressive Calibration and Activation Relaxing [49.800746112114375]
本稿では,テキスト・画像拡散モデルのための学習後量子化手法(プログレッシブ・アンド・リラクシング)を提案する。
我々は,安定拡散XLの量子化を初めて達成し,その性能を維持した。
論文 参考訳(メタデータ) (2023-11-10T09:10:09Z) - MixQuant: Mixed Precision Quantization with a Bit-width Optimization
Search [7.564770908909927]
量子化は、効率的なディープニューラルネットワーク(DNN)を作成する技術である
ラウンドオフ誤差に基づいて各層重みに対する最適な量子化ビット幅を求める検索アルゴリズムであるMixQuantを提案する。
我々は、MixQuantと最先端の量子化手法BRECQを組み合わせることで、BRECQ単独よりも優れた量子化モデル精度が得られることを示す。
論文 参考訳(メタデータ) (2023-09-29T15:49:54Z) - Norm Tweaking: High-performance Low-bit Quantization of Large Language
Models [21.855106896725598]
そこで本研究では,現在のPTQ手法のプラグインとして利用できるノルム調整手法を提案する。
本手法は,重量のみの量子化と重みとアクティベーションの連成量子化の両面で有意な改善を示す。
私たちのシンプルで効果的なアプローチは、現実世界のアプリケーションにとってより実用的です。
論文 参考訳(メタデータ) (2023-09-06T06:51:15Z) - Towards Accurate Post-Training Quantization for Vision Transformer [48.779346466374406]
既存のトレーニング後の量子化手法は依然として深刻な性能低下を引き起こしている。
APQ-ViTは、既存のトレーニング後の量子化手法を証明マージンによって超越している。
論文 参考訳(メタデータ) (2023-03-25T03:05:26Z) - Density-Softmax: Efficient Test-time Model for Uncertainty Estimation and Robustness under Distribution Shifts [8.431465371266391]
密度-ソフトマックスは、不確実性推定のためのサンプリング不要な決定論的なフレームワークである。
我々は,このモデルがミニマックス不確実性リスクの解であることを示した。
本手法は,不確実性と堅牢性の観点から,最先端技術と競合する結果を享受する。
論文 参考訳(メタデータ) (2023-02-13T16:21:03Z) - Q-Diffusion: Quantizing Diffusion Models [52.978047249670276]
ポストトレーニング量子化(PTQ)は、他のタスクに対するゴーツー圧縮法であると考えられている。
本稿では,一意なマルチステップパイプラインとモデルアーキテクチャに適した新しいPTQ手法を提案する。
提案手法は,完全精度の非条件拡散モデルを同等の性能を維持しつつ4ビットに定量化できることを示す。
論文 参考訳(メタデータ) (2023-02-08T19:38:59Z) - Q-Rater: Non-Convex Optimization for Post-Training Uniform Quantization [9.062897838978955]
様々な訓練後の量子一様化法は通常凸最適化に基づいている。
提案手法は,特に低量子化の場合,高いモデル精度を示す。
論文 参考訳(メタデータ) (2021-05-05T05:14:22Z) - Training with Quantization Noise for Extreme Model Compression [57.51832088938618]
与えられたモデルサイズに対する精度を最大化しながら、コンパクトなモデルを作成するという問題に取り組む。
標準的な解決策は、トレーニング中に重みが定量化され、勾配がストレート・スルー推定器に近似される量子化意識訓練(Quantization Aware Training)でネットワークをトレーニングすることである。
本稿では, この手法を, 極端な圧縮法を用いて, int8 の固定点量子化を超えて機能するように拡張する。
論文 参考訳(メタデータ) (2020-04-15T20:10:53Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。