論文の概要: Low-Bitwidth Floating Point Quantization for Efficient High-Quality Diffusion Models
- arxiv url: http://arxiv.org/abs/2408.06995v1
- Date: Tue, 13 Aug 2024 15:56:20 GMT
- ステータス: 処理完了
- システム内更新日: 2024-08-14 16:55:31.518127
- Title: Low-Bitwidth Floating Point Quantization for Efficient High-Quality Diffusion Models
- Title(参考訳): 効率的な高次拡散モデルのための低ビット幅浮動小数点量子化
- Authors: Cheng Chen, Christina Giannoula, Andreas Moshovos,
- Abstract要約: 拡散モデルは、ディープニューラルネットワークを用いてランダムガウスノイズを反復的にデノベートすることで画像を生成する。
近年の研究では、拡散モデルに対する低ビット幅(例:8ビットまたは4ビット)の量子化が提案されているが、4ビットの整数量子化は典型的には低画質の画像をもたらす。
本稿では,整数量子化法と比較して画像品質がよい拡散モデルのための効果的な浮動小数点量子化法を提案する。
- 参考スコア(独自算出の注目度): 2.926259075657424
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Diffusion models are emerging models that generate images by iteratively denoising random Gaussian noise using deep neural networks. These models typically exhibit high computational and memory demands, necessitating effective post-training quantization for high-performance inference. Recent works propose low-bitwidth (e.g., 8-bit or 4-bit) quantization for diffusion models, however 4-bit integer quantization typically results in low-quality images. We observe that on several widely used hardware platforms, there is little or no difference in compute capability between floating-point and integer arithmetic operations of the same bitwidth (e.g., 8-bit or 4-bit). Therefore, we propose an effective floating-point quantization method for diffusion models that provides better image quality compared to integer quantization methods. We employ a floating-point quantization method that was effective for other processing tasks, specifically computer vision and natural language tasks, and tailor it for diffusion models by integrating weight rounding learning during the mapping of the full-precision values to the quantized values in the quantization process. We comprehensively study integer and floating-point quantization methods in state-of-the-art diffusion models. Our floating-point quantization method not only generates higher-quality images than that of integer quantization methods, but also shows no noticeable degradation compared to full-precision models (32-bit floating-point), when both weights and activations are quantized to 8-bit floating-point values, while has minimal degradation with 4-bit weights and 8-bit activations.
- Abstract(参考訳): 拡散モデルは、ディープニューラルネットワークを用いてランダムガウスノイズを反復的に復調することで画像を生成する新興モデルである。
これらのモデルは通常、高い計算とメモリ要求を示し、高性能な推論のために効果的なトレーニング後の量子化を必要とする。
近年の研究では、拡散モデルに対する低ビット幅(例えば、8ビットまたは4ビット)の量子化が提案されているが、4ビットの整数量子化は、通常、低品質の画像をもたらす。
いくつかの広く使われているハードウェアプラットフォームでは、同じビット幅の浮動小数点演算と整数演算(例:8ビット、または4ビット)の計算能力に差はほとんど、あるいは全くない。
そこで本研究では,拡散モデルの効率的な浮動小数点量子化法を提案する。
本研究では,他の処理タスク,特にコンピュータビジョンや自然言語タスクに有効な浮動小数点量子化法を採用し,量子化過程における量子化値への全精度値のマッピング中に重み付け学習を統合することで拡散モデルの調整を行う。
我々は、最先端拡散モデルにおける整数および浮動小数点量子化法を包括的に研究する。
我々の浮動小数点量子化法は、整数量子化法よりも高品質な画像を生成するだけでなく、重みとアクティベーションの両方が8ビット浮動小数点値に量子化され、かつ4ビットの重みと8ビットのアクティベーションによる最小の劣化は、フル精度モデル(32ビット浮動小数点)と比較しても顕著な劣化を示す。
関連論文リスト
- MixDQ: Memory-Efficient Few-Step Text-to-Image Diffusion Models with Metric-Decoupled Mixed Precision Quantization [16.83403134551842]
最近の数ステップの拡散モデルでは、デノナイジングステップを減らして推論時間を短縮している。
Post Training Quantization (PTQ)は、高ビット幅のFP表現を低ビット整数値に置き換える。
しかし、数ステップの拡散モデルに適用する場合、既存の量子化法は画質とテキストアライメントの両方を維持する上で困難に直面している。
論文 参考訳(メタデータ) (2024-05-28T06:50:58Z) - QuEST: Low-bit Diffusion Model Quantization via Efficient Selective Finetuning [52.157939524815866]
本稿では,現行手法の有効性を損なう量子拡散モデルの3つの特性を実証的に明らかにする。
重要な時間的情報を保持する層と、ビット幅の低減に敏感な層という、2つの重要なタイプの量子化層を同定する。
提案手法は,3つの高分解能画像生成タスクに対して評価し,様々なビット幅設定で最先端の性能を実現する。
論文 参考訳(メタデータ) (2024-02-06T03:39:44Z) - Q-Diffusion: Quantizing Diffusion Models [52.978047249670276]
ポストトレーニング量子化(PTQ)は、他のタスクに対するゴーツー圧縮法であると考えられている。
本稿では,一意なマルチステップパイプラインとモデルアーキテクチャに適した新しいPTQ手法を提案する。
提案手法は,完全精度の非条件拡散モデルを同等の性能を維持しつつ4ビットに定量化できることを示す。
論文 参考訳(メタデータ) (2023-02-08T19:38:59Z) - Quantized Neural Networks for Low-Precision Accumulation with Guaranteed
Overflow Avoidance [68.8204255655161]
本稿では,推定時のアキュムレータの精度を下げる際に,数値オーバーフローを回避する量子化学習アルゴリズムを提案する。
本手法は,浮動小数点点ベースラインに対するモデル精度を維持しつつ,アキュムレータの精度を低減できることを示す。
論文 参考訳(メタデータ) (2023-01-31T02:46:57Z) - One Model for All Quantization: A Quantized Network Supporting Hot-Swap
Bit-Width Adjustment [36.75157407486302]
多様なビット幅をサポートする全量子化のためのモデルを訓練する手法を提案する。
重みの多様性を高めるためにウェーブレット分解と再構成を用いる。
同じ精度で訓練された専用モデルに匹敵する精度が得られる。
論文 参考訳(メタデータ) (2021-05-04T08:10:50Z) - Differentiable Model Compression via Pseudo Quantization Noise [99.89011673907814]
本稿では,モデルパラメータに独立な擬似量子化雑音を加えて量子化演算子の効果を近似する。
本手法が,画像分類,言語モデリング,音声ソース分離などのベンチマークやアーキテクチャにおいて,最先端の量子化技術を上回ることを実験的に検証した。
論文 参考訳(メタデータ) (2021-04-20T14:14:03Z) - Q-ASR: Integer-only Zero-shot Quantization for Efficient Speech
Recognition [65.7040645560855]
ASRモデルに対する整数のみのゼロショット量子化スキームであるQ-ASRを提案する。
全精度ベースラインモデルと比較すると,wrの変化は無視できる。
Q-ASRは、WER劣化が少ない4倍以上の圧縮率を示します。
論文 参考訳(メタデータ) (2021-03-31T06:05:40Z) - Learnable Companding Quantization for Accurate Low-bit Neural Networks [3.655021726150368]
ディープニューラルネットワークの量子化は、メモリ消費の削減と推論速度の向上に有効な方法である。
非常に低ビットモデルがフル精度モデルに匹敵する精度を達成することは、まだ困難です。
2,3,4ビットモデルのための新しい非一様量子化手法として学習可能なコンパイル量子化(LCQ)を提案する。
論文 参考訳(メタデータ) (2021-03-12T09:06:52Z) - Searching for Low-Bit Weights in Quantized Neural Networks [129.8319019563356]
低ビットの重みとアクティベーションを持つ量子ニューラルネットワークは、AIアクセラレータを開発する上で魅力的なものだ。
本稿では、任意の量子化ニューラルネットワークにおける離散重みを探索可能な変数とみなし、差分法を用いて正確に探索する。
論文 参考訳(メタデータ) (2020-09-18T09:13:26Z) - Accelerating Neural Network Inference by Overflow Aware Quantization [16.673051600608535]
ディープニューラルネットワークの重計算を継承することで、その広範な応用が防げる。
トレーニング可能な適応的不動点表現を設計し,オーバーフローを考慮した量子化手法を提案する。
提案手法により,量子化損失を最小限に抑え,最適化された推論性能を得ることができる。
論文 参考訳(メタデータ) (2020-05-27T11:56:22Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。