論文の概要: Qua$^2$SeDiMo: Quantifiable Quantization Sensitivity of Diffusion Models
- arxiv url: http://arxiv.org/abs/2412.14628v1
- Date: Thu, 19 Dec 2024 08:30:54 GMT
- ステータス: 翻訳完了
- システム内更新日: 2024-12-20 13:32:49.489409
- Title: Qua$^2$SeDiMo: Quantifiable Quantization Sensitivity of Diffusion Models
- Title(参考訳): Qua$^2$SeDiMo:拡散モデルの量子化感度
- Authors: Keith G. Mills, Mohammad Salameh, Ruichen Chen, Negar Hassanpour, Wei Lu, Di Niu,
- Abstract要約: 量子化は、推論コストを軽減し、DMデノイザネットワークのサイズを小さくする主要な技術である。
Qua$2$SeDiMoは、様々なモデルの量化手法の費用対効果に関する説明可能な洞察を生成する混合精度のポストトライニング量子化フレームワークである。
2$SeDiMo は PixArt-$alpha$, PixArt-$Sigma$, Hunyuan-DiT and SDXL 上で 3.4-bit, 3.9-bit, 3.65-bit, 3.7-bit の重み量子化を構成可能であることを示す。
- 参考スコア(独自算出の注目度): 20.709569063560235
- License:
- Abstract: Diffusion Models (DM) have democratized AI image generation through an iterative denoising process. Quantization is a major technique to alleviate the inference cost and reduce the size of DM denoiser networks. However, as denoisers evolve from variants of convolutional U-Nets toward newer Transformer architectures, it is of growing importance to understand the quantization sensitivity of different weight layers, operations and architecture types to performance. In this work, we address this challenge with Qua$^2$SeDiMo, a mixed-precision Post-Training Quantization framework that generates explainable insights on the cost-effectiveness of various model weight quantization methods for different denoiser operation types and block structures. We leverage these insights to make high-quality mixed-precision quantization decisions for a myriad of diffusion models ranging from foundational U-Nets to state-of-the-art Transformers. As a result, Qua$^2$SeDiMo can construct 3.4-bit, 3.9-bit, 3.65-bit and 3.7-bit weight quantization on PixArt-${\alpha}$, PixArt-${\Sigma}$, Hunyuan-DiT and SDXL, respectively. We further pair our weight-quantization configurations with 6-bit activation quantization and outperform existing approaches in terms of quantitative metrics and generative image quality.
- Abstract(参考訳): Diffusion Models (DM)は、反復的デノゲーションプロセスを通じてAI画像生成を民主化している。
量子化は、推論コストを軽減し、DMデノイザネットワークのサイズを小さくする主要な技術である。
しかし、畳み込みU-Netの変種から新しいトランスフォーマーアーキテクチャへと進化するにつれて、異なる重み付け層、オペレーション、アーキテクチャタイプの量子化感度をパフォーマンスに理解することが重要になっている。
本研究では,様々なデノイザ演算タイプやブロック構造に対して,様々なモデル量量子化手法の費用対効果に関する説明可能な洞察を得られる混合精度のポストトライニング量子化フレームワークであるQua$2$SeDiMoを用いて,この問題に対処する。
これらの知見を利用して、基礎的なU-Netから最先端のトランスフォーマーまで多種多様な拡散モデルに対して、高品質な混合精度量子化決定を行う。
その結果、Qua$^2$SeDiMo はそれぞれ PixArt-${\alpha}$, PixArt-${\Sigma}$, Hunyuan-DiT および SDXL 上で 3.4-bit, 3.9-bit, 3.65-bit および 3.7-bit の重み量子化を構成することができる。
さらに、重み量子化構成と6ビットのアクティベーション量子化を組み合わせ、定量的なメトリクスと生成画像の品質の観点から既存のアプローチより優れています。
関連論文リスト
- PassionSR: Post-Training Quantization with Adaptive Scale in One-Step Diffusion based Image Super-Resolution [95.98801201266099]
拡散に基づく画像超解像(SR)モデルでは、複数のデノナイジングステップのコストで優れた性能を示す。
本稿では,一段階拡散(OSD)画像SR,PassionSRにおける適応スケールの学習後量子化手法を提案する。
我々のPassionSRは、画像SRの最近の先進的な低ビット量子化法に対して大きな利点がある。
論文 参考訳(メタデータ) (2024-11-26T04:49:42Z) - 2DQuant: Low-bit Post-Training Quantization for Image Super-Resolution [83.09117439860607]
低ビット量子化は、エッジ展開のための画像超解像(SR)モデルを圧縮するために広く普及している。
低ビット量子化は、フル精度(FP)と比較してSRモデルの精度を低下させることが知られている。
本稿では2DQuantという画像超解像のための2段階の低ビット後量子化(PTQ)法を提案する。
論文 参考訳(メタデータ) (2024-06-10T06:06:11Z) - Q-Diffusion: Quantizing Diffusion Models [52.978047249670276]
ポストトレーニング量子化(PTQ)は、他のタスクに対するゴーツー圧縮法であると考えられている。
本稿では,一意なマルチステップパイプラインとモデルアーキテクチャに適した新しいPTQ手法を提案する。
提案手法は,完全精度の非条件拡散モデルを同等の性能を維持しつつ4ビットに定量化できることを示す。
論文 参考訳(メタデータ) (2023-02-08T19:38:59Z) - One Model for All Quantization: A Quantized Network Supporting Hot-Swap
Bit-Width Adjustment [36.75157407486302]
多様なビット幅をサポートする全量子化のためのモデルを訓練する手法を提案する。
重みの多様性を高めるためにウェーブレット分解と再構成を用いる。
同じ精度で訓練された専用モデルに匹敵する精度が得られる。
論文 参考訳(メタデータ) (2021-05-04T08:10:50Z) - Differentiable Model Compression via Pseudo Quantization Noise [99.89011673907814]
本稿では,モデルパラメータに独立な擬似量子化雑音を加えて量子化演算子の効果を近似する。
本手法が,画像分類,言語モデリング,音声ソース分離などのベンチマークやアーキテクチャにおいて,最先端の量子化技術を上回ることを実験的に検証した。
論文 参考訳(メタデータ) (2021-04-20T14:14:03Z) - Learnable Companding Quantization for Accurate Low-bit Neural Networks [3.655021726150368]
ディープニューラルネットワークの量子化は、メモリ消費の削減と推論速度の向上に有効な方法である。
非常に低ビットモデルがフル精度モデルに匹敵する精度を達成することは、まだ困難です。
2,3,4ビットモデルのための新しい非一様量子化手法として学習可能なコンパイル量子化(LCQ)を提案する。
論文 参考訳(メタデータ) (2021-03-12T09:06:52Z) - MWQ: Multiscale Wavelet Quantized Neural Networks [45.22093693422084]
本稿では,周波数領域の画像特性に触発された新しいマルチスケールウェーブレット量子化(MWQ)法を提案する。
空間領域における量子化による情報損失を軽減するために、マルチスケールの周波数と空間情報を利用する。
MWQの柔軟性のため、ImageNetとCOCOデータセット上の3つのアプリケーションを実演する。
論文 参考訳(メタデータ) (2021-03-09T11:21:59Z) - Direct Quantization for Training Highly Accurate Low Bit-width Deep
Neural Networks [73.29587731448345]
本稿では,低ビット幅重みとアクティベーションで深部畳み込みニューラルネットワークを訓練する2つの新しい手法を提案する。
まず、ビット幅の少ない重みを得るため、既存の方法の多くは、全精度ネットワーク重みで量子化することにより量子化重みを得る。
第二に、低ビット幅のアクティベーションを得るために、既存の作品はすべてのチャネルを等しく考慮する。
論文 参考訳(メタデータ) (2020-12-26T15:21:18Z) - AUSN: Approximately Uniform Quantization by Adaptively Superimposing
Non-uniform Distribution for Deep Neural Networks [0.7378164273177589]
既存の一様および非一様量子化法は、表現範囲と表現解像度の間に固有の矛盾を示す。
重みとアクティベーションを定量化する新しい量子化法を提案する。
鍵となる考え方は、複数の非一様量子化値、すなわち AUSN を適応的に重ね合わせることで、ユニフォーム量子化を近似することである。
論文 参考訳(メタデータ) (2020-07-08T05:10:53Z) - Training with Quantization Noise for Extreme Model Compression [57.51832088938618]
与えられたモデルサイズに対する精度を最大化しながら、コンパクトなモデルを作成するという問題に取り組む。
標準的な解決策は、トレーニング中に重みが定量化され、勾配がストレート・スルー推定器に近似される量子化意識訓練(Quantization Aware Training)でネットワークをトレーニングすることである。
本稿では, この手法を, 極端な圧縮法を用いて, int8 の固定点量子化を超えて機能するように拡張する。
論文 参考訳(メタデータ) (2020-04-15T20:10:53Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。