論文の概要: QuEST: Low-bit Diffusion Model Quantization via Efficient Selective
Finetuning
- arxiv url: http://arxiv.org/abs/2402.03666v2
- Date: Tue, 13 Feb 2024 05:22:34 GMT
- ステータス: 処理完了
- システム内更新日: 2024-02-14 18:20:14.787240
- Title: QuEST: Low-bit Diffusion Model Quantization via Efficient Selective
Finetuning
- Title(参考訳): QuEST: 効率的な選択ファインタニングによる低ビット拡散モデル量子化
- Authors: Haoxuan Wang, Yuzhang Shang, Zhihang Yuan, Junyi Wu, Yan Yan
- Abstract要約: 拡散モデルは画像生成タスクにおいて顕著な成功を収めてきたが、その実際の展開は高メモリと時間消費によって抑制されている。
本稿では,活性化分布に適応するために,量子化モデルを微調整する。
提案手法は,3つの高分解能画像生成タスクに対して評価し,様々なビット幅設定で最先端の性能を実現する。
- 参考スコア(独自算出の注目度): 14.295049174485902
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Diffusion models have achieved remarkable success in image generation tasks,
yet their practical deployment is restrained by the high memory and time
consumption. While quantization paves a way for diffusion model compression and
acceleration, existing methods totally fail when the models are quantized to
low-bits. In this paper, we unravel three properties in quantized diffusion
models that compromise the efficacy of current methods: imbalanced activation
distributions, imprecise temporal information, and vulnerability to
perturbations of specific modules. To alleviate the intensified low-bit
quantization difficulty stemming from the distribution imbalance, we propose
finetuning the quantized model to better adapt to the activation distribution.
Building on this idea, we identify two critical types of quantized layers:
those holding vital temporal information and those sensitive to reduced
bit-width, and finetune them to mitigate performance degradation with
efficiency. We empirically verify that our approach modifies the activation
distribution and provides meaningful temporal information, facilitating easier
and more accurate quantization. Our method is evaluated over three
high-resolution image generation tasks and achieves state-of-the-art
performance under various bit-width settings, as well as being the first method
to generate readable images on full 4-bit (i.e. W4A4) Stable Diffusion. Code is
been made publicly available.
- Abstract(参考訳): 拡散モデルは画像生成タスクで著しく成功したが、実際のデプロイメントは高いメモリ消費と時間消費によって抑制されている。
量子化は拡散モデル圧縮と加速の方法であるが、既存の手法はモデルが低ビットに量子化されると完全に失敗する。
本稿では,不均衡な活性化分布,不正確な時間情報,特定のモジュールの摂動に対する脆弱性という,現在の手法の有効性を損なう量子化拡散モデルの3つの特性を明らかにする。
分散不均衡に起因する高密度低ビット量子化の難しさを軽減するため,活性化分布に適応する量子化モデルを微調整する。
この考え方に基づき、重要な時間情報を保持する層とビット幅の低減に敏感な層という2つの重要な種類の量子化層を識別し、性能劣化を効率良く緩和するために微調整する。
提案手法がアクティベーション分布を変化させ、意味のある時間情報を提供し、より簡単で正確な量子化を容易にすることを実証的に検証する。
本手法は,3つの高分解能画像生成タスクで評価され,様々なビット幅設定で最先端の性能を実現するとともに,フル4ビット(すなわちw4a4)の安定拡散で可読性画像を生成する最初の方法である。
コードは公開されている。
関連論文リスト
- Timestep-Aware Correction for Quantized Diffusion Models [28.265582848911574]
本稿では,量子化誤差を動的に補正する量子化拡散モデルの時間ステップ対応補正法を提案する。
提案手法を低精度拡散モデルに応用することにより,出力品質の大幅な向上が期待できる。
論文 参考訳(メタデータ) (2024-07-04T13:22:31Z) - Lossy Image Compression with Foundation Diffusion Models [10.407650300093923]
本研究は,拡散を用いた量子化誤差の除去をデノナイジングタスクとして定式化し,送信された遅延画像の損失情報を復元する。
このアプローチによって、完全な拡散生成プロセスの10%未満の実行が可能になり、バックボーンにアーキテクチャ的な変更は不要になります。
論文 参考訳(メタデータ) (2024-04-12T16:23:42Z) - Memory-Efficient Fine-Tuning for Quantized Diffusion Model [12.875837358532422]
本稿では,量子化拡散モデルのためのメモリ効率の良い微調整手法であるTuneQDMを紹介する。
提案手法は, 単目的/多目的の両方の世代において, ベースラインを一貫して上回る。
論文 参考訳(メタデータ) (2024-01-09T03:42:08Z) - Post-training Quantization for Text-to-Image Diffusion Models with Progressive Calibration and Activation Relaxing [49.800746112114375]
本稿では,テキスト・画像拡散モデルのための学習後量子化手法(プログレッシブ・アンド・リラクシング)を提案する。
我々は,安定拡散XLの量子化を初めて達成し,その性能を維持した。
論文 参考訳(メタデータ) (2023-11-10T09:10:09Z) - Low-Light Image Enhancement with Wavelet-based Diffusion Models [50.632343822790006]
拡散モデルは画像復元作業において有望な結果を得たが、時間を要する、過剰な計算資源消費、不安定な復元に悩まされている。
本稿では,DiffLLと呼ばれる高能率かつ高能率な拡散型低光画像強調手法を提案する。
論文 参考訳(メタデータ) (2023-06-01T03:08:28Z) - Towards Accurate Post-training Quantization for Diffusion Models [73.19871905102545]
本稿では,効率的な画像生成のための拡散モデル(ADP-DM)の高精度なデータフリーポストトレーニング量子化フレームワークを提案する。
提案手法は, 拡散モデルの学習後の量子化を, 同様の計算コストで, 非常に大きなマージンで高速化する。
論文 参考訳(メタデータ) (2023-05-30T04:00:35Z) - Q-Diffusion: Quantizing Diffusion Models [52.978047249670276]
ポストトレーニング量子化(PTQ)は、他のタスクに対するゴーツー圧縮法であると考えられている。
本稿では,一意なマルチステップパイプラインとモデルアーキテクチャに適した新しいPTQ手法を提案する。
提案手法は,完全精度の非条件拡散モデルを同等の性能を維持しつつ4ビットに定量化できることを示す。
論文 参考訳(メタデータ) (2023-02-08T19:38:59Z) - How Much is Enough? A Study on Diffusion Times in Score-based Generative
Models [76.76860707897413]
現在のベストプラクティスは、フォワードダイナミクスが既知の単純なノイズ分布に十分に近づくことを確実にするために大きなTを提唱している。
本稿では, 理想とシミュレーションされたフォワードダイナミクスのギャップを埋めるために補助モデルを用いて, 標準的な逆拡散過程を導出する方法について述べる。
論文 参考訳(メタデータ) (2022-06-10T15:09:46Z) - DAQ: Distribution-Aware Quantization for Deep Image Super-Resolution
Networks [49.191062785007006]
画像超解像のための深い畳み込みニューラルネットワークの定量化は、計算コストを大幅に削減する。
既存の作業は、4ビット以下の超低精度の厳しい性能低下に苦しむか、または性能を回復するために重い微調整プロセスを必要とします。
高精度なトレーニングフリー量子化を実現する新しい分散認識量子化方式(DAQ)を提案する。
論文 参考訳(メタデータ) (2020-12-21T10:19:42Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。