論文の概要: MixDQ: Memory-Efficient Few-Step Text-to-Image Diffusion Models with Metric-Decoupled Mixed Precision Quantization
- arxiv url: http://arxiv.org/abs/2405.17873v1
- Date: Tue, 28 May 2024 06:50:58 GMT
- ステータス: 処理完了
- システム内更新日: 2024-05-29 20:07:07.504903
- Title: MixDQ: Memory-Efficient Few-Step Text-to-Image Diffusion Models with Metric-Decoupled Mixed Precision Quantization
- Title(参考訳): MixDQ: メトリックデカップリング型混合精度量子化を用いたメモリ効率の良いFew-Stepテキスト-画像拡散モデル
- Authors: Tianchen Zhao, Xuefei Ning, Tongcheng Fang, Enshu Liu, Guyue Huang, Zinan Lin, Shengen Yan, Guohao Dai, Yu Wang,
- Abstract要約: 最近の数ステップの拡散モデルでは、デノナイジングステップを減らして推論時間を短縮している。
Post Training Quantization (PTQ)は、高ビット幅のFP表現を低ビット整数値に置き換える。
しかし、数ステップの拡散モデルに適用する場合、既存の量子化法は画質とテキストアライメントの両方を維持する上で困難に直面している。
- 参考スコア(独自算出の注目度): 16.83403134551842
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Diffusion models have achieved significant visual generation quality. However, their significant computational and memory costs pose challenge for their application on resource-constrained mobile devices or even desktop GPUs. Recent few-step diffusion models reduces the inference time by reducing the denoising steps. However, their memory consumptions are still excessive. The Post Training Quantization (PTQ) replaces high bit-width FP representation with low-bit integer values (INT4/8) , which is an effective and efficient technique to reduce the memory cost. However, when applying to few-step diffusion models, existing quantization methods face challenges in preserving both the image quality and text alignment. To address this issue, we propose an mixed-precision quantization framework - MixDQ. Firstly, We design specialized BOS-aware quantization method for highly sensitive text embedding quantization. Then, we conduct metric-decoupled sensitivity analysis to measure the sensitivity of each layer. Finally, we develop an integer-programming-based method to conduct bit-width allocation. While existing quantization methods fall short at W8A8, MixDQ could achieve W8A8 without performance loss, and W4A8 with negligible visual degradation. Compared with FP16, we achieve 3-4x reduction in model size and memory cost, and 1.45x latency speedup.
- Abstract(参考訳): 拡散モデルは視覚的生成の質を著しく向上させた。
しかし、その計算とメモリの大幅なコストは、リソースに制約のあるモバイルデバイスやデスクトップGPUでも、その応用に挑戦する。
最近の数ステップの拡散モデルでは、デノナイジングステップを減らして推論時間を短縮する。
しかし、メモリ消費は依然として過大である。
ポストトレーニング量子化(PTQ)は、高ビット幅のFP表現を低ビット整数値(INT4/8)に置き換える。
しかし、数ステップの拡散モデルに適用する場合、既存の量子化法は画質とテキストアライメントの両方を維持する上で困難に直面している。
この問題に対処するために、混合精度量子化フレームワークであるMixDQを提案する。
まず,高感度テキスト埋め込み量子化のための特殊なBOS対応量子化法を設計する。
次に,各層の感度を測定するために,距離分離感度解析を行う。
最後に,ビット幅割り当てを行う整数型プログラミング手法を開発した。
既存の量子化手法はW8A8では不足するが、MixDQは性能を損なわずにW8A8を達成でき、W4A8は視界の劣化を無視できる。
FP16と比較すると,モデルサイズとメモリコストの3~4倍の削減,レイテンシの1.45倍の高速化を実現している。
関連論文リスト
- PassionSR: Post-Training Quantization with Adaptive Scale in One-Step Diffusion based Image Super-Resolution [87.89013794655207]
拡散に基づく画像超解像(SR)モデルでは、複数のデノナイジングステップのコストで優れた性能を示す。
本稿では,一段階拡散(OSD)画像SR,PassionSRにおける適応スケールの学習後量子化手法を提案する。
我々のPassionSRは、画像SRの最近の先進的な低ビット量子化法に対して大きな利点がある。
論文 参考訳(メタデータ) (2024-11-26T04:49:42Z) - Low-Bitwidth Floating Point Quantization for Efficient High-Quality Diffusion Models [2.926259075657424]
拡散モデルは、ディープニューラルネットワークを用いてランダムガウスノイズを反復的にデノベートすることで画像を生成する。
近年の研究では、拡散モデルに対する低ビット幅(例:8ビットまたは4ビット)の量子化が提案されているが、4ビットの整数量子化は典型的には低画質の画像をもたらす。
本稿では,整数量子化法と比較して画像品質がよい拡散モデルのための効果的な浮動小数点量子化法を提案する。
論文 参考訳(メタデータ) (2024-08-13T15:56:20Z) - ViDiT-Q: Efficient and Accurate Quantization of Diffusion Transformers for Image and Video Generation [23.00085349135532]
ポストトレーニング量子化(PTQ)は、メモリコストと計算複雑性を低減する効果的な方法である。
既存の拡散量子化手法をU-Netに適用することは品質維持の課題に直面している。
我々は、新しい距離分離型混合精度量子化法(ViDiT-Q-MP)により、ViDiT-Qを改善する。
論文 参考訳(メタデータ) (2024-06-04T17:57:10Z) - EfficientDM: Efficient Quantization-Aware Fine-Tuning of Low-Bit Diffusion Models [21.17675493267517]
ポストトレーニング量子化(PTQ)と量子化学習(QAT)は、拡散モデルを圧縮・加速する2つの主要なアプローチである。
我々は、PTQのような効率でQATレベルの性能を実現するために、EfficientDMと呼ばれる低ビット拡散モデルのためのデータフリーかつパラメータ効率の微調整フレームワークを導入する。
提案手法は, PTQに基づく拡散モデルにおいて, 同様の時間とデータ効率を保ちながら, 性能を著しく向上させる。
論文 参考訳(メタデータ) (2023-10-05T02:51:53Z) - DeepGEMM: Accelerated Ultra Low-Precision Inference on CPU Architectures
using Lookup Tables [49.965024476651706]
DeepGEMMはSIMDハードウェア上で超高精度畳み込みニューラルネットワークを実行するためのルックアップテーブルベースのアプローチである。
実装は、x86プラットフォーム上で、対応する8ビット整数カーネルを最大1.74倍の性能で上回る。
論文 参考訳(メタデータ) (2023-04-18T15:13:10Z) - F8Net: Fixed-Point 8-bit Only Multiplication for Network Quantization [47.403304754934155]
固定点8ビット乗算のみからなる新しい量子化フレームワークF8Netを提案する。
提案手法は,既存の量子化手法と比較して,同等かつ優れた性能を実現する。
論文 参考訳(メタデータ) (2022-02-10T18:48:56Z) - 8-bit Optimizers via Block-wise Quantization [57.25800395197516]
ステートフルズは、例えば過去の値の指数的滑らかな和(運動量付きSGD)や2乗和(アダム)など、時間の経過とともに統計を維持している。
この状態は、通常の勾配降下よりも最適化を加速するために使用することができるが、そうでなければモデルパラメータに割り当てられる可能性のあるメモリを使用する。
本稿では,32ビットの勾配状態を用いた場合の性能レベルを維持しながら,8ビット統計を用いた第1次勾配法を開発する。
論文 参考訳(メタデータ) (2021-10-06T15:43:20Z) - Q-ASR: Integer-only Zero-shot Quantization for Efficient Speech
Recognition [65.7040645560855]
ASRモデルに対する整数のみのゼロショット量子化スキームであるQ-ASRを提案する。
全精度ベースラインモデルと比較すると,wrの変化は無視できる。
Q-ASRは、WER劣化が少ない4倍以上の圧縮率を示します。
論文 参考訳(メタデータ) (2021-03-31T06:05:40Z) - HAWQV3: Dyadic Neural Network Quantization [73.11579145354801]
現在の低精度量子化アルゴリズムは、浮動小数点から量子化された整数値への変換の隠れコストを持つことが多い。
HAWQV3は、新しい混合精度整数のみの量子化フレームワークである。
論文 参考訳(メタデータ) (2020-11-20T23:51:43Z) - Leveraging Automated Mixed-Low-Precision Quantization for tiny edge
microcontrollers [76.30674794049293]
本稿では、HAQフレームワークに基づく自動混合精度量子化フローを提案するが、MCUデバイスのメモリおよび計算特性に特化している。
具体的には、強化学習エージェントは、個々の重みとアクティベーションテンソルの2, 4, 8ビットのうち、最高の均一量子化レベルを探索する。
重量のみの量子化のために2MBに制限されたMCUクラスのメモリが与えられた場合、混合精度エンジンによって生成された圧縮されたモデルは、最先端のソリューションと同じくらい正確である。
論文 参考訳(メタデータ) (2020-08-12T06:09:58Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。