論文の概要: EfficientDM: Efficient Quantization-Aware Fine-Tuning of Low-Bit Diffusion Models
- arxiv url: http://arxiv.org/abs/2310.03270v4
- Date: Sat, 13 Apr 2024 07:33:57 GMT
- ステータス: 処理完了
- システム内更新日: 2024-04-16 23:37:19.128264
- Title: EfficientDM: Efficient Quantization-Aware Fine-Tuning of Low-Bit Diffusion Models
- Title(参考訳): EfficientDM:低ビット拡散モデルの高効率量子化による微調整
- Authors: Yefei He, Jing Liu, Weijia Wu, Hong Zhou, Bohan Zhuang,
- Abstract要約: ポストトレーニング量子化(PTQ)と量子化学習(QAT)は、拡散モデルを圧縮・加速する2つの主要なアプローチである。
我々は、PTQのような効率でQATレベルの性能を実現するために、EfficientDMと呼ばれる低ビット拡散モデルのためのデータフリーかつパラメータ効率の微調整フレームワークを導入する。
提案手法は, PTQに基づく拡散モデルにおいて, 同様の時間とデータ効率を保ちながら, 性能を著しく向上させる。
- 参考スコア(独自算出の注目度): 21.17675493267517
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Diffusion models have demonstrated remarkable capabilities in image synthesis and related generative tasks. Nevertheless, their practicality for real-world applications is constrained by substantial computational costs and latency issues. Quantization is a dominant way to compress and accelerate diffusion models, where post-training quantization (PTQ) and quantization-aware training (QAT) are two main approaches, each bearing its own properties. While PTQ exhibits efficiency in terms of both time and data usage, it may lead to diminished performance in low bit-width. On the other hand, QAT can alleviate performance degradation but comes with substantial demands on computational and data resources. In this paper, we introduce a data-free and parameter-efficient fine-tuning framework for low-bit diffusion models, dubbed EfficientDM, to achieve QAT-level performance with PTQ-like efficiency. Specifically, we propose a quantization-aware variant of the low-rank adapter (QALoRA) that can be merged with model weights and jointly quantized to low bit-width. The fine-tuning process distills the denoising capabilities of the full-precision model into its quantized counterpart, eliminating the requirement for training data. We also introduce scale-aware optimization and temporal learned step-size quantization to further enhance performance. Extensive experimental results demonstrate that our method significantly outperforms previous PTQ-based diffusion models while maintaining similar time and data efficiency. Specifically, there is only a 0.05 sFID increase when quantizing both weights and activations of LDM-4 to 4-bit on ImageNet 256x256. Compared to QAT-based methods, our EfficientDM also boasts a 16.2x faster quantization speed with comparable generation quality. Code is available at \href{https://github.com/ThisisBillhe/EfficientDM}{this hrl}.
- Abstract(参考訳): 拡散モデルは、画像合成と関連する生成タスクにおいて顕著な機能を示した。
それでも、現実世界のアプリケーションの実用性は、かなりの計算コストとレイテンシの問題に制約されている。
量子化は拡散モデルを圧縮し加速する主要な方法であり、後学習量子化(PTQ)と量子化認識訓練(QAT)は2つの主要なアプローチであり、それぞれが独自の性質を持つ。
PTQは時間とデータ使用量の両方で効率を示すが、低ビット幅では性能が低下する可能性がある。
一方、QATはパフォーマンスの劣化を緩和できるが、計算やデータリソースにはかなりの需要がある。
本稿では、PTQのような効率でQATレベルの性能を実現するために、EfficientDMと呼ばれる低ビット拡散モデルのためのデータフリーかつパラメータ効率の微調整フレームワークを提案する。
具体的には,低ランクアダプタ (QALoRA) の量子化を意識した変種を提案する。
微調整プロセスは、完全精度モデルの復調能力を定量化したものに蒸留し、データトレーニングの必要をなくす。
また,性能向上のために,スケールアウェア最適化と時間学習ステップサイズ量子化を導入している。
実験結果から, PTQに基づく拡散モデルでは, 同様の時間とデータ効率を保ちながら, 従来よりも有意に優れていたことが示唆された。
具体的には、 ImageNet 256x256 上で LDM-4 の重量と 4-bit へのアクティベーションを定量化する場合、 0.05 sFID の増加しか存在しない。
QATベースの手法と比較して、EfficientDMは16.2倍高速な量子化速度を持ち、生成品質は同等です。
コードは \href{https://github.com/ThisisBillhe/EfficientDM}{this hrl} で公開されている。
関連論文リスト
- Compressing Recurrent Neural Networks for FPGA-accelerated Implementation in Fluorescence Lifetime Imaging [3.502427552446068]
ディープラーニングモデルはリアルタイム推論を可能にするが、複雑なアーキテクチャと大規模な行列演算のために計算的に要求される。
これにより、フィールドプログラマブルゲートアレイ(FPGA)ベースのカメラハードウェアの直接実装に不適なDLモデルが得られる。
本研究では,FLI時系列データ処理に適したリカレントニューラルネットワーク(RNN)の圧縮に着目し,資源制約付きFPGAボードへの展開を実現する。
論文 参考訳(メタデータ) (2024-10-01T17:23:26Z) - P4Q: Learning to Prompt for Quantization in Visual-language Models [38.87018242616165]
量子化のためのPrompt(P4Q)という,微調整と量子化のバランスをとる手法を提案する。
提案手法は,低ビット量子化による画像特徴とテキスト特徴とのギャップを効果的に低減することができる。
私たちの8ビットP4Qは理論上CLIP-ViT/B-32を4$times$で圧縮でき、Top-1の精度は66.94%である。
論文 参考訳(メタデータ) (2024-09-26T08:31:27Z) - DilateQuant: Accurate and Efficient Diffusion Quantization via Weight Dilation [3.78219736760145]
拡散モデルの量子化はモデルを圧縮し加速する有望な方法である。
既存の方法は、低ビット量子化のために、精度と効率の両方を同時に維持することはできない。
拡散モデルのための新しい量子化フレームワークであるDilateQuantを提案する。
論文 参考訳(メタデータ) (2024-09-22T04:21:29Z) - DiTAS: Quantizing Diffusion Transformers via Enhanced Activation Smoothing [5.174900115018253]
効率的な拡散変換器(DiT)のためのデータフリー後トレーニング量子化(PTQ)法を提案する。
DiTASは、入力アクティベーションにおけるチャネルワイド・アウトレイアの影響を軽減するために、時間的凝集平滑化手法が提案されている。
提案手法により,DiTの4ビット重み付き8ビットアクティベーション(W4A8)量子化が可能であり,全精度モデルとして同等の性能を維持した。
論文 参考訳(メタデータ) (2024-09-12T05:18:57Z) - QuEST: Low-bit Diffusion Model Quantization via Efficient Selective Finetuning [52.157939524815866]
本稿では,現行手法の有効性を損なう量子拡散モデルの3つの特性を実証的に明らかにする。
重要な時間的情報を保持する層と、ビット幅の低減に敏感な層という、2つの重要なタイプの量子化層を同定する。
提案手法は,3つの高分解能画像生成タスクに対して評価し,様々なビット幅設定で最先端の性能を実現する。
論文 参考訳(メタデータ) (2024-02-06T03:39:44Z) - On-Chip Hardware-Aware Quantization for Mixed Precision Neural Networks [52.97107229149988]
エッジデバイス上でハードウェア対応の混合精度量子化を行うOn-Chipハードウェア・アウェア量子化フレームワークを提案する。
このパイプラインは、量子化プロセスが量子化演算子の実際のハードウェア効率を知覚することを可能にする。
精度測定のために,マルチチップシナリオにおける演算子の精度への影響を効果的に推定するMask-Guided Quantization Estimation技術を提案する。
論文 参考訳(メタデータ) (2023-09-05T04:39:34Z) - SqueezeLLM: Dense-and-Sparse Quantization [80.32162537942138]
LLMにおける生成推論の主なボトルネックは、単一のバッチ推論のための計算ではなく、メモリ帯域幅である。
学習後量子化フレームワークであるSqueezeLLMを導入し、最大3ビットの超低精度でのロスレス圧縮を実現する。
本フレームワークは,2次情報に基づく最適ビット精度割当を探索する感度ベース非一様量子化法と,2次情報に基づくDense-and-Sparse分解法と,2次情報量割当値と感度重み値を効率的にスパース形式で格納するDense-and-Sparse分解法である。
論文 参考訳(メタデータ) (2023-06-13T08:57:54Z) - Q-Diffusion: Quantizing Diffusion Models [52.978047249670276]
ポストトレーニング量子化(PTQ)は、他のタスクに対するゴーツー圧縮法であると考えられている。
本稿では,一意なマルチステップパイプラインとモデルアーキテクチャに適した新しいPTQ手法を提案する。
提案手法は,完全精度の非条件拡散モデルを同等の性能を維持しつつ4ビットに定量化できることを示す。
論文 参考訳(メタデータ) (2023-02-08T19:38:59Z) - Q-ASR: Integer-only Zero-shot Quantization for Efficient Speech
Recognition [65.7040645560855]
ASRモデルに対する整数のみのゼロショット量子化スキームであるQ-ASRを提案する。
全精度ベースラインモデルと比較すると,wrの変化は無視できる。
Q-ASRは、WER劣化が少ない4倍以上の圧縮率を示します。
論文 参考訳(メタデータ) (2021-03-31T06:05:40Z) - Fully Quantized Image Super-Resolution Networks [81.75002888152159]
効率と精度を両立させるためのフル量子化画像超解像フレームワーク(FQSR)を提案する。
我々は、SRResNet、SRGAN、EDSRを含む複数の主流超解像アーキテクチャに量子化スキームを適用した。
低ビット量子化を用いたFQSRは、5つのベンチマークデータセットの完全精度と比較すると、パー性能で実現できる。
論文 参考訳(メタデータ) (2020-11-29T03:53:49Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。