論文の概要: EfficientDM: Efficient Quantization-Aware Fine-Tuning of Low-Bit
Diffusion Models
- arxiv url: http://arxiv.org/abs/2310.03270v2
- Date: Sat, 7 Oct 2023 05:45:47 GMT
- ステータス: 処理完了
- システム内更新日: 2023-10-12 19:31:19.804207
- Title: EfficientDM: Efficient Quantization-Aware Fine-Tuning of Low-Bit
Diffusion Models
- Title(参考訳): efficientdm:効率的な量子化-低ビット拡散モデルの微調整
- Authors: Yefei He, Jing Liu, Weijia Wu, Hong Zhou, Bohan Zhuang
- Abstract要約: ポストトレーニング量子化(PTQ)と量子化学習(QAT)は、拡散モデルを圧縮・加速する2つの主要なアプローチである。
我々は、PTQのような効率でQATレベルの性能を実現するために、EfficientDMと呼ばれる低ビット拡散モデルのためのデータフリーかつパラメータ効率の微調整フレームワークを導入する。
提案手法は, PTQに基づく拡散モデルにおいて, 同様の時間とデータ効率を保ちながら, 性能を著しく向上させる。
- 参考スコア(独自算出の注目度): 22.719395850773978
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Diffusion models have demonstrated remarkable capabilities in image synthesis
and related generative tasks. Nevertheless, their practicality for low-latency
real-world applications is constrained by substantial computational costs and
latency issues. Quantization is a dominant way to compress and accelerate
diffusion models, where post-training quantization (PTQ) and quantization-aware
training (QAT) are two main approaches, each bearing its own properties. While
PTQ exhibits efficiency in terms of both time and data usage, it may lead to
diminished performance in low bit-width. On the other hand, QAT can alleviate
performance degradation but comes with substantial demands on computational and
data resources. To capitalize on the advantages while avoiding their respective
drawbacks, we introduce a data-free and parameter-efficient fine-tuning
framework for low-bit diffusion models, dubbed EfficientDM, to achieve
QAT-level performance with PTQ-like efficiency. Specifically, we propose a
quantization-aware variant of the low-rank adapter (QALoRA) that can be merged
with model weights and jointly quantized to low bit-width. The fine-tuning
process distills the denoising capabilities of the full-precision model into
its quantized counterpart, eliminating the requirement for training data. We
also introduce scale-aware optimization and employ temporal learned step-size
quantization to further enhance performance. Extensive experimental results
demonstrate that our method significantly outperforms previous PTQ-based
diffusion models while maintaining similar time and data efficiency.
Specifically, there is only a marginal 0.05 sFID increase when quantizing both
weights and activations of LDM-4 to 4-bit on ImageNet 256x256. Compared to
QAT-based methods, our EfficientDM also boasts a 16.2x faster quantization
speed with comparable generation quality.
- Abstract(参考訳): 拡散モデルは画像合成と関連する生成タスクにおいて顕著な能力を示している。
しかしながら、低レイテンシな実世界のアプリケーションに対する実用性は、かなりの計算コストとレイテンシの問題によって制約されている。
量子化は拡散モデルを圧縮し加速する主要な方法であり、後学習量子化(PTQ)と量子化認識訓練(QAT)は2つの主要なアプローチであり、それぞれが独自の性質を持つ。
PTQは時間とデータの両方の効率を示すが、低ビット幅では性能が低下する可能性がある。
一方、QATはパフォーマンスの劣化を軽減することができるが、計算やデータリソースに対するかなりの要求がある。
それぞれの欠点を回避しつつ利点を生かし、低ビット拡散モデルのためのデータフリーでパラメータ効率の良い微調整フレームワーク、EfficientDMを導入し、PTQライクな効率でQATレベルの性能を実現する。
具体的には,低ランクアダプタ (QALoRA) の量子化を意識した変種を提案する。
微調整プロセスは、完全精度モデルの復調能力を定量化したものに蒸留し、データトレーニングの必要をなくす。
また, スケールアウェア最適化を導入し, 時間学習ステップサイズ量子化により, さらなる性能向上を図る。
実験結果から,本手法はPTQに基づく拡散モデルよりも有意に優れ,時間とデータ効率は良好であることがわかった。
具体的には、imagenet 256x256のldm-4から4ビットまでの重みとアクティベーションの両方を定量化すると0.05 sfidが増加するだけである。
QATベースの手法と比較して、EfficientDMは16.2倍高速な量子化速度で生成品質を比較できる。
関連論文リスト
- Compressing Recurrent Neural Networks for FPGA-accelerated Implementation in Fluorescence Lifetime Imaging [3.502427552446068]
ディープラーニングモデルはリアルタイム推論を可能にするが、複雑なアーキテクチャと大規模な行列演算のために計算的に要求される。
これにより、フィールドプログラマブルゲートアレイ(FPGA)ベースのカメラハードウェアの直接実装に不適なDLモデルが得られる。
本研究では,FLI時系列データ処理に適したリカレントニューラルネットワーク(RNN)の圧縮に着目し,資源制約付きFPGAボードへの展開を実現する。
論文 参考訳(メタデータ) (2024-10-01T17:23:26Z) - P4Q: Learning to Prompt for Quantization in Visual-language Models [38.87018242616165]
量子化のためのPrompt(P4Q)という,微調整と量子化のバランスをとる手法を提案する。
提案手法は,低ビット量子化による画像特徴とテキスト特徴とのギャップを効果的に低減することができる。
私たちの8ビットP4Qは理論上CLIP-ViT/B-32を4$times$で圧縮でき、Top-1の精度は66.94%である。
論文 参考訳(メタデータ) (2024-09-26T08:31:27Z) - DilateQuant: Accurate and Efficient Diffusion Quantization via Weight Dilation [3.78219736760145]
拡散モデルの量子化はモデルを圧縮し加速する有望な方法である。
既存の方法は、低ビット量子化のために、精度と効率の両方を同時に維持することはできない。
拡散モデルのための新しい量子化フレームワークであるDilateQuantを提案する。
論文 参考訳(メタデータ) (2024-09-22T04:21:29Z) - DiTAS: Quantizing Diffusion Transformers via Enhanced Activation Smoothing [5.174900115018253]
効率的な拡散変換器(DiT)のためのデータフリー後トレーニング量子化(PTQ)法を提案する。
DiTASは、入力アクティベーションにおけるチャネルワイド・アウトレイアの影響を軽減するために、時間的凝集平滑化手法が提案されている。
提案手法により,DiTの4ビット重み付き8ビットアクティベーション(W4A8)量子化が可能であり,全精度モデルとして同等の性能を維持した。
論文 参考訳(メタデータ) (2024-09-12T05:18:57Z) - Q-DiT: Accurate Post-Training Quantization for Diffusion Transformers [45.762142897697366]
後トレーニング量子化(PTQ)は、モデルサイズを圧縮し、事前トレーニングされたモデルの推論を高速化し、モデルの再トレーニングをなくし、有望なソリューションを提供する。
We have observed the existing PTQ framework designed for both ViT and conventional Diffusion model fall into biased Quantization and result result great performance degradation。
重みとアクティベーションの入力チャネル間の実質的な分散を管理するための微粒な量子化、量子化の粒度を最適化し冗長性を緩和する自動探索戦略、タイムステップ間でのアクティベーション変化を捉える動的アクティベーション量子化の3つの手法をシームレスに統合するQ-DiTを考案した。
論文 参考訳(メタデータ) (2024-06-25T07:57:27Z) - QuEST: Low-bit Diffusion Model Quantization via Efficient Selective Finetuning [52.157939524815866]
本稿では,現行手法の有効性を損なう量子拡散モデルの3つの特性を実証的に明らかにする。
重要な時間的情報を保持する層と、ビット幅の低減に敏感な層という、2つの重要なタイプの量子化層を同定する。
提案手法は,3つの高分解能画像生成タスクに対して評価し,様々なビット幅設定で最先端の性能を実現する。
論文 参考訳(メタデータ) (2024-02-06T03:39:44Z) - On-Chip Hardware-Aware Quantization for Mixed Precision Neural Networks [52.97107229149988]
エッジデバイス上でハードウェア対応の混合精度量子化を行うOn-Chipハードウェア・アウェア量子化フレームワークを提案する。
このパイプラインは、量子化プロセスが量子化演算子の実際のハードウェア効率を知覚することを可能にする。
精度測定のために,マルチチップシナリオにおける演算子の精度への影響を効果的に推定するMask-Guided Quantization Estimation技術を提案する。
論文 参考訳(メタデータ) (2023-09-05T04:39:34Z) - SqueezeLLM: Dense-and-Sparse Quantization [80.32162537942138]
LLMにおける生成推論の主なボトルネックは、単一のバッチ推論のための計算ではなく、メモリ帯域幅である。
学習後量子化フレームワークであるSqueezeLLMを導入し、最大3ビットの超低精度でのロスレス圧縮を実現する。
本フレームワークは,2次情報に基づく最適ビット精度割当を探索する感度ベース非一様量子化法と,2次情報に基づくDense-and-Sparse分解法と,2次情報量割当値と感度重み値を効率的にスパース形式で格納するDense-and-Sparse分解法である。
論文 参考訳(メタデータ) (2023-06-13T08:57:54Z) - Q-Diffusion: Quantizing Diffusion Models [52.978047249670276]
ポストトレーニング量子化(PTQ)は、他のタスクに対するゴーツー圧縮法であると考えられている。
本稿では,一意なマルチステップパイプラインとモデルアーキテクチャに適した新しいPTQ手法を提案する。
提案手法は,完全精度の非条件拡散モデルを同等の性能を維持しつつ4ビットに定量化できることを示す。
論文 参考訳(メタデータ) (2023-02-08T19:38:59Z) - Q-ASR: Integer-only Zero-shot Quantization for Efficient Speech
Recognition [65.7040645560855]
ASRモデルに対する整数のみのゼロショット量子化スキームであるQ-ASRを提案する。
全精度ベースラインモデルと比較すると,wrの変化は無視できる。
Q-ASRは、WER劣化が少ない4倍以上の圧縮率を示します。
論文 参考訳(メタデータ) (2021-03-31T06:05:40Z) - Fully Quantized Image Super-Resolution Networks [81.75002888152159]
効率と精度を両立させるためのフル量子化画像超解像フレームワーク(FQSR)を提案する。
我々は、SRResNet、SRGAN、EDSRを含む複数の主流超解像アーキテクチャに量子化スキームを適用した。
低ビット量子化を用いたFQSRは、5つのベンチマークデータセットの完全精度と比較すると、パー性能で実現できる。
論文 参考訳(メタデータ) (2020-11-29T03:53:49Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。