論文の概要: An Analysis on Quantizing Diffusion Transformers
- arxiv url: http://arxiv.org/abs/2406.11100v1
- Date: Sun, 16 Jun 2024 23:18:35 GMT
- ステータス: 処理完了
- システム内更新日: 2024-06-18 19:03:42.116810
- Title: An Analysis on Quantizing Diffusion Transformers
- Title(参考訳): 拡散変圧器の量子化に関する検討
- Authors: Yuewei Yang, Jialiang Wang, Xiaoliang Dai, Peizhao Zhang, Hongbo Zhang,
- Abstract要約: ポストトレーニング量子化(PTQ)は、より小さなストレージサイズと推論時のメモリ効率の高い計算に対する即時対策を提供する。
低ビット量子化のために,アクティベーションの単一ステップサンプリング校正と重みのグループワイド量子化を提案する。
- 参考スコア(独自算出の注目度): 19.520194468481655
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Diffusion Models (DMs) utilize an iterative denoising process to transform random noise into synthetic data. Initally proposed with a UNet structure, DMs excel at producing images that are virtually indistinguishable with or without conditioned text prompts. Later transformer-only structure is composed with DMs to achieve better performance. Though Latent Diffusion Models (LDMs) reduce the computational requirement by denoising in a latent space, it is extremely expensive to inference images for any operating devices due to the shear volume of parameters and feature sizes. Post Training Quantization (PTQ) offers an immediate remedy for a smaller storage size and more memory-efficient computation during inferencing. Prior works address PTQ of DMs on UNet structures have addressed the challenges in calibrating parameters for both activations and weights via moderate optimization. In this work, we pioneer an efficient PTQ on transformer-only structure without any optimization. By analysing challenges in quantizing activations and weights for diffusion transformers, we propose a single-step sampling calibration on activations and adapt group-wise quantization on weights for low-bit quantization. We demonstrate the efficiency and effectiveness of proposed methods with preliminary experiments on conditional image generation.
- Abstract(参考訳): 拡散モデル (DM) は、ランダムノイズを合成データに変換するために反復的復調法を用いる。
UNet構造で最初に提案されたDMは、条件付きテキストプロンプトとほぼ区別できない画像を生成するのに優れている。
後にトランスのみの構造がDMで構成され、性能が向上する。
遅延拡散モデル(LDMs)は、遅延空間でノイズを発生させることによって計算要求を低減させるが、パラメータのせん断量や特徴サイズのため、任意のオペレーティングシステムのイメージを推測することは極めて高価である。
ポストトレーニング量子化(PTQ)は、より小さなストレージサイズと推論時のメモリ効率の高い計算に対する即時対策を提供する。
UNet構造上のDMのPTQに対処する以前の研究は、適度な最適化によってアクティベーションとウェイトの両方のパラメータを校正する際の課題に対処してきた。
本研究では,変圧器のみの構造を最適化せずに効率的なPTQを考案する。
拡散変圧器のアクティベーションと重みの定量化の課題を分析することにより、活性化の単一ステップサンプリングキャリブレーションと、低ビット量子化のための重みのグループワイド量子化を提案する。
条件付き画像生成における予備実験による提案手法の有効性と有効性を示す。
関連論文リスト
- RoSTE: An Efficient Quantization-Aware Supervised Fine-Tuning Approach for Large Language Models [95.32315448601241]
本稿では,RoSTE (Rotated Straight-Through-Estimator) というアルゴリズムを提案する。
RoSTEは、量子化を意識した微調整(QA-SFT)と適応的な回転戦略を組み合わせることで、アクティベーションアウトリーを減少させる。
その結果, 予測誤差は収束重みの量子化誤差と直接比例し, 最適化された回転構成により効果的に管理できることが判明した。
論文 参考訳(メタデータ) (2025-02-13T06:44:33Z) - TQ-DiT: Efficient Time-Aware Quantization for Diffusion Transformers [3.389132862174821]
モデルの量子化は、より低い精度で重みとアクティベーション値を表す。
時間群量子化(TGQ)は、アクティベーションの時間的変動に起因する量子化誤差を低減するために提案される。
提案アルゴリズムは,W8A8でFIDが0.29増加し,元の完全精度モデルに匹敵する性能を実現する。
論文 参考訳(メタデータ) (2025-02-06T13:14:52Z) - MPQ-DM: Mixed Precision Quantization for Extremely Low Bit Diffusion Models [37.061975191553]
本稿では,拡散モデルのための混合精度量子化法MPQ-DMを提案する。
重み付き外周波による量子化誤差を軽減するために,外周波混合量子化手法を提案する。
時間ステップを横断する表現を頑健に学習するために,時間-平滑な関係蒸留方式を構築した。
論文 参考訳(メタデータ) (2024-12-16T08:31:55Z) - PassionSR: Post-Training Quantization with Adaptive Scale in One-Step Diffusion based Image Super-Resolution [95.98801201266099]
拡散に基づく画像超解像(SR)モデルでは、複数のデノナイジングステップのコストで優れた性能を示す。
本稿では,一段階拡散(OSD)画像SR,PassionSRにおける適応スケールの学習後量子化手法を提案する。
我々のPassionSRは、画像SRの最近の先進的な低ビット量子化法に対して大きな利点がある。
論文 参考訳(メタデータ) (2024-11-26T04:49:42Z) - DiTAS: Quantizing Diffusion Transformers via Enhanced Activation Smoothing [5.174900115018253]
効率的な拡散変換器(DiT)のためのデータフリー後トレーニング量子化(PTQ)法を提案する。
DiTASは、入力アクティベーションにおけるチャネルワイド・アウトレイアの影響を軽減するために、時間的凝集平滑化手法が提案されている。
提案手法により,DiTの4ビット重み付き8ビットアクティベーション(W4A8)量子化が可能であり,全精度モデルとして同等の性能を維持した。
論文 参考訳(メタデータ) (2024-09-12T05:18:57Z) - RepQuant: Towards Accurate Post-Training Quantization of Large
Transformer Models via Scale Reparameterization [8.827794405944637]
ポストトレーニング量子化(PTQ)は、大きなトランスモデルを圧縮するための有望な解である。
既存のPTQメソッドは、通常、非自明な性能損失を示す。
本稿では、量子化推論デカップリングパラダイムを備えた新しいPTQフレームワークRepQuantを提案する。
論文 参考訳(メタデータ) (2024-02-08T12:35:41Z) - One-Dimensional Deep Image Prior for Curve Fitting of S-Parameters from
Electromagnetic Solvers [57.441926088870325]
Deep Image Prior(ディープ・イメージ・プライオリ、ディープ・イメージ・プライオリ、DIP)は、ランダムなd畳み込みニューラルネットワークの重みを最適化し、ノイズや過度な測定値からの信号に適合させる技術である。
本稿では,Vector Fitting (VF) の実装に対して,ほぼすべてのテスト例において優れた性能を示す。
論文 参考訳(メタデータ) (2023-06-06T20:28:37Z) - PreQuant: A Task-agnostic Quantization Approach for Pre-trained Language
Models [52.09865918265002]
ファインチューニングのフレームワークPreQuantに先立って,新しい量子化を提案する。
PreQuantは様々な量子化戦略と互換性があり、インダクションされた量子化誤差を修正するために、アウタリア対応の微調整が組み込まれている。
BERT,RoBERTa,T5を用いたGLUEベンチマークにおけるPreQuantの有効性を示す。
論文 参考訳(メタデータ) (2023-05-30T08:41:33Z) - Q-Diffusion: Quantizing Diffusion Models [52.978047249670276]
ポストトレーニング量子化(PTQ)は、他のタスクに対するゴーツー圧縮法であると考えられている。
本稿では,一意なマルチステップパイプラインとモデルアーキテクチャに適した新しいPTQ手法を提案する。
提案手法は,完全精度の非条件拡散モデルを同等の性能を維持しつつ4ビットに定量化できることを示す。
論文 参考訳(メタデータ) (2023-02-08T19:38:59Z) - NoisyQuant: Noisy Bias-Enhanced Post-Training Activation Quantization
for Vision Transformers [53.85087932591237]
NoisyQuantは、視覚変換器のトレーニング後のアクティベーション量子化性能に対する量子化器に依存しない拡張である。
理論的な洞察に基づいて、NoisyQuantは重い尾の活性化分布を積極的に変化させる最初の成功を達成している。
NoisyQuantは、最小の計算オーバーヘッドで視覚変換器のトレーニング後の量子化性能を大幅に改善する。
論文 参考訳(メタデータ) (2022-11-29T10:02:09Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。