論文の概要: An Analysis on Quantizing Diffusion Transformers
- arxiv url: http://arxiv.org/abs/2406.11100v1
- Date: Sun, 16 Jun 2024 23:18:35 GMT
- ステータス: 処理完了
- システム内更新日: 2024-06-18 19:03:42.116810
- Title: An Analysis on Quantizing Diffusion Transformers
- Title(参考訳): 拡散変圧器の量子化に関する検討
- Authors: Yuewei Yang, Jialiang Wang, Xiaoliang Dai, Peizhao Zhang, Hongbo Zhang,
- Abstract要約: ポストトレーニング量子化(PTQ)は、より小さなストレージサイズと推論時のメモリ効率の高い計算に対する即時対策を提供する。
低ビット量子化のために,アクティベーションの単一ステップサンプリング校正と重みのグループワイド量子化を提案する。
- 参考スコア(独自算出の注目度): 19.520194468481655
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Diffusion Models (DMs) utilize an iterative denoising process to transform random noise into synthetic data. Initally proposed with a UNet structure, DMs excel at producing images that are virtually indistinguishable with or without conditioned text prompts. Later transformer-only structure is composed with DMs to achieve better performance. Though Latent Diffusion Models (LDMs) reduce the computational requirement by denoising in a latent space, it is extremely expensive to inference images for any operating devices due to the shear volume of parameters and feature sizes. Post Training Quantization (PTQ) offers an immediate remedy for a smaller storage size and more memory-efficient computation during inferencing. Prior works address PTQ of DMs on UNet structures have addressed the challenges in calibrating parameters for both activations and weights via moderate optimization. In this work, we pioneer an efficient PTQ on transformer-only structure without any optimization. By analysing challenges in quantizing activations and weights for diffusion transformers, we propose a single-step sampling calibration on activations and adapt group-wise quantization on weights for low-bit quantization. We demonstrate the efficiency and effectiveness of proposed methods with preliminary experiments on conditional image generation.
- Abstract(参考訳): 拡散モデル (DM) は、ランダムノイズを合成データに変換するために反復的復調法を用いる。
UNet構造で最初に提案されたDMは、条件付きテキストプロンプトとほぼ区別できない画像を生成するのに優れている。
後にトランスのみの構造がDMで構成され、性能が向上する。
遅延拡散モデル(LDMs)は、遅延空間でノイズを発生させることによって計算要求を低減させるが、パラメータのせん断量や特徴サイズのため、任意のオペレーティングシステムのイメージを推測することは極めて高価である。
ポストトレーニング量子化(PTQ)は、より小さなストレージサイズと推論時のメモリ効率の高い計算に対する即時対策を提供する。
UNet構造上のDMのPTQに対処する以前の研究は、適度な最適化によってアクティベーションとウェイトの両方のパラメータを校正する際の課題に対処してきた。
本研究では,変圧器のみの構造を最適化せずに効率的なPTQを考案する。
拡散変圧器のアクティベーションと重みの定量化の課題を分析することにより、活性化の単一ステップサンプリングキャリブレーションと、低ビット量子化のための重みのグループワイド量子化を提案する。
条件付き画像生成における予備実験による提案手法の有効性と有効性を示す。
関連論文リスト
- PassionSR: Post-Training Quantization with Adaptive Scale in One-Step Diffusion based Image Super-Resolution [87.89013794655207]
拡散に基づく画像超解像(SR)モデルでは、複数のデノナイジングステップのコストで優れた性能を示す。
本稿では,一段階拡散(OSD)画像SR,PassionSRにおける適応スケールの学習後量子化手法を提案する。
我々のPassionSRは、画像SRの最近の先進的な低ビット量子化法に対して大きな利点がある。
論文 参考訳(メタデータ) (2024-11-26T04:49:42Z) - DiTAS: Quantizing Diffusion Transformers via Enhanced Activation Smoothing [5.174900115018253]
効率的な拡散変換器(DiT)のためのデータフリー後トレーニング量子化(PTQ)法を提案する。
DiTASは、入力アクティベーションにおけるチャネルワイド・アウトレイアの影響を軽減するために、時間的凝集平滑化手法が提案されている。
提案手法により,DiTの4ビット重み付き8ビットアクティベーション(W4A8)量子化が可能であり,全精度モデルとして同等の性能を維持した。
論文 参考訳(メタデータ) (2024-09-12T05:18:57Z) - RepQuant: Towards Accurate Post-Training Quantization of Large
Transformer Models via Scale Reparameterization [8.827794405944637]
ポストトレーニング量子化(PTQ)は、大きなトランスモデルを圧縮するための有望な解である。
既存のPTQメソッドは、通常、非自明な性能損失を示す。
本稿では、量子化推論デカップリングパラダイムを備えた新しいPTQフレームワークRepQuantを提案する。
論文 参考訳(メタデータ) (2024-02-08T12:35:41Z) - Post-training Quantization for Text-to-Image Diffusion Models with Progressive Calibration and Activation Relaxing [49.800746112114375]
本稿では,テキスト・画像拡散モデルのための学習後量子化手法(プログレッシブ・アンド・リラクシング)を提案する。
我々は,安定拡散XLの量子化を初めて達成し,その性能を維持した。
論文 参考訳(メタデータ) (2023-11-10T09:10:09Z) - EfficientDM: Efficient Quantization-Aware Fine-Tuning of Low-Bit Diffusion Models [21.17675493267517]
ポストトレーニング量子化(PTQ)と量子化学習(QAT)は、拡散モデルを圧縮・加速する2つの主要なアプローチである。
我々は、PTQのような効率でQATレベルの性能を実現するために、EfficientDMと呼ばれる低ビット拡散モデルのためのデータフリーかつパラメータ効率の微調整フレームワークを導入する。
提案手法は, PTQに基づく拡散モデルにおいて, 同様の時間とデータ効率を保ちながら, 性能を著しく向上させる。
論文 参考訳(メタデータ) (2023-10-05T02:51:53Z) - One-Dimensional Deep Image Prior for Curve Fitting of S-Parameters from
Electromagnetic Solvers [57.441926088870325]
Deep Image Prior(ディープ・イメージ・プライオリ、ディープ・イメージ・プライオリ、DIP)は、ランダムなd畳み込みニューラルネットワークの重みを最適化し、ノイズや過度な測定値からの信号に適合させる技術である。
本稿では,Vector Fitting (VF) の実装に対して,ほぼすべてのテスト例において優れた性能を示す。
論文 参考訳(メタデータ) (2023-06-06T20:28:37Z) - PreQuant: A Task-agnostic Quantization Approach for Pre-trained Language
Models [52.09865918265002]
ファインチューニングのフレームワークPreQuantに先立って,新しい量子化を提案する。
PreQuantは様々な量子化戦略と互換性があり、インダクションされた量子化誤差を修正するために、アウタリア対応の微調整が組み込まれている。
BERT,RoBERTa,T5を用いたGLUEベンチマークにおけるPreQuantの有効性を示す。
論文 参考訳(メタデータ) (2023-05-30T08:41:33Z) - Q-Diffusion: Quantizing Diffusion Models [52.978047249670276]
ポストトレーニング量子化(PTQ)は、他のタスクに対するゴーツー圧縮法であると考えられている。
本稿では,一意なマルチステップパイプラインとモデルアーキテクチャに適した新しいPTQ手法を提案する。
提案手法は,完全精度の非条件拡散モデルを同等の性能を維持しつつ4ビットに定量化できることを示す。
論文 参考訳(メタデータ) (2023-02-08T19:38:59Z) - NoisyQuant: Noisy Bias-Enhanced Post-Training Activation Quantization
for Vision Transformers [53.85087932591237]
NoisyQuantは、視覚変換器のトレーニング後のアクティベーション量子化性能に対する量子化器に依存しない拡張である。
理論的な洞察に基づいて、NoisyQuantは重い尾の活性化分布を積極的に変化させる最初の成功を達成している。
NoisyQuantは、最小の計算オーバーヘッドで視覚変換器のトレーニング後の量子化性能を大幅に改善する。
論文 参考訳(メタデータ) (2022-11-29T10:02:09Z) - Understanding and Overcoming the Challenges of Efficient Transformer
Quantization [17.05322956052278]
トランスフォーマーベースのアーキテクチャは、幅広い自然言語処理タスクのデファクト標準モデルとなっている。
しかしながら、メモリフットプリントと高いレイテンシは、リソース制限されたデバイスへの効率的なデプロイメントと推論を禁止している。
変換器にはユニークな量子化の課題があり、すなわち、低ビットの固定点フォーマットで表すのが難しいハイダイナミックなアクティベーション範囲があることが示される。
論文 参考訳(メタデータ) (2021-09-27T10:57:18Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。