論文の概要: Accurate Compression of Text-to-Image Diffusion Models via Vector Quantization
- arxiv url: http://arxiv.org/abs/2409.00492v1
- Date: Sat, 31 Aug 2024 16:09:20 GMT
- ステータス: 処理完了
- システム内更新日: 2024-09-06 14:39:09.383510
- Title: Accurate Compression of Text-to-Image Diffusion Models via Vector Quantization
- Title(参考訳): ベクトル量子化によるテキスト・画像拡散モデルの高精度圧縮
- Authors: Vage Egiazarian, Denis Kuznedelev, Anton Voronov, Ruslan Svirschevski, Michael Goin, Daniil Pavlov, Dan Alistarh, Dmitry Baranchuk,
- Abstract要約: 最先端のテキスト・トゥ・イメージモデルは、実際はアクセスしにくくなっている。
後学習量子化(PTQ)は、事前訓練されたモデルの重みを低ビット表現に圧縮することでこの問題に対処する。
この研究は、より汎用的なベクトル量子化(VQ)が大規模テキスト・画像拡散モデルに対して高い圧縮率を達成することを実証している。
- 参考スコア(独自算出の注目度): 33.20136645196318
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Text-to-image diffusion models have emerged as a powerful framework for high-quality image generation given textual prompts. Their success has driven the rapid development of production-grade diffusion models that consistently increase in size and already contain billions of parameters. As a result, state-of-the-art text-to-image models are becoming less accessible in practice, especially in resource-limited environments. Post-training quantization (PTQ) tackles this issue by compressing the pretrained model weights into lower-bit representations. Recent diffusion quantization techniques primarily rely on uniform scalar quantization, providing decent performance for the models compressed to 4 bits. This work demonstrates that more versatile vector quantization (VQ) may achieve higher compression rates for large-scale text-to-image diffusion models. Specifically, we tailor vector-based PTQ methods to recent billion-scale text-to-image models (SDXL and SDXL-Turbo), and show that the diffusion models of 2B+ parameters compressed to around 3 bits using VQ exhibit the similar image quality and textual alignment as previous 4-bit compression techniques.
- Abstract(参考訳): テキスト・ツー・イメージ拡散モデルはテキスト・プロンプトを与えられた高品質な画像生成のための強力なフレームワークとして登場してきた。
彼らの成功は、常にサイズが増加し、既に数十億のパラメータを含む生産段階の拡散モデルの急速な発展を招いた。
結果として、特にリソース制限された環境では、最先端のテキスト・画像モデルが現実にはアクセスしにくくなっている。
後学習量子化(PTQ)は、事前訓練されたモデルの重みを低ビット表現に圧縮することでこの問題に対処する。
最近の拡散量子化技術は、主に均一なスカラー量子化に依存し、4ビットに圧縮されたモデルに対して十分な性能を提供する。
この研究は、より汎用的なベクトル量子化(VQ)が大規模テキスト・画像拡散モデルに対して高い圧縮率を達成することを実証している。
具体的には、ベクトルベースのPTQ手法を最近の10億のテキスト・ツー・イメージモデル(SDXLとSDXL-Turbo)に調整し、VQを用いて約3ビットに圧縮された2B+パラメータの拡散モデルが、以前の4ビット圧縮手法と同様の画像品質とテキストアライメントを示すことを示す。
関連論文リスト
- Diffusion Product Quantization [18.32568431229839]
極端圧縮条件下での拡散モデルの量子化について検討し、性能を維持しながらモデルサイズを小さくする。
我々は、ImageNet上のDiTモデルに圧縮法を適用し、他の量子化手法よりも一貫して優れています。
論文 参考訳(メタデータ) (2024-11-19T07:47:37Z) - Fast constrained sampling in pre-trained diffusion models [77.21486516041391]
拡散モデルは、大規模な生成画像モデルの分野を支配してきた。
本研究では,大規模な事前学習拡散モデルにおける高速拘束サンプリングのアルゴリズムを提案する。
論文 参考訳(メタデータ) (2024-10-24T14:52:38Z) - Meissonic: Revitalizing Masked Generative Transformers for Efficient High-Resolution Text-to-Image Synthesis [62.06970466554273]
SDXLのような最先端拡散モデルに匹敵するレベルまで、非自己回帰マスク型画像モデリング(MIM)のテキスト・ツー・イメージが増大するMeissonicを提案する。
高品質なトレーニングデータを活用し、人間の嗜好スコアから得られるマイクロ条件を統合し、特徴圧縮層を用いて画像の忠実度と解像度をさらに向上する。
我々のモデルは、高画質の高精細画像を生成する際に、SDXLのような既存のモデルに適合するだけでなく、しばしば性能を上回ります。
論文 参考訳(メタデータ) (2024-10-10T17:59:17Z) - Zero-Shot Image Compression with Diffusion-Based Posterior Sampling [34.50287066865267]
本研究は、既存の事前学習拡散モデルで学習された画像を利用して、損失画像圧縮の課題を解決することで、このギャップに対処する。
PSC (Posterior Sampling-based Compression) は, ゼロショット拡散を用いた後部サンプルを用いた。
PSCは,画像圧縮のための事前学習拡散モデルと後部サンプルのさらなる探索を行うため,確立された手法と比較して,競争力のある結果が得られる。
論文 参考訳(メタデータ) (2024-07-13T14:24:22Z) - 2DQuant: Low-bit Post-Training Quantization for Image Super-Resolution [83.09117439860607]
低ビット量子化は、エッジ展開のための画像超解像(SR)モデルを圧縮するために広く普及している。
低ビット量子化は、フル精度(FP)と比較してSRモデルの精度を低下させることが知られている。
本稿では2DQuantという画像超解像のための2段階の低ビット後量子化(PTQ)法を提案する。
論文 参考訳(メタデータ) (2024-06-10T06:06:11Z) - Post-training Quantization for Text-to-Image Diffusion Models with Progressive Calibration and Activation Relaxing [49.800746112114375]
本稿では,テキスト・画像拡散モデルのための学習後量子化手法(プログレッシブ・アンド・リラクシング)を提案する。
我々は,安定拡散XLの量子化を初めて達成し,その性能を維持した。
論文 参考訳(メタデータ) (2023-11-10T09:10:09Z) - Q-Diffusion: Quantizing Diffusion Models [52.978047249670276]
ポストトレーニング量子化(PTQ)は、他のタスクに対するゴーツー圧縮法であると考えられている。
本稿では,一意なマルチステップパイプラインとモデルアーキテクチャに適した新しいPTQ手法を提案する。
提案手法は,完全精度の非条件拡散モデルを同等の性能を維持しつつ4ビットに定量化できることを示す。
論文 参考訳(メタデータ) (2023-02-08T19:38:59Z) - Image Compression with Product Quantized Masked Image Modeling [44.15706119017024]
最近のニューラル圧縮法は、人気のあるハイパープライアフレームワークに基づいている。
Scalar Quantizationに依存しており、非常に強力な圧縮パフォーマンスを提供します。
これは、ベクトル量子化が一般的に用いられる画像生成と表現学習の最近の進歩とは対照的である。
論文 参考訳(メタデータ) (2022-12-14T17:50:39Z) - Extreme Generative Image Compression by Learning Text Embedding from
Diffusion Models [13.894251782142584]
本稿では,画像を短いテキスト埋め込みとして保存する可能性を示す生成画像圧縮手法を提案する。
本手法は、知覚的品質と多様性の両方の観点から、他の最先端のディープラーニング手法よりも優れている。
論文 参考訳(メタデータ) (2022-11-14T22:54:19Z) - Quantization Guided JPEG Artifact Correction [69.04777875711646]
我々はJPEGファイル量子化行列を用いたアーティファクト修正のための新しいアーキテクチャを開発した。
これにより、特定の品質設定のためにトレーニングされたモデルに対して、単一のモデルで最先端のパフォーマンスを達成できます。
論文 参考訳(メタデータ) (2020-04-17T00:10:08Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。