論文の概要: DGQ: Distribution-Aware Group Quantization for Text-to-Image Diffusion Models
- arxiv url: http://arxiv.org/abs/2501.04304v1
- Date: Wed, 08 Jan 2025 06:30:31 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-01-09 14:56:32.047161
- Title: DGQ: Distribution-Aware Group Quantization for Text-to-Image Diffusion Models
- Title(参考訳): DGQ:テキスト・画像拡散モデルのための分布認識グループ量子化
- Authors: Hyogon Ryu, NaHyeon Park, Hyunjung Shim,
- Abstract要約: 本稿では,テキストから画像への拡散モデルの定量化に関わる課題を,分布の観点から分析する。
本稿では,画像品質を維持するために,画素単位とチャネル単位のアウトレイラを適応的に処理するDGQを提案する。
提案手法はMS-COCOやPartiPromptsなどのデータセットに対して顕著な性能を示す。
- 参考スコア(独自算出の注目度): 12.875837358532422
- License:
- Abstract: Despite the widespread use of text-to-image diffusion models across various tasks, their computational and memory demands limit practical applications. To mitigate this issue, quantization of diffusion models has been explored. It reduces memory usage and computational costs by compressing weights and activations into lower-bit formats. However, existing methods often struggle to preserve both image quality and text-image alignment, particularly in lower-bit($<$ 8bits) quantization. In this paper, we analyze the challenges associated with quantizing text-to-image diffusion models from a distributional perspective. Our analysis reveals that activation outliers play a crucial role in determining image quality. Additionally, we identify distinctive patterns in cross-attention scores, which significantly affects text-image alignment. To address these challenges, we propose Distribution-aware Group Quantization (DGQ), a method that identifies and adaptively handles pixel-wise and channel-wise outliers to preserve image quality. Furthermore, DGQ applies prompt-specific logarithmic quantization scales to maintain text-image alignment. Our method demonstrates remarkable performance on datasets such as MS-COCO and PartiPrompts. We are the first to successfully achieve low-bit quantization of text-to-image diffusion models without requiring additional fine-tuning of weight quantization parameters.
- Abstract(参考訳): テキストから画像への拡散モデルが様々なタスクで広く使われているにもかかわらず、その計算とメモリ要求は実用的な応用を制限している。
この問題を緩和するため、拡散モデルの量子化が検討されている。
重みとアクティベーションを低ビットフォーマットに圧縮することで、メモリ使用量と計算コストを削減する。
しかし、既存の手法は画像の品質とテキスト画像のアライメントの両方を維持するのに苦労することが多く、特に低ビット($<$ 8bits)量子化では顕著である。
本稿では,テキストから画像への拡散モデルの定量化に関わる課題を,分布の観点から分析する。
以上の結果から,アクティベーション・アウトリーチが画像品質決定に重要な役割を担っていることが明らかとなった。
さらに,テキスト・イメージのアライメントに大きな影響を及ぼすクロスアテンションスコアにおける特徴パターンを同定する。
これらの課題に対処するため,DGQ(Distributed-Aware Group Quantization)を提案する。
さらに、DGQはテキストイメージアライメントを維持するために、プロンプト固有の対数量子化尺度を適用している。
提案手法はMS-COCOやPartiPromptsなどのデータセットに対して顕著な性能を示す。
我々は、ウェイト量子化パラメータの追加的な微調整を必要とせず、テキストから画像への拡散モデルの低ビット量子化を初めて達成した。
関連論文リスト
- Semantics Prompting Data-Free Quantization for Low-Bit Vision Transformers [59.772673692679085]
セマンティックスプロンプトデータ自由量子化手法であるSPDFQを提案する。
まず、SPDFQはAPA(Attention Priors Alignment)を組み込んでいる。
第二に、SPDFQはマルチセマンティック強化(Multi-Semantic Reinforcement、MSR)を導入している。
論文 参考訳(メタデータ) (2024-12-21T09:30:45Z) - Data Generation for Hardware-Friendly Post-Training Quantization [3.3998740964877463]
合成データを用いたゼロショット量子化(ZSQ)は、プライバシとセキュリティ制約下でのポストトレーニング量子化(PTQ)の重要なアプローチである。
既存のデータ生成方法は、ハードウェアフレンドリーな量子化に適したデータを生成するのに苦労することが多い。
ハードウェアフレンドリな量子化のためのデータ生成(DGH)を提案する。
論文 参考訳(メタデータ) (2024-10-29T15:08:50Z) - Unsupervised Modality Adaptation with Text-to-Image Diffusion Models for Semantic Segmentation [54.96563068182733]
セグメンテーションタスクのためのテキスト・ツー・イメージ拡散モデル(MADM)を用いたモダリティ適応を提案する。
MADMは、広範囲な画像とテキストのペアで事前訓練されたテキストと画像の拡散モデルを使用して、モデルの相互モダリティ能力を向上する。
我々は,MADMが画像から深度,赤外線,イベントのモダリティといった様々なモダリティタスクにまたがって,最先端の適応性能を実現することを示す。
論文 参考訳(メタデータ) (2024-10-29T03:49:40Z) - Thinking in Granularity: Dynamic Quantization for Image Super-Resolution by Intriguing Multi-Granularity Clues [16.254064282215033]
本稿では,画像の固有特性を活かしたグラニュラーDQを提案する。
グラニュラーDQは局所パッチの多粒度解析を行い、その情報密度をさらに探究する。
論文 参考訳(メタデータ) (2024-09-22T06:29:54Z) - Accurate Compression of Text-to-Image Diffusion Models via Vector Quantization [33.20136645196318]
最先端のテキスト・トゥ・イメージモデルは、実際はアクセスしにくくなっている。
後学習量子化(PTQ)は、事前訓練されたモデルの重みを低ビット表現に圧縮することでこの問題に対処する。
この研究は、より汎用的なベクトル量子化(VQ)が大規模テキスト・画像拡散モデルに対して高い圧縮率を達成することを実証している。
論文 参考訳(メタデータ) (2024-08-31T16:09:20Z) - Post-training Quantization for Text-to-Image Diffusion Models with Progressive Calibration and Activation Relaxing [49.800746112114375]
本稿では,テキスト・画像拡散モデルのための学習後量子化手法(プログレッシブ・アンド・リラクシング)を提案する。
我々は,安定拡散XLの量子化を初めて達成し,その性能を維持した。
論文 参考訳(メタデータ) (2023-11-10T09:10:09Z) - Beyond Learned Metadata-based Raw Image Reconstruction [86.1667769209103]
生画像は、線形性や微細な量子化レベルなど、sRGB画像に対して明確な利点がある。
ストレージの要求が大きいため、一般ユーザからは広く採用されていない。
本稿では,メタデータとして,潜在空間におけるコンパクトな表現を学習する新しいフレームワークを提案する。
論文 参考訳(メタデータ) (2023-06-21T06:59:07Z) - Controlling Text-to-Image Diffusion by Orthogonal Finetuning [74.21549380288631]
そこで本研究では,テキストから画像への拡散モデルを下流タスクに適用するための原理的な微調整手法であるorthogonal Finetuning(OFT)を提案する。
既存の方法とは異なり、OFTは単位超球上の対のニューロン関係を特徴付ける超球面エネルギーを確実に保存することができる。
我々のOFTフレームワークは、生成品質と収束速度において既存の手法よりも優れていることを実証的に示す。
論文 参考訳(メタデータ) (2023-06-12T17:59:23Z) - Cascaded Cross-Attention Networks for Data-Efficient Whole-Slide Image
Classification Using Transformers [0.11219061154635457]
全スライディングイメージングは、組織標本の高解像度画像のキャプチャとデジタル化を可能にする。
高解像度情報を効果的に活用するための候補としてトランスフォーマーアーキテクチャが提案されている。
本稿では,抽出されたパッチ数と線形にスケールするクロスアテンション機構に基づく新しいカスケード型クロスアテンションネットワーク(CCAN)を提案する。
論文 参考訳(メタデータ) (2023-05-11T16:42:24Z) - FewGAN: Generating from the Joint Distribution of a Few Images [95.6635227371479]
本稿では,新しい,高品質で多様な画像を生成するための生成モデルFewGANを紹介する。
FewGANは、第1の粗いスケールで量子化を適用した階層的なパッチGANであり、その後、より微細なスケールで残った完全畳み込みGANのピラミッドが続く。
大規模な実験では、FewGANは定量的にも定性的にも基線より優れていることが示されている。
論文 参考訳(メタデータ) (2022-07-18T07:11:28Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。