論文の概要: HiPA: Enabling One-Step Text-to-Image Diffusion Models via
High-Frequency-Promoting Adaptation
- arxiv url: http://arxiv.org/abs/2311.18158v1
- Date: Thu, 30 Nov 2023 00:14:07 GMT
- ステータス: 処理完了
- システム内更新日: 2023-12-01 18:26:54.050436
- Title: HiPA: Enabling One-Step Text-to-Image Diffusion Models via
High-Frequency-Promoting Adaptation
- Title(参考訳): HiPA: 高周波プロモーター適応によるワンステップテキスト・画像拡散モデルの実現
- Authors: Yifan Zhang, Bryan Hooi
- Abstract要約: High- frequency-Promoting Adaptation (HiPA) は、一段階のテキスト・画像拡散を可能にするパラメータ効率の高い手法である。
HiPAは、高度拡散モデルの低周波数能力を高めるために、一段階の低ランク適応器の訓練に重点を置いている。
プログレッシブ蒸留と比較すると、HiPAは1段階のテキスト・ツー・イメージ・ジェネレーションにおいてはるかに優れた性能を発揮する。
- 参考スコア(独自算出の注目度): 47.43155993432259
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Diffusion models have revolutionized text-to-image generation, but their
real-world applications are hampered by the extensive time needed for hundreds
of diffusion steps. Although progressive distillation has been proposed to
speed up diffusion sampling to 2-8 steps, it still falls short in one-step
generation, and necessitates training multiple student models, which is highly
parameter-extensive and time-consuming. To overcome these limitations, we
introduce High-frequency-Promoting Adaptation (HiPA), a parameter-efficient
approach to enable one-step text-to-image diffusion. Grounded in the insight
that high-frequency information is essential but highly lacking in one-step
diffusion, HiPA focuses on training one-step, low-rank adaptors to specifically
enhance the under-represented high-frequency abilities of advanced diffusion
models. The learned adaptors empower these diffusion models to generate
high-quality images in just a single step. Compared with progressive
distillation, HiPA achieves much better performance in one-step text-to-image
generation (37.3 $\rightarrow$ 23.8 in FID-5k on MS-COCO 2017) and 28.6x
training speed-up (108.8 $\rightarrow$ 3.8 A100 GPU days), requiring only 0.04%
training parameters (7,740 million $\rightarrow$ 3.3 million). We also
demonstrate HiPA's effectiveness in text-guided image editing, inpainting and
super-resolution tasks, where our adapted models consistently deliver
high-quality outputs in just one diffusion step. The source code will be
released.
- Abstract(参考訳): 拡散モデルはテキストから画像生成に革命をもたらしたが、現実の応用は数百の拡散ステップに必要な膨大な時間によって妨げられている。
拡散サンプリングを2~8ステップに高速化するプログレッシブ蒸留法が提案されているが、それでも1ステップで不足しており、パラメータが強く時間を要する複数の学生モデルを訓練する必要がある。
これらの制限を克服するために、一段階のテキスト・画像拡散を可能にするパラメータ効率の高い手法であるHiPA(High- frequency-Promoting Adaptation)を導入する。
高周波情報は1段階拡散において不可欠であるが、非常に欠如しているという知見に基づいて、HIPAは高度拡散モデルの低頻度高周波能力を強化するためのワンステップ低ランク適応器の訓練に重点を置いている。
学習したアダプタは、これらの拡散モデルに1ステップで高品質な画像を生成する権限を与えます。
プログレッシブ蒸留と比較すると、HiPAは1段階のテキスト画像生成(MS-COCO 2017のFID-5kで37.3ドル\rightarrow$23.8)と28.6倍のトレーニングスピードアップ(108.8ドル\rightarrow$3.8A100 GPU日)で、0.04%のトレーニングパラメータ(7,740万$\rightarrow$3.3M)しか必要としない。
また, テキスト誘導画像編集, 塗装, 超解像度タスクにおけるHiPAの有効性を示す。
ソースコードはリリースされます。
関連論文リスト
- Flash Diffusion: Accelerating Any Conditional Diffusion Model for Few Steps Image Generation [2.693650249239372]
本稿では,Flash拡散モデルの生成を高速化する,効率的で高速で多用途な蒸留法を提案する。
この手法は、COCO2014とCOCO 2017データセット上の画像生成のために、FIDとCLIP-Scoreの観点から最先端のパフォーマンスに達する。
この手法の汎用性は、テキスト・トゥ・イメージ、インペイント、フェイス・スワッピング、スーパーレゾリューション、UNetベースのデノイザ(SD1.5, SDXL)やDiT(Pixart-$alpha$)などの異なるバックボーンの使用など、いくつかのタスクにまたがる。
論文 参考訳(メタデータ) (2024-06-04T14:23:27Z) - PaGoDA: Progressive Growing of a One-Step Generator from a Low-Resolution Diffusion Teacher [55.22994720855957]
PaGoDAは、ダウンサンプルデータ上でのトレーニング拡散、事前訓練された拡散の蒸留、プログレッシブ超解像という3段階のトレーニングコストを削減した、新しいパイプラインである。
提案されたパイプラインでは、PaGoDAは8倍のサンプルデータで拡散モデルをトレーニングするコストを64倍に削減する。
PaGoDAのパイプラインは、遅延空間で直接適用することができ、遅延拡散モデルで事前訓練されたオートエンコーダと共に圧縮を追加する。
論文 参考訳(メタデータ) (2024-05-23T17:39:09Z) - SDXS: Real-Time One-Step Latent Diffusion Models with Image Conditions [5.100085108873068]
SDXS-512 と SDXS-1024 の2つのモデルを示し,1つのGPU上で約100 FPS (SD v1.5 より30倍速い) と30 FPS (SDXLより60倍速い) の推論速度を実現する。
我々のトレーニングアプローチは、画像条件付き制御に有望な応用を提供し、画像間の効率的な翻訳を容易にする。
論文 参考訳(メタデータ) (2024-03-25T11:16:23Z) - Fast High-Resolution Image Synthesis with Latent Adversarial Diffusion Distillation [24.236841051249243]
蒸留法は、モデルをマルチショットからシングルステップ推論にシフトすることを目的としている。
ADDの限界を克服する新しい蒸留法であるLADD(Latent Adversarial Diffusion Distillation)を導入する。
ピクセルベースのADDとは対照的に、LADDは事前訓練された潜伏拡散モデルから生成的特徴を利用する。
論文 参考訳(メタデータ) (2024-03-18T17:51:43Z) - One-Step Diffusion Distillation via Deep Equilibrium Models [64.11782639697883]
本稿では,拡散モデルを初期雑音から得られた画像に直接蒸留する簡易かつ効果的な方法を提案する。
本手法は,拡散モデルからノイズ/イメージペアのみによる完全オフライントレーニングを可能にする。
GET は FID スコアの点で 5 倍の ViT と一致するので,DEC アーキテクチャがこの能力に不可欠であることを示す。
論文 参考訳(メタデータ) (2023-12-12T07:28:40Z) - One-step Diffusion with Distribution Matching Distillation [54.723565605974294]
本稿では,拡散モデルを1ステップ画像生成器に変換する手法である分散マッチング蒸留(DMD)を紹介する。
約KLの発散を最小化することにより,拡散モデルと分布レベルで一致した一段階画像生成装置を強制する。
提案手法は,イメージネット64x64では2.62 FID,ゼロショットCOCO-30kでは11.49 FIDに到達した。
論文 参考訳(メタデータ) (2023-11-30T18:59:20Z) - ACT-Diffusion: Efficient Adversarial Consistency Training for One-step Diffusion Models [59.90959789767886]
整合性トレーニング損失の最適化は,目標分布と生成分布とのワッサーシュタイン距離を最小化することを示す。
CIFAR10 と ImageNet 64$times$64 と LSUN Cat 256$times$256 データセットの FID スコアを改善する。
論文 参考訳(メタデータ) (2023-11-23T16:49:06Z) - SnapFusion: Text-to-Image Diffusion Model on Mobile Devices within Two
Seconds [88.06788636008051]
テキストから画像への拡散モデルは、プロのアーティストや写真家の作品に匹敵する自然言語の記述から素晴らしい画像を作り出すことができる。
これらのモデルは大規模で、複雑なネットワークアーキテクチャと数十のデノベーションイテレーションを持ち、計算コストが高く、実行が遅い。
モバイル端末上でテキストから画像への拡散モデルの実行を2ドル以下でアンロックする汎用的なアプローチを提案する。
論文 参考訳(メタデータ) (2023-06-01T17:59:25Z) - Wavelet Diffusion Models are fast and scalable Image Generators [3.222802562733787]
拡散モデルは高忠実度画像生成のための強力な解であり、多くの状況においてGANを超える。
最近のDiffusionGAN法は、サンプリングステップの数を数千から数に減らして、モデルの実行時間を著しく短縮するが、その速度はGANよりもかなり遅れている。
本稿では,新しいウェーブレット拡散方式を提案することにより,速度ギャップを低減することを目的とする。
我々は、ウェーブレット分解により、画像と特徴レベルの両方から低周波数成分を抽出し、これらの成分を適応的に処理し、良好な生成品質を維持しながら高速に処理する。
論文 参考訳(メタデータ) (2022-11-29T12:25:25Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。