論文の概要: ACT: Adversarial Consistency Models
- arxiv url: http://arxiv.org/abs/2311.14097v2
- Date: Tue, 30 Jan 2024 19:32:59 GMT
- ステータス: 処理完了
- システム内更新日: 2024-02-01 17:15:08.236575
- Title: ACT: Adversarial Consistency Models
- Title(参考訳): ACT: 敵対的一貫性モデル
- Authors: Fei Kong, Jinhao Duan, Lichao Sun, Hao Cheng, Renjing Xu, Hengtao
Shen, Xiaofeng Zhu, Xiaoshuang Shi, Kaidi Xu
- Abstract要約: 整合性トレーニング損失の最適化は,目標分布と生成分布とのワッサーシュタイン距離を最小化することを示す。
CIFAR10, ImageNet 64$times$64, LSUN Cat 256$times$256データセットにおけるFIDスコアの改善を実現した。
- 参考スコア(独自算出の注目度): 62.16255121164223
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Though diffusion models excel in image generation, their step-by-step
denoising leads to slow generation speeds. Consistency training addresses this
issue with single-step sampling but often produces lower-quality generations
and requires high training costs. In this paper, we show that optimizing
consistency training loss minimizes the Wasserstein distance between target and
generated distributions. As timestep increases, the upper bound accumulates
previous consistency training losses. Therefore, larger batch sizes are needed
to reduce both current and accumulated losses. We propose Adversarial
Consistency Training (ACT), which directly minimizes the Jensen-Shannon (JS)
divergence between distributions at each timestep using a discriminator.
Theoretically, ACT enhances generation quality, and convergence. By
incorporating a discriminator into the consistency training framework, our
method achieves improved FID scores on CIFAR10, ImageNet 64$\times$64 and LSUN
Cat 256$\times$256 datasets, retains zero-shot image inpainting capabilities,
and uses less than $1/6$ of the original batch size and fewer than $1/2$ of the
model parameters and training steps compared to the baseline method, this leads
to a substantial reduction in resource consumption.
- Abstract(参考訳): 拡散モデルは画像生成に優れているが、ステップバイステップのデノージングは生成速度を遅くする。
一貫性トレーニングは、単一ステップサンプリングでこの問題に対処するが、しばしば低品質世代を生成し、高いトレーニングコストを必要とする。
本稿では,目標分布と生成分布との間のwasserstein距離を最小化する一貫性トレーニング損失の最適化について述べる。
時間ステップが増加すると、上限は以前の一貫性トレーニング損失を蓄積する。
そのため、電流と累積損失を減らすために、より大きなバッチサイズが必要となる。
本稿では,判別器を用いて,各時刻における分布間のJensen-Shannon(JS)ばらつきを極力最小化するAdversarial Consistency Training(ACT)を提案する。
理論的には、ACTは生成品質と収束を高める。
一貫性トレーニングフレームワークに識別器を組み込むことにより、cifar10、imagenet 64$\times$64およびlsun cat 256$\times$256データセットのfidスコアを改善し、ゼロショット画像インペインティング能力を保持し、元のバッチサイズの1/6$以下、モデルパラメータとトレーニングステップの1/2$以下を使用することにより、リソース消費を大幅に削減することができる。
関連論文リスト
- Fixed Point Diffusion Models [13.035518953879539]
FPDM(Fixed Point Diffusion Model)は、FPDM(Fixed Point Diffusion Model)の概念を拡散に基づく生成モデルに組み込んだ画像生成手法である。
提案手法では,拡散モデルのデノナイズネットワークに暗黙の固定点解法層を埋め込み,拡散過程を密接な関係のある固定点問題列に変換する。
我々は、ImageNet、FFHQ、CelebA-HQ、LSUN-Churchの最先端モデルを用いて実験を行い、性能と効率を大幅に改善した。
論文 参考訳(メタデータ) (2024-01-16T18:55:54Z) - One-Step Diffusion Distillation via Deep Equilibrium Models [64.11782639697883]
本稿では,拡散モデルを初期雑音から得られた画像に直接蒸留する簡易かつ効果的な方法を提案する。
本手法は,拡散モデルからノイズ/イメージペアのみによる完全オフライントレーニングを可能にする。
GET は FID スコアの点で 5 倍の ViT と一致するので,DEC アーキテクチャがこの能力に不可欠であることを示す。
論文 参考訳(メタデータ) (2023-12-12T07:28:40Z) - Compensation Sampling for Improved Convergence in Diffusion Models [12.311434647047427]
拡散モデルは画像生成において顕著な品質を達成するが、コストはかかる。
反復 denoising は高忠実度画像を生成するために多くの時間ステップを必要とする。
対象データの初期的不正確な再構成による復元誤差の蓄積により,復調過程が著しく制限されていることを論じる。
論文 参考訳(メタデータ) (2023-12-11T10:39:01Z) - One-step Diffusion with Distribution Matching Distillation [50.45103465564635]
本稿では,拡散モデルを1ステップ画像生成器に変換する手法である分散マッチング蒸留(DMD)を紹介する。
約KLの発散を最小化することにより,拡散モデルと分布レベルで一致した一段階画像生成装置を強制する。
提案手法は,イメージネット64x64では2.62 FID,ゼロショットCOCO-30kでは11.49 FIDに到達した。
論文 参考訳(メタデータ) (2023-11-30T18:59:20Z) - Improved Techniques for Training Consistency Models [13.475711217989975]
本稿では, 蒸留なしでデータから直接一貫性モデルを学習する, 整合性トレーニングのための改良手法を提案する。
整合性学習目的のための対数正規雑音スケジュールを提案し、トレーニングの繰り返し回数毎に全離散化ステップを2倍にすることを提案する。
これらの修正により、一貫性モデルは1回のサンプリングステップでCIFAR-10で2.51と3.25のFIDスコア、ImageNetで64ドルをそれぞれ達成できる。
論文 参考訳(メタデータ) (2023-10-22T05:33:38Z) - Latent Consistency Models: Synthesizing High-Resolution Images with
Few-Step Inference [60.32804641276217]
本稿では,LCM(Latent Consistency Models)を提案する。
高品質の768 x 768 24-step LCMは、トレーニングに32A100 GPU時間しかかからない。
また,画像データセットの微調整に適した新しいLCM法であるLCF(Latent Consistency Fine-tuning)についても紹介する。
論文 参考訳(メタデータ) (2023-10-06T17:11:58Z) - BOOT: Data-free Distillation of Denoising Diffusion Models with
Bootstrapping [64.54271680071373]
拡散モデルは多様な画像を生成する優れた可能性を示している。
知識蒸留は、推論ステップの数を1つか数に減らすための治療法として最近提案されている。
本稿では,効率的なデータフリー蒸留アルゴリズムにより限界を克服するBOOTと呼ばれる新しい手法を提案する。
論文 参考訳(メタデータ) (2023-06-08T20:30:55Z) - Efficient Diffusion Training via Min-SNR Weighting Strategy [78.5801305960993]
拡散学習をマルチタスク学習問題として扱い,Min-SNR-$gamma$と呼ばれるシンプルなアプローチを導入する。
本結果は,従来の重み付け手法よりも3.4$times$高速で収束速度が大幅に向上したことを示す。
さらに効果的で、ImageNetの256times256$ベンチマークで2.06の新たなFIDスコアを達成した。
論文 参考訳(メタデータ) (2023-03-16T17:59:56Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。