論文の概要: ACT: Adversarial Consistency Models
- arxiv url: http://arxiv.org/abs/2311.14097v2
- Date: Tue, 30 Jan 2024 19:32:59 GMT
- ステータス: 処理完了
- システム内更新日: 2024-02-01 17:15:08.236575
- Title: ACT: Adversarial Consistency Models
- Title(参考訳): ACT: 敵対的一貫性モデル
- Authors: Fei Kong, Jinhao Duan, Lichao Sun, Hao Cheng, Renjing Xu, Hengtao
Shen, Xiaofeng Zhu, Xiaoshuang Shi, Kaidi Xu
- Abstract要約: 整合性トレーニング損失の最適化は,目標分布と生成分布とのワッサーシュタイン距離を最小化することを示す。
CIFAR10, ImageNet 64$times$64, LSUN Cat 256$times$256データセットにおけるFIDスコアの改善を実現した。
- 参考スコア(独自算出の注目度): 62.16255121164223
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Though diffusion models excel in image generation, their step-by-step
denoising leads to slow generation speeds. Consistency training addresses this
issue with single-step sampling but often produces lower-quality generations
and requires high training costs. In this paper, we show that optimizing
consistency training loss minimizes the Wasserstein distance between target and
generated distributions. As timestep increases, the upper bound accumulates
previous consistency training losses. Therefore, larger batch sizes are needed
to reduce both current and accumulated losses. We propose Adversarial
Consistency Training (ACT), which directly minimizes the Jensen-Shannon (JS)
divergence between distributions at each timestep using a discriminator.
Theoretically, ACT enhances generation quality, and convergence. By
incorporating a discriminator into the consistency training framework, our
method achieves improved FID scores on CIFAR10, ImageNet 64$\times$64 and LSUN
Cat 256$\times$256 datasets, retains zero-shot image inpainting capabilities,
and uses less than $1/6$ of the original batch size and fewer than $1/2$ of the
model parameters and training steps compared to the baseline method, this leads
to a substantial reduction in resource consumption.
- Abstract(参考訳): 拡散モデルは画像生成に優れているが、ステップバイステップのデノージングは生成速度を遅くする。
一貫性トレーニングは、単一ステップサンプリングでこの問題に対処するが、しばしば低品質世代を生成し、高いトレーニングコストを必要とする。
本稿では,目標分布と生成分布との間のwasserstein距離を最小化する一貫性トレーニング損失の最適化について述べる。
時間ステップが増加すると、上限は以前の一貫性トレーニング損失を蓄積する。
そのため、電流と累積損失を減らすために、より大きなバッチサイズが必要となる。
本稿では,判別器を用いて,各時刻における分布間のJensen-Shannon(JS)ばらつきを極力最小化するAdversarial Consistency Training(ACT)を提案する。
理論的には、ACTは生成品質と収束を高める。
一貫性トレーニングフレームワークに識別器を組み込むことにより、cifar10、imagenet 64$\times$64およびlsun cat 256$\times$256データセットのfidスコアを改善し、ゼロショット画像インペインティング能力を保持し、元のバッチサイズの1/6$以下、モデルパラメータとトレーニングステップの1/2$以下を使用することにより、リソース消費を大幅に削減することができる。
関連論文リスト
- Truncated Consistency Models [57.50243901368328]
トレーニング一貫性モデルは、PF ODE 軌道に沿ったすべての中間点を対応するエンドポイントにマッピングする学習を必要とする。
このトレーニングパラダイムが一貫性モデルの1ステップ生成性能を制限することを実証的に見出した。
整合性関数の新しいパラメータ化と2段階の訓練手順を提案し,時間外学習が崩壊することを防ぐ。
論文 参考訳(メタデータ) (2024-10-18T22:38:08Z) - Stretching Each Dollar: Diffusion Training from Scratch on a Micro-Budget [53.311109531586844]
大規模T2I拡散変圧器モデルの低コスト化を実証する。
我々は16億のパラメータスパーストランスをわずか1890ドルの経済的コストで訓練し、ゼロショット世代で12.7 FIDを達成する。
我々は、マイクロ予算での大規模拡散モデルのトレーニングをさらに民主化するために、エンドツーエンドのトレーニングパイプラインをリリースすることを目指している。
論文 参考訳(メタデータ) (2024-07-22T17:23:28Z) - Improved Distribution Matching Distillation for Fast Image Synthesis [54.72356560597428]
この制限を解除し、MDDトレーニングを改善する一連の技術であるMDD2を紹介する。
まず、回帰損失と高価なデータセット構築の必要性を排除します。
第2に, GAN損失を蒸留工程に統合し, 生成した試料と実画像との識別を行う。
論文 参考訳(メタデータ) (2024-05-23T17:59:49Z) - You Only Sample Once: Taming One-Step Text-to-Image Synthesis by Self-Cooperative Diffusion GANs [13.133574069588896]
YOSOは、高速でスケーラブルで高忠実なワンステップ画像合成のための新しい生成モデルであり、高いトレーニング安定性とモードカバレッジを持つ。
提案手法は,一段階のモデルトレーニングをスクラッチから行うことができ,競争性能が向上することを示す。
特に、YOSO-PixArt-$alpha$は、512の解像度でトレーニングされた1ステップで画像を生成することができる。
論文 参考訳(メタデータ) (2024-03-19T17:34:27Z) - One-Step Diffusion Distillation via Deep Equilibrium Models [64.11782639697883]
本稿では,拡散モデルを初期雑音から得られた画像に直接蒸留する簡易かつ効果的な方法を提案する。
本手法は,拡散モデルからノイズ/イメージペアのみによる完全オフライントレーニングを可能にする。
GET は FID スコアの点で 5 倍の ViT と一致するので,DEC アーキテクチャがこの能力に不可欠であることを示す。
論文 参考訳(メタデータ) (2023-12-12T07:28:40Z) - Improved Techniques for Training Consistency Models [13.475711217989975]
本稿では, 蒸留なしでデータから直接一貫性モデルを学習する, 整合性トレーニングのための改良手法を提案する。
整合性学習目的のための対数正規雑音スケジュールを提案し、トレーニングの繰り返し回数毎に全離散化ステップを2倍にすることを提案する。
これらの修正により、一貫性モデルは1回のサンプリングステップでCIFAR-10で2.51と3.25のFIDスコア、ImageNetで64ドルをそれぞれ達成できる。
論文 参考訳(メタデータ) (2023-10-22T05:33:38Z) - Efficient Diffusion Training via Min-SNR Weighting Strategy [78.5801305960993]
拡散学習をマルチタスク学習問題として扱い,Min-SNR-$gamma$と呼ばれるシンプルなアプローチを導入する。
本結果は,従来の重み付け手法よりも3.4$times$高速で収束速度が大幅に向上したことを示す。
さらに効果的で、ImageNetの256times256$ベンチマークで2.06の新たなFIDスコアを達成した。
論文 参考訳(メタデータ) (2023-03-16T17:59:56Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。