論文の概要: Patch Diffusion: Faster and More Data-Efficient Training of Diffusion
Models
- arxiv url: http://arxiv.org/abs/2304.12526v2
- Date: Wed, 18 Oct 2023 21:53:33 GMT
- ステータス: 処理完了
- システム内更新日: 2023-10-20 20:30:30.601869
- Title: Patch Diffusion: Faster and More Data-Efficient Training of Diffusion
Models
- Title(参考訳): パッチ拡散:拡散モデルの高速化とデータ効率の向上
- Authors: Zhendong Wang, Yifan Jiang, Huangjie Zheng, Peihao Wang, Pengcheng He,
Zhangyang Wang, Weizhu Chen, Mingyuan Zhou
- Abstract要約: 汎用的なパッチワイドトレーニングフレームワークであるPatch Diffusionを提案する。
Patch Diffusionは、データ効率を改善しながら、トレーニング時間を大幅に削減する。
我々は最先端のベンチマークと一致して優れたFIDスコアを得る。
- 参考スコア(独自算出の注目度): 166.64847903649598
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Diffusion models are powerful, but they require a lot of time and data to
train. We propose Patch Diffusion, a generic patch-wise training framework, to
significantly reduce the training time costs while improving data efficiency,
which thus helps democratize diffusion model training to broader users. At the
core of our innovations is a new conditional score function at the patch level,
where the patch location in the original image is included as additional
coordinate channels, while the patch size is randomized and diversified
throughout training to encode the cross-region dependency at multiple scales.
Sampling with our method is as easy as in the original diffusion model. Through
Patch Diffusion, we could achieve $\mathbf{\ge 2\times}$ faster training, while
maintaining comparable or better generation quality. Patch Diffusion meanwhile
improves the performance of diffusion models trained on relatively small
datasets, $e.g.$, as few as 5,000 images to train from scratch. We achieve
outstanding FID scores in line with state-of-the-art benchmarks: 1.77 on
CelebA-64$\times$64, 1.93 on AFHQv2-Wild-64$\times$64, and 2.72 on
ImageNet-256$\times$256. We share our code and pre-trained models at
https://github.com/Zhendong-Wang/Patch-Diffusion.
- Abstract(参考訳): 拡散モデルは強力ですが、トレーニングには多くの時間とデータが必要です。
汎用的なパッチ指向トレーニングフレームワークであるパッチ拡散(Patch Diffusion)を提案し,データ効率を改善しながらトレーニング時間を大幅に削減し,より広範なユーザへの拡散モデルトレーニングの民主化を支援する。
私たちのイノベーションの核心は、パッチレベルの新しい条件スコア関数で、元のイメージのパッチ位置を追加の座標チャネルとして含み、一方、パッチサイズはトレーニング中にランダム化され、多様化され、複数のスケールでクロスリージョン依存関係をエンコードする。
本手法によるサンプリングは元の拡散モデルと同じくらい簡単である。
Patch Diffusionを通じて、同等またはより良い世代品質を維持しながら、より高速なトレーニングを実現することができます。
一方、パッチ拡散は比較的小さなデータセット(例えば$$)で訓練された拡散モデルの性能を、ゼロからトレーニングするために5000イメージまで改善する。
CelebA-64$\times$64の1.77、AFHQv2-Wild-64$\times$64の1.93、ImageNet-256$\times$256の2.72である。
コードとトレーニング済みのモデルをhttps://github.com/zhendong-wang/patch-diffusionで共有しています。
関連論文リスト
- Stretching Each Dollar: Diffusion Training from Scratch on a Micro-Budget [53.311109531586844]
大規模T2I拡散変圧器モデルの低コスト化を実証する。
我々は16億のパラメータスパーストランスをわずか1890ドルの経済的コストで訓練し、ゼロショット世代で12.7 FIDを達成する。
我々は、マイクロ予算での大規模拡散モデルのトレーニングをさらに民主化するために、エンドツーエンドのトレーニングパイプラインをリリースすることを目指している。
論文 参考訳(メタデータ) (2024-07-22T17:23:28Z) - ACT-Diffusion: Efficient Adversarial Consistency Training for One-step Diffusion Models [59.90959789767886]
整合性トレーニング損失の最適化は,目標分布と生成分布とのワッサーシュタイン距離を最小化することを示す。
CIFAR10 と ImageNet 64$times$64 と LSUN Cat 256$times$256 データセットの FID スコアを改善する。
論文 参考訳(メタデータ) (2023-11-23T16:49:06Z) - Masked Diffusion Models Are Fast Distribution Learners [32.485235866596064]
拡散モデルは、スクラッチからきめ細かい視覚情報を学習するために一般的に訓練されている。
まず, 素数分布を学習するためにモデルの事前学習を行うことにより, 強い拡散モデルを訓練するのに十分であることを示す。
そして、事前学習されたモデルは、様々な生成タスクに対して効率的に微調整することができる。
論文 参考訳(メタデータ) (2023-06-20T08:02:59Z) - Fast Training of Diffusion Models with Masked Transformers [107.77340216247516]
マスク付き変圧器を用いた大規模拡散モデルの学習に有効な手法を提案する。
具体的には、トレーニング中に拡散された入力画像のパッチの割合をランダムにマスキングする。
ImageNet-256x256 と ImageNet-512x512 の実験により,我々の手法は最先端の拡散変換器 (DiT) モデルよりも競争力があり,より優れた生成性能が得られることが示された。
論文 参考訳(メタデータ) (2023-06-15T17:38:48Z) - DiffFit: Unlocking Transferability of Large Diffusion Models via Simple
Parameter-Efficient Fine-Tuning [51.151805100550625]
本稿ではDiffFitを提案する。DiffFitは大規模な事前学習拡散モデルを微調整するためのパラメータ効率の戦略である。
完全な微調整と比較すると、DiffFitは2$times$のトレーニングスピードアップを実現しており、全体のモデルパラメータの0.12%を格納する必要がある。
注目すべきは、DiffFitが最小のコストを加えることで、訓練済みの低解像度生成モデルを高解像度に適応できることである。
論文 参考訳(メタデータ) (2023-04-13T16:17:50Z) - Better Diffusion Models Further Improve Adversarial Training [97.44991845907708]
拡散確率モデル (DDPM) によって生成されたデータは, 対人訓練を改善することが認識されている。
本稿では,効率のよい最新の拡散モデルを用いて,肯定的な回答を与える。
我々の逆向きに訓練されたモデルは、生成されたデータのみを使用してRobustBench上で最先端のパフォーマンスを達成する。
論文 参考訳(メタデータ) (2023-02-09T13:46:42Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。