論文の概要: Structure-Guided Adversarial Training of Diffusion Models
- arxiv url: http://arxiv.org/abs/2402.17563v2
- Date: Mon, 4 Mar 2024 14:51:40 GMT
- ステータス: 処理完了
- システム内更新日: 2024-03-06 23:41:22.951794
- Title: Structure-Guided Adversarial Training of Diffusion Models
- Title(参考訳): 拡散モデルの構造誘導型対向訓練
- Authors: Ling Yang, Haotian Qian, Zhilong Zhang, Jingwei Liu, Bin Cui
- Abstract要約: 拡散モデル(SADM)の構造誘導型逆トレーニングについて紹介する。
トレーニングバッチ毎にサンプル間の多様体構造を学習するようにモデルを強制する。
SADMは既存の拡散変換器を大幅に改善し、画像生成や微調整タスクにおいて既存の手法より優れている。
- 参考スコア(独自算出の注目度): 27.723913809313125
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Diffusion models have demonstrated exceptional efficacy in various generative
applications. While existing models focus on minimizing a weighted sum of
denoising score matching losses for data distribution modeling, their training
primarily emphasizes instance-level optimization, overlooking valuable
structural information within each mini-batch, indicative of pair-wise
relationships among samples. To address this limitation, we introduce
Structure-guided Adversarial training of Diffusion Models (SADM). In this
pioneering approach, we compel the model to learn manifold structures between
samples in each training batch. To ensure the model captures authentic manifold
structures in the data distribution, we advocate adversarial training of the
diffusion generator against a novel structure discriminator in a minimax game,
distinguishing real manifold structures from the generated ones. SADM
substantially improves existing diffusion transformers (DiT) and outperforms
existing methods in image generation and cross-domain fine-tuning tasks across
12 datasets, establishing a new state-of-the-art FID of 1.58 and 2.11 on
ImageNet for class-conditional image generation at resolutions of 256x256 and
512x512, respectively.
- Abstract(参考訳): 拡散モデルは様々な生成的応用において例外的な効果を示した。
既存のモデルは、データ分散モデリングにおける損失と一致するスコアの重み付けを最小化することに重点を置いているが、そのトレーニングは主にインスタンスレベルの最適化に重点を置いており、サンプル間のペアワイズ関係を示している。
この制限に対処するために, 拡散モデル (SADM) の構造誘導逆行訓練を導入する。
この先駆的なアプローチでは、各トレーニングバッチでサンプル間の多様体構造を学ぶことをモデルに強制します。
モデルがデータ分布の真正な多様体構造を捕捉することを保証するため,ミニマックスゲームにおいて,拡散生成器の新たな構造判別器に対する対角訓練を提唱し,実多様体構造と生成された構造とを区別する。
SADMは既存の拡散トランスフォーマー(DiT)を大幅に改善し、12データセットにわたる画像生成およびクロスドメイン微調整タスクにおいて既存の手法よりも優れており、256x256と512x512の解像度でクラス条件の画像生成を行うために、ImageNetに1.58と2.11の最先端FIDを確立する。
関連論文リスト
- Representation Alignment for Generation: Training Diffusion Transformers Is Easier Than You Think [72.48325960659822]
生成のための大規模拡散モデルの訓練における主要なボトルネックは、これらの表現を効果的に学習することにある。
本稿では,RePresentation Alignment (REPA) と呼ばれる単純な正規化を導入し,ノイズの多い入力隠れ状態の投影を,外部の事前学習された視覚エンコーダから得られるクリーンな画像表現と整合させる手法を提案する。
我々の単純な戦略は、一般的な拡散やDiTsやSiTsといったフローベースのトランスフォーマーに適用した場合、トレーニング効率と生成品質の両方に大きな改善をもたらす。
論文 参考訳(メタデータ) (2024-10-09T14:34:53Z) - Diffusion Models Learn Low-Dimensional Distributions via Subspace Clustering [15.326641037243006]
拡散モデルは画像分布を効果的に学習し、新しいサンプルを生成する。
我々は、この現象に関する理論的な洞察を、重要な経験的観測を利用して提供する。
基礎となる分布を学習するのに必要となるサンプルの最小数は、本質的な次元と線形にスケールすることを示す。
論文 参考訳(メタデータ) (2024-09-04T04:14:02Z) - Constrained Diffusion Models via Dual Training [80.03953599062365]
我々は,要求に応じて所望の分布に基づいて制約付き拡散モデルを開発する。
本稿では,制約付き拡散モデルを用いて,目的と制約の最適なトレードオフを実現する混合データ分布から新しいデータを生成することを示す。
論文 参考訳(メタデータ) (2024-08-27T14:25:42Z) - Training Class-Imbalanced Diffusion Model Via Overlap Optimization [55.96820607533968]
実世界のデータセットで訓練された拡散モデルは、尾クラスの忠実度が劣ることが多い。
拡散モデルを含む深い生成モデルは、豊富な訓練画像を持つクラスに偏りがある。
本研究では,異なるクラスに対する合成画像の分布の重複を最小限に抑えるために,コントラスト学習に基づく手法を提案する。
論文 参考訳(メタデータ) (2024-02-16T16:47:21Z) - Steerable Conditional Diffusion for Out-of-Distribution Adaptation in Medical Image Reconstruction [75.91471250967703]
我々は、ステアブル条件拡散と呼ばれる新しいサンプリングフレームワークを導入する。
このフレームワークは、利用可能な測定によって提供される情報のみに基づいて、画像再構成と並行して拡散モデルを適用する。
様々な画像モダリティにまたがるアウト・オブ・ディストリビューション性能の大幅な向上を実現した。
論文 参考訳(メタデータ) (2023-08-28T08:47:06Z) - Diff-Instruct: A Universal Approach for Transferring Knowledge From
Pre-trained Diffusion Models [77.83923746319498]
本稿では,任意の生成モデルの学習を指導するDiff-Instructというフレームワークを提案する。
Diff-Instructは、最先端の単一ステップ拡散モデルであることを示す。
GANモデルの精製実験により、Diff-InstructはGANモデルの事前訓練されたジェネレータを一貫して改善できることが示されている。
論文 参考訳(メタデータ) (2023-05-29T04:22:57Z) - On Distillation of Guided Diffusion Models [94.95228078141626]
そこで本研究では,分類器を含まない誘導拡散モデルから抽出し易いモデルへ抽出する手法を提案する。
画素空間上で訓練された標準拡散モデルに対して,本手法は元のモデルに匹敵する画像を生成することができる。
遅延空間で訓練された拡散モデル(例えば、安定拡散)に対して、我々の手法は1から4段階のデノナイジングステップで高忠実度画像を生成することができる。
論文 参考訳(メタデータ) (2022-10-06T18:03:56Z) - Few-Shot Diffusion Models [15.828257653106537]
条件付きDDPMを利用した数ショット生成のためのフレームワークであるFew-Shot Diffusion Models (FSDM)を提案する。
FSDMは、画像パッチ情報を集約することにより、所定のクラスからの小さな画像集合に条件付けされた生成プロセスに適応するように訓練される。
FSDMが数ショット生成を行い、新しいデータセットに転送できることを実証的に示す。
論文 参考訳(メタデータ) (2022-05-30T23:20:33Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。