論文の概要: DuDGAN: Improving Class-Conditional GANs via Dual-Diffusion
- arxiv url: http://arxiv.org/abs/2305.14849v2
- Date: Tue, 6 Jun 2023 06:35:25 GMT
- ステータス: 処理完了
- システム内更新日: 2023-06-07 19:38:25.102229
- Title: DuDGAN: Improving Class-Conditional GANs via Dual-Diffusion
- Title(参考訳): DuDGAN:デュアル拡散によるクラス依存型GANの改善
- Authors: Taesun Yeom, Minhyeok Lee
- Abstract要約: GAN(Generative Adversarial Network)を用いたクラス条件画像生成について,様々な手法を用いて検討した。
本稿では,DuDGANと呼ばれる2次元拡散型ノイズ注入法を取り入れたGANを用いたクラス条件画像生成手法を提案する。
提案手法は,画像生成のための現状条件付きGANモデルよりも性能的に優れている。
- 参考スコア(独自算出の注目度): 2.458437232470188
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Class-conditional image generation using generative adversarial networks
(GANs) has been investigated through various techniques; however, it continues
to face challenges such as mode collapse, training instability, and low-quality
output in cases of datasets with high intra-class variation. Furthermore, most
GANs often converge in larger iterations, resulting in poor iteration efficacy
in training procedures. While Diffusion-GAN has shown potential in generating
realistic samples, it has a critical limitation in generating class-conditional
samples. To overcome these limitations, we propose a novel approach for
class-conditional image generation using GANs called DuDGAN, which incorporates
a dual diffusion-based noise injection process. Our method consists of three
unique networks: a discriminator, a generator, and a classifier. During the
training process, Gaussian-mixture noises are injected into the two noise-aware
networks, the discriminator and the classifier, in distinct ways. This noisy
data helps to prevent overfitting by gradually introducing more challenging
tasks, leading to improved model performance. As a result, our method
outperforms state-of-the-art conditional GAN models for image generation in
terms of performance. We evaluated our method using the AFHQ, Food-101, and
CIFAR-10 datasets and observed superior results across metrics such as FID,
KID, Precision, and Recall score compared with comparison models, highlighting
the effectiveness of our approach.
- Abstract(参考訳): generative adversarial network (gans) を用いたクラス条件画像生成は様々な手法で研究されてきたが、クラス内変動の高いデータセットの場合、モード崩壊、トレーニング不安定性、低品質出力などの課題に直面している。
さらに、ほとんどのganは、しばしばより大きなイテレーションに収束し、トレーニング手順でのイテレーション有効性が低下する。
diffusion-ganは現実的なサンプルを生成する可能性を示したが、クラス条件標本の生成には限界がある。
このような制約を克服するために,DuDGANと呼ばれる2つの拡散型ノイズ注入プロセスを含むGANを用いたクラス条件画像生成手法を提案する。
本手法は,識別器,生成器,分類器の3つのユニークなネットワークからなる。
訓練中、gaussian-mixtureノイズは2つのノイズ認識ネットワーク(判別器と分類器)に異なる方法で注入される。
このノイズの多いデータは、より困難なタスクを徐々に導入することで、過剰フィッティングを防ぐのに役立つ。
その結果,提案手法は,画像生成のための現状条件付きGANモデルよりも性能的に優れていることがわかった。
AFHQ, Food-101, CIFAR-10データセットを用いて本手法の評価を行い, FID, KID, Precision, Recallのスコアを比較モデルと比較し,提案手法の有効性を強調した。
関連論文リスト
- Representation Alignment for Generation: Training Diffusion Transformers Is Easier Than You Think [72.48325960659822]
生成のための大規模拡散モデルの訓練における主要なボトルネックは、これらの表現を効果的に学習することにある。
本稿では,RePresentation Alignment (REPA) と呼ばれる単純な正規化を導入し,ノイズの多い入力隠れ状態の投影を,外部の事前学習された視覚エンコーダから得られるクリーンな画像表現と整合させる手法を提案する。
我々の単純な戦略は、一般的な拡散やDiTsやSiTsといったフローベースのトランスフォーマーに適用した場合、トレーニング効率と生成品質の両方に大きな改善をもたらす。
論文 参考訳(メタデータ) (2024-10-09T14:34:53Z) - DiffATR: Diffusion-based Generative Modeling for Audio-Text Retrieval [49.076590578101985]
ノイズから関節分布を生成する拡散型ATRフレームワーク(DiffATR)を提案する。
優れたパフォーマンスを持つAudioCapsとClothoデータセットの実験は、我々のアプローチの有効性を検証する。
論文 参考訳(メタデータ) (2024-09-16T06:33:26Z) - DifAugGAN: A Practical Diffusion-style Data Augmentation for GAN-based
Single Image Super-resolution [88.13972071356422]
本稿では,DifAugGAN として知られる GAN ベースの画像超解像法(SR) のための拡散型データ拡張手法を提案する。
それは、訓練中の判別器の校正を改善するために、生成拡散モデルに拡散過程を適用することを含む。
我々のDifAugGANは、現在のGANベースのSISR手法のプラグ・アンド・プレイ戦略であり、判別器の校正を改善し、SR性能を向上させることができる。
論文 参考訳(メタデータ) (2023-11-30T12:37:53Z) - Mitigating Exposure Bias in Discriminator Guided Diffusion Models [4.5349436061325425]
本稿では,識別器誘導とエプシロンスケーリングを組み合わせたSEDM-G++を提案する。
提案手法は,非条件CIFAR-10データセット上でFIDスコア1.73を達成し,現状よりも優れている。
論文 参考訳(メタデータ) (2023-11-18T20:49:50Z) - GSURE-Based Diffusion Model Training with Corrupted Data [35.56267114494076]
本稿では, 劣化データのみに基づく生成拡散モデルのための新しいトレーニング手法を提案する。
顔画像と磁気共鳴画像(MRI)の撮影技術について紹介する。
論文 参考訳(メタデータ) (2023-05-22T15:27:20Z) - Denoising Diffusion Models for Plug-and-Play Image Restoration [135.6359475784627]
本稿では,従来のプラグアンドプレイ方式を拡散サンプリングフレームワークに統合したDiffPIRを提案する。
DiffPIRは、差別的なガウスのデノイザーに依存するプラグアンドプレイIR法と比較して、拡散モデルの生成能力を継承することが期待されている。
論文 参考訳(メタデータ) (2023-05-15T20:24:38Z) - Conditional Denoising Diffusion for Sequential Recommendation [62.127862728308045]
GAN(Generative Adversarial Networks)とVAE(VAE)の2つの顕著な生成モデル
GANは不安定な最適化に苦しむ一方、VAEは後続の崩壊と過度に平らな世代である。
本稿では,シーケンスエンコーダ,クロスアテンティブデノナイジングデコーダ,ステップワイズディフューザを含む条件付きデノナイジング拡散モデルを提案する。
論文 参考訳(メタデータ) (2023-04-22T15:32:59Z) - FakeCLR: Exploring Contrastive Learning for Solving Latent Discontinuity
in Data-Efficient GANs [24.18718734850797]
Data-Efficient GAN(DE-GAN)は、限られたトレーニングデータで生成モデルを学習することを目的としている。
対照的な学習は、DE-GANの合成品質を高める大きな可能性を示している。
偽のサンプルに対してのみ対照的な学習を行うFakeCLRを提案する。
論文 参考訳(メタデータ) (2022-07-18T14:23:38Z) - Diffusion Models for Adversarial Purification [69.1882221038846]
対人浄化(Adrial purification)とは、生成モデルを用いて敵の摂動を除去する防衛方法の分類である。
そこで我々は,拡散モデルを用いたDiffPureを提案する。
提案手法は,現在の対人訓練および対人浄化方法よりも優れ,最先端の成果を達成する。
論文 参考訳(メタデータ) (2022-05-16T06:03:00Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。