論文の概要: Mitigating Embedding Collapse in Diffusion Models for Categorical Data
- arxiv url: http://arxiv.org/abs/2410.14758v1
- Date: Fri, 18 Oct 2024 09:12:33 GMT
- ステータス: 翻訳完了
- システム内更新日: 2024-10-22 13:17:42.785031
- Title: Mitigating Embedding Collapse in Diffusion Models for Categorical Data
- Title(参考訳): カテゴリーデータの拡散モデルにおける埋め込み崩壊の緩和
- Authors: Bac Nguyen, and Chieh-Hsin Lai, Yuhta Takida, Naoki Murata, Toshimitsu Uesaka, Stefano Ermon, Yuki Mitsufuji,
- Abstract要約: 我々は,学習を安定させる埋め込み空間内の連続拡散フレームワークであるCATDMを紹介する。
ベンチマーク実験により、CATDMは埋没崩壊を緩和し、FFHQ、LSUN教会、LSUNベッドルームにおいて優れた結果をもたらすことが示された。
- 参考スコア(独自算出の注目度): 52.90687881724333
- License:
- Abstract: Latent diffusion models have enabled continuous-state diffusion models to handle a variety of datasets, including categorical data. However, most methods rely on fixed pretrained embeddings, limiting the benefits of joint training with the diffusion model. While jointly learning the embedding (via reconstruction loss) and the latent diffusion model (via score matching loss) could enhance performance, our analysis shows that end-to-end training risks embedding collapse, degrading generation quality. To address this issue, we introduce CATDM, a continuous diffusion framework within the embedding space that stabilizes training. We propose a novel objective combining the joint embedding-diffusion variational lower bound with a Consistency-Matching (CM) regularizer, alongside a shifted cosine noise schedule and random dropping strategy. The CM regularizer ensures the recovery of the true data distribution. Experiments on benchmarks show that CATDM mitigates embedding collapse, yielding superior results on FFHQ, LSUN Churches, and LSUN Bedrooms. In particular, CATDM achieves an FID of 6.81 on ImageNet $256\times256$ with 50 steps. It outperforms non-autoregressive models in machine translation and is on a par with previous methods in text generation.
- Abstract(参考訳): 遅延拡散モデルは、カテゴリーデータを含む様々なデータセットを扱う連続状態拡散モデルを可能にした。
しかし、ほとんどの手法は固定された事前訓練された埋め込みに依存しており、拡散モデルとの共同訓練の利点を制限している。
組込み学習(再構築損失)と潜伏拡散モデル(スコアマッチング損失)を併用することで性能を向上させることができるが,本分析は,エンドツーエンドのトレーニングが崩壊を埋込み,生成品質を劣化させる可能性を示唆している。
この問題に対処するために,我々は,トレーニングを安定化する埋め込み空間内の連続拡散フレームワークであるCATDMを紹介した。
そこで本稿では, 共振器型共振器と共振器型共振器式共振器式共振器式共振器式共振器式共振器を併用し, 共振器式共振器式共振器式共振器式共振器式共振器の共振器式と共振器式共振器式共振器式共振器式共振器式共振器式共振器式共振器式共振器式共振器式共振器式共振器式共振器式共振器式共振器式共振器式共振器式共振器式共振器式
CM正規化器は真のデータ分布の回復を保証する。
ベンチマーク実験により、CATDMは埋没崩壊を緩和し、FFHQ、LSUN教会、LSUNベッドルームにおいて優れた結果をもたらすことが示された。
特に、CATDMはImageNetで$256\times256$で$6.81のFIDを達成している。
機械翻訳における非自己回帰モデルよりも優れており、テキスト生成における従来の手法と同等である。
関連論文リスト
- Model Inversion Attacks Through Target-Specific Conditional Diffusion Models [54.69008212790426]
モデルアタック(MIA)は、ターゲット分類器のトレーニングセットからプライベートイメージを再構築することを目的としており、それによってAIアプリケーションにおけるプライバシー上の懸念が高まる。
従来のGANベースのMIAは、GANの固有の欠陥と潜伏空間における最適化の偏りにより、劣った遺伝子的忠実度に悩まされる傾向にある。
これらの問題を緩和するために拡散モデル反転(Diff-MI)攻撃を提案する。
論文 参考訳(メタデータ) (2024-07-16T06:38:49Z) - Struggle with Adversarial Defense? Try Diffusion [8.274506117450628]
アドリア攻撃は微妙な摂動を導入して誤分類を引き起こす。
拡散に基づく敵の訓練は、しばしば収束の課題と高い計算費用に遭遇する。
本稿では,これらの問題を克服するために,真性最大化拡散(TMDC)を提案する。
論文 参考訳(メタデータ) (2024-04-12T06:52:40Z) - Consistent Diffusion Meets Tweedie: Training Exact Ambient Diffusion Models with Noisy Data [74.2507346810066]
アンビエント拡散(アンビエント拡散、アンビエント拡散、アンビエント拡散、アンビエント拡散、アンビエント拡散、アンビエント拡散、アンビエント拡散、アンビエント拡散、アンビエント拡散、アンビエント拡散、アンビエント拡散、アンビエント拡散、アンビエント拡散、アンビエント拡散
本稿では,ノイズの多い学習データのみを考慮し,故障のない分布から確実にサンプルを採取する拡散モデルのトレーニングのための最初のフレームワークを提案する。
論文 参考訳(メタデータ) (2024-03-20T14:22:12Z) - DiffClass: Diffusion-Based Class Incremental Learning [30.514281721324853]
クラスインクリメンタルラーニング(CIL)は破滅的な忘れが原因で困難である。
最近の例のないCIL手法は、過去のタスクデータを合成することによって破滅的な忘れを軽減しようとする。
そこで本研究では,これらの問題を克服するために,新しい非定型CIL法を提案する。
論文 参考訳(メタデータ) (2024-03-08T03:34:18Z) - One More Step: A Versatile Plug-and-Play Module for Rectifying Diffusion
Schedule Flaws and Enhancing Low-Frequency Controls [77.42510898755037]
One More Step (OMS) は、推論中に単純だが効果的なステップを付加したコンパクトネットワークである。
OMSは画像の忠実度を高め、トレーニングと推論の二分法を調和させ、元のモデルパラメータを保存する。
トレーニングが完了すると、同じ潜在ドメインを持つ様々な事前訓練された拡散モデルが同じOMSモジュールを共有することができる。
論文 参考訳(メタデータ) (2023-11-27T12:02:42Z) - Phasic Content Fusing Diffusion Model with Directional Distribution
Consistency for Few-Shot Model Adaption [73.98706049140098]
本稿では,方向分布の整合性を損なう少数ショット拡散モデルを用いた新しいファシックコンテンツを提案する。
具体的には、ファシックコンテンツ融合を用いたファシックトレーニング戦略を設計し、tが大きければ、モデルがコンテンツやスタイル情報を学ぶのに役立てる。
最後に、ドメイン適応時の構造整合性を高めるクロスドメイン構造ガイダンス戦略を提案する。
論文 参考訳(メタデータ) (2023-09-07T14:14:11Z) - GSURE-Based Diffusion Model Training with Corrupted Data [35.56267114494076]
本稿では, 劣化データのみに基づく生成拡散モデルのための新しいトレーニング手法を提案する。
顔画像と磁気共鳴画像(MRI)の撮影技術について紹介する。
論文 参考訳(メタデータ) (2023-05-22T15:27:20Z) - Hierarchical Integration Diffusion Model for Realistic Image Deblurring [71.76410266003917]
拡散モデル (DM) は画像劣化に導入され, 有望な性能を示した。
本稿では,階層型統合拡散モデル(HI-Diff)を提案する。
人工的および実世界のぼかしデータセットの実験は、HI-Diffが最先端の手法より優れていることを示した。
論文 参考訳(メタデータ) (2023-05-22T12:18:20Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。