論文の概要: DisCo-Diff: Enhancing Continuous Diffusion Models with Discrete Latents
- arxiv url: http://arxiv.org/abs/2407.03300v1
- Date: Wed, 3 Jul 2024 17:42:46 GMT
- ステータス: 処理完了
- システム内更新日: 2024-07-04 13:05:47.119630
- Title: DisCo-Diff: Enhancing Continuous Diffusion Models with Discrete Latents
- Title(参考訳): DisCo-Diff: 離散遅延による連続拡散モデルの強化
- Authors: Yilun Xu, Gabriele Corso, Tommi Jaakkola, Arash Vahdat, Karsten Kreis,
- Abstract要約: 本研究では,複雑なデータ分布を単一連続ガウス分布に符号化するDisCo-Diffを提案する。
DisCo-Diffはトレーニング済みのネットワークに依存しておらず、フレームワークを普遍的に適用することができる。
玩具データ, 画像合成タスク, 分子ドッキングに関するDisCo-Diffの検証を行い, 離散潜水剤の導入によりモデル性能が一貫した改善が得られた。
- 参考スコア(独自算出の注目度): 41.86208391836456
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Diffusion models (DMs) have revolutionized generative learning. They utilize a diffusion process to encode data into a simple Gaussian distribution. However, encoding a complex, potentially multimodal data distribution into a single continuous Gaussian distribution arguably represents an unnecessarily challenging learning problem. We propose Discrete-Continuous Latent Variable Diffusion Models (DisCo-Diff) to simplify this task by introducing complementary discrete latent variables. We augment DMs with learnable discrete latents, inferred with an encoder, and train DM and encoder end-to-end. DisCo-Diff does not rely on pre-trained networks, making the framework universally applicable. The discrete latents significantly simplify learning the DM's complex noise-to-data mapping by reducing the curvature of the DM's generative ODE. An additional autoregressive transformer models the distribution of the discrete latents, a simple step because DisCo-Diff requires only few discrete variables with small codebooks. We validate DisCo-Diff on toy data, several image synthesis tasks as well as molecular docking, and find that introducing discrete latents consistently improves model performance. For example, DisCo-Diff achieves state-of-the-art FID scores on class-conditioned ImageNet-64/128 datasets with ODE sampler.
- Abstract(参考訳): 拡散モデル(DM)は、生成学習に革命をもたらした。
彼らは拡散過程を利用して、データを単純なガウス分布にエンコードする。
しかし、複雑で潜在的に多モードなデータ分布を単一の連続ガウス分布に符号化することは、必然的に困難な学習問題である。
本稿では,離散型潜伏変数の導入により,離散型連続潜伏変数拡散モデル(Disco-Diff)を提案する。
学習可能な離散ラテントでDMを拡張し、エンコーダで推論し、DMとエンコーダをエンドツーエンドで訓練する。
DisCo-Diffはトレーニング済みのネットワークに依存しておらず、フレームワークを普遍的に適用することができる。
離散潜水器は、DMの生成ODEの曲率を小さくすることで、DMの複雑なノイズ-データマッピングの学習を著しく単純化する。
追加の自己回帰変換器は離散潜在変数の分布をモデル化するが、これはDisCo-Diffが小さなコードブックを持つ離散変数をほとんど必要としないため単純なステップである。
玩具データ, 画像合成タスク, 分子ドッキングに関するDisCo-Diffの検証を行い, 離散潜水剤の導入によりモデル性能が一貫した改善が得られた。
例えば、DisCo-DiffはODEサンプルでクラス条件のImageNet-64/128データセットで最先端のFIDスコアを達成している。
関連論文リスト
- DDIL: Improved Diffusion Distillation With Imitation Learning [57.3467234269487]
拡散モデルは生成モデリング(例:text-to-image)に優れるが、サンプリングには複数の遅延ネットワークパスが必要である。
プログレッシブ蒸留や一貫性蒸留は、パスの数を減らして将来性を示す。
DDILの一貫性は, プログレッシブ蒸留 (PD), 潜在整合モデル (LCM) および分散整合蒸留 (DMD2) のベースラインアルゴリズムにより向上することを示した。
論文 参考訳(メタデータ) (2024-10-15T18:21:47Z) - Discrete generative diffusion models without stochastic differential equations: a tensor network approach [1.5839621757142595]
拡散モデル(DM)は、生成機械学習の手法のクラスである。
ネットワーク(TN)を用いて,このような離散モデルを効率的に定義し,サンプリングする方法を示す。」
論文 参考訳(メタデータ) (2024-07-15T18:00:11Z) - Complexity Matters: Rethinking the Latent Space for Generative Modeling [65.64763873078114]
生成的モデリングにおいて、多くの成功したアプローチは、例えば安定拡散のような低次元の潜在空間を利用する。
本研究では, モデル複雑性の観点から潜在空間を再考することにより, 未探索の話題に光を当てることを目的としている。
論文 参考訳(メタデータ) (2023-07-17T07:12:29Z) - Semi-Implicit Denoising Diffusion Models (SIDDMs) [50.30163684539586]
Denoising Diffusion Probabilistic Models (DDPM)のような既存のモデルは、高品質で多様なサンプルを提供するが、本質的に多くの反復的なステップによって遅くなる。
暗黙的要因と明示的要因を一致させることにより、この問題に対処する新しいアプローチを導入する。
提案手法は拡散モデルに匹敵する生成性能と,少数のサンプリングステップを持つモデルに比較して非常に優れた結果が得られることを示す。
論文 参考訳(メタデータ) (2023-06-21T18:49:22Z) - Diff-Instruct: A Universal Approach for Transferring Knowledge From
Pre-trained Diffusion Models [77.83923746319498]
本稿では,任意の生成モデルの学習を指導するDiff-Instructというフレームワークを提案する。
Diff-Instructは、最先端の単一ステップ拡散モデルであることを示す。
GANモデルの精製実験により、Diff-InstructはGANモデルの事前訓練されたジェネレータを一貫して改善できることが示されている。
論文 参考訳(メタデータ) (2023-05-29T04:22:57Z) - Hierarchical Integration Diffusion Model for Realistic Image Deblurring [71.76410266003917]
拡散モデル (DM) は画像劣化に導入され, 有望な性能を示した。
本稿では,階層型統合拡散モデル(HI-Diff)を提案する。
人工的および実世界のぼかしデータセットの実験は、HI-Diffが最先端の手法より優れていることを示した。
論文 参考訳(メタデータ) (2023-05-22T12:18:20Z) - Variational Diffusion Auto-encoder: Latent Space Extraction from
Pre-trained Diffusion Models [0.0]
可変オートエンコーダ(VAE)は、生成された画像の品質の問題に直面し、しばしば目立った曖昧さを示す。
この問題は、条件付きデータ分布を近似する非現実的な仮定である $p(textbfx | textbfz)$ が等方ガウス的であることに由来する。
本稿では,エンコーダを最適化することにより,既存の拡散モデルから潜在空間を抽出し,限界データのログ化を最大化する方法について述べる。
論文 参考訳(メタデータ) (2023-04-24T14:44:47Z) - From Points to Functions: Infinite-dimensional Representations in
Diffusion Models [23.916417852496608]
拡散に基づく生成モデルは、非構造的雑音を複雑な対象分布に反復的に伝達することを学ぶ。
異なる時間ステップからの情報コンテンツを組み合わせることで、下流のタスクをより正確に表現できることが示される。
論文 参考訳(メタデータ) (2022-10-25T05:30:53Z) - Generation of data on discontinuous manifolds via continuous stochastic
non-invertible networks [6.201770337181472]
連続ネットワークを用いて不連続分布を生成する方法を示す。
コスト関数と情報理論の定式化の関係を導出する。
提案手法を合成2次元分布に適用し,不連続分布の再構成と生成の両立を実証する。
論文 参考訳(メタデータ) (2021-12-17T17:39:59Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。