論文の概要: Variational Diffusion Auto-encoder: Latent Space Extraction from
Pre-trained Diffusion Models
- arxiv url: http://arxiv.org/abs/2304.12141v2
- Date: Thu, 18 May 2023 22:44:12 GMT
- ステータス: 処理完了
- システム内更新日: 2023-05-22 18:38:32.425950
- Title: Variational Diffusion Auto-encoder: Latent Space Extraction from
Pre-trained Diffusion Models
- Title(参考訳): 変分拡散オートエンコーダ:事前学習拡散モデルからの潜時空間抽出
- Authors: Georgios Batzolis, Jan Stanczuk, Carola-Bibiane Sch\"onlieb
- Abstract要約: 可変オートエンコーダ(VAE)は、生成された画像の品質の問題に直面し、しばしば目立った曖昧さを示す。
この問題は、条件付きデータ分布を近似する非現実的な仮定である $p(textbfx | textbfz)$ が等方ガウス的であることに由来する。
本稿では,エンコーダを最適化することにより,既存の拡散モデルから潜在空間を抽出し,限界データのログ化を最大化する方法について述べる。
- 参考スコア(独自算出の注目度): 0.0
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: As a widely recognized approach to deep generative modeling, Variational
Auto-Encoders (VAEs) still face challenges with the quality of generated
images, often presenting noticeable blurriness. This issue stems from the
unrealistic assumption that approximates the conditional data distribution,
$p(\textbf{x} | \textbf{z})$, as an isotropic Gaussian. In this paper, we
propose a novel solution to address these issues. We illustrate how one can
extract a latent space from a pre-existing diffusion model by optimizing an
encoder to maximize the marginal data log-likelihood. Furthermore, we
demonstrate that a decoder can be analytically derived post encoder-training,
employing the Bayes rule for scores. This leads to a VAE-esque deep latent
variable model, which discards the need for Gaussian assumptions on
$p(\textbf{x} | \textbf{z})$ or the training of a separate decoder network. Our
method, which capitalizes on the strengths of pre-trained diffusion models and
equips them with latent spaces, results in a significant enhancement to the
performance of VAEs.
- Abstract(参考訳): 深層生成モデリングへの広く認識されているアプローチとして、変分オートエンコーダ(vaes)は依然として生成画像の品質に問題があり、しばしば目に見えるぼやけを呈する。
この問題は、等方性ガウス型として条件付きデータ分布を近似する非現実的な仮定である$p(\textbf{x} | \textbf{z})$に由来する。
本稿では,この問題に対処するための新しい解決法を提案する。
本稿では,エンコーダを最適化することにより,既存の拡散モデルから潜在空間を抽出し,限界データのログ化を最大化する方法について述べる。
さらに,点数にベイズ則を適用した後エンコーダ学習を解析的に導出できることを実証する。
これは vae-esque の深い潜在変数モデルにつながり、$p(\textbf{x} | \textbf{z})$ 上のガウス仮定の必要性や、分離されたデコーダネットワークのトレーニングを廃止する。
本手法は, 事前学習した拡散モデルの強度を活かし, 潜伏空間に装備することにより, VAEの性能を著しく向上させる。
関連論文リスト
- Amortizing intractable inference in diffusion models for vision, language, and control [89.65631572949702]
本稿では,p(mathbfx)$以前の拡散生成モデルとブラックボックス制約,あるいは関数$r(mathbfx)$からなるモデルにおいて,データ上の後部サンプルである $mathbfxsim prm post(mathbfx)propto p(mathbfx)r(mathbfx)$について検討する。
我々は,データフリー学習目標である相対軌道バランスの正しさを,サンプルから抽出した拡散モデルの訓練のために証明する。
論文 参考訳(メタデータ) (2024-05-31T16:18:46Z) - Upgrading VAE Training With Unlimited Data Plans Provided by Diffusion
Models [12.542073306638988]
VAEにおけるオーバーフィッティングエンコーダは,事前学習した拡散モデルからのサンプルのトレーニングによって効果的に緩和できることを示す。
提案手法を用いて学習したVAEの一般化性能,償却ギャップ,ロバスト性を3つの異なるデータセットで解析した。
論文 参考訳(メタデータ) (2023-10-30T15:38:39Z) - Complexity Matters: Rethinking the Latent Space for Generative Modeling [65.64763873078114]
生成的モデリングにおいて、多くの成功したアプローチは、例えば安定拡散のような低次元の潜在空間を利用する。
本研究では, モデル複雑性の観点から潜在空間を再考することにより, 未探索の話題に光を当てることを目的としている。
論文 参考訳(メタデータ) (2023-07-17T07:12:29Z) - Dior-CVAE: Pre-trained Language Models and Diffusion Priors for
Variational Dialog Generation [70.2283756542824]
Dior-CVAEは階層型条件変分オートエンコーダ(CVAE)である。
拡散モデルを用いて、従来の分布の複雑さを増大させ、PLMが生成した分布との整合性を高める。
2つのオープンドメインダイアログデータセットを対象とした実験により,大規模ダイアログ事前学習を必要とせずに,より多様な応答を生成できることが判明した。
論文 参考訳(メタデータ) (2023-05-24T11:06:52Z) - Diffusion Models as Masked Autoencoders [52.442717717898056]
拡散モデルに対する近年の関心を踏まえて、生成的に事前学習された視覚表現を再考する。
拡散モデルによる直接事前学習では強い表現は得られないが、マスク付き入力上での拡散モデルと公式拡散モデルをマスク付きオートエンコーダ(DiffMAE)として条件付ける。
設計選択の長所と短所について包括的な研究を行い、拡散モデルとマスク付きオートエンコーダ間の接続を構築する。
論文 参考訳(メタデータ) (2023-04-06T17:59:56Z) - Fully Bayesian Autoencoders with Latent Sparse Gaussian Processes [23.682509357305406]
オートエンコーダとその変種は表現学習と生成モデリングにおいて最も広く使われているモデルの一つである。
ベイジアンオートエンコーダの潜在空間に完全スパースガウスプロセス先行を課す新しいスパースガウスプロセスベイジアンオートエンコーダモデルを提案する。
論文 参考訳(メタデータ) (2023-02-09T09:57:51Z) - Lossy Image Compression with Conditional Diffusion Models [25.158390422252097]
本稿では,拡散生成モデルを用いた画像圧縮のエンドツーエンド最適化について概説する。
VAEベースのニューラル圧縮とは対照的に、(平均)デコーダは決定論的ニューラルネットワークであり、私たちのデコーダは条件付き拡散モデルである。
提案手法では,GANモデルよりもFIDスコアが強く,VAEモデルとの競合性能も高い。
論文 参考訳(メタデータ) (2022-09-14T21:53:27Z) - Diffusion models as plug-and-play priors [98.16404662526101]
我々は、事前の$p(mathbfx)$と補助的な制約である$c(mathbfx,mathbfy)$からなるモデルにおいて、高次元データ$mathbfx$を推論する問題を考える。
拡散モデルの構造は,異なるノイズ量に富んだ定性デノナイジングネットワークを通じて,微分を反復することで近似推論を行うことができる。
論文 参考訳(メタデータ) (2022-06-17T21:11:36Z) - Exponentially Tilted Gaussian Prior for Variational Autoencoder [3.52359746858894]
近年の研究では, この課題に対して確率的生成モデルが不十分であることが示されている。
変分オートエンコーダ(VAE)の指数傾斜ガウス事前分布を提案する。
本モデルでは,標準ガウスVAEよりクオリティの高い画像サンプルが得られた。
論文 参考訳(メタデータ) (2021-11-30T18:28:19Z) - Autoencoding Variational Autoencoder [56.05008520271406]
我々は,この行動が学習表現に与える影響と,自己整合性の概念を導入することでそれを修正する結果について検討する。
自己整合性アプローチで訓練されたエンコーダは、敵攻撃による入力の摂動に対して頑健な(無神経な)表現につながることを示す。
論文 参考訳(メタデータ) (2020-12-07T14:16:14Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。