論文の概要: VAEBM: A Symbiosis between Variational Autoencoders and Energy-based
Models
- arxiv url: http://arxiv.org/abs/2010.00654v3
- Date: Thu, 4 Nov 2021 23:49:01 GMT
- ステータス: 処理完了
- システム内更新日: 2022-10-12 07:08:51.315884
- Title: VAEBM: A Symbiosis between Variational Autoencoders and Energy-based
Models
- Title(参考訳): VAEBM:変分オートエンコーダとエネルギーモデルとの共生
- Authors: Zhisheng Xiao, Karsten Kreis, Jan Kautz, Arash Vahdat
- Abstract要約: エネルギーベースモデル(EBM)は、最近、小さな画像の複雑な分布を表すことに成功している。
VAEBMは、最先端のVAEを使用して、データ分散の全体的なモード構造をキャプチャする。
EBMコンポーネントを使用して、モデルから非データライクな領域を明示的に排除し、イメージサンプルを精査する。
- 参考スコア(独自算出の注目度): 84.14682116977433
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Energy-based models (EBMs) have recently been successful in representing
complex distributions of small images. However, sampling from them requires
expensive Markov chain Monte Carlo (MCMC) iterations that mix slowly in high
dimensional pixel space. Unlike EBMs, variational autoencoders (VAEs) generate
samples quickly and are equipped with a latent space that enables fast
traversal of the data manifold. However, VAEs tend to assign high probability
density to regions in data space outside the actual data distribution and often
fail at generating sharp images. In this paper, we propose VAEBM, a symbiotic
composition of a VAE and an EBM that offers the best of both worlds. VAEBM
captures the overall mode structure of the data distribution using a
state-of-the-art VAE and it relies on its EBM component to explicitly exclude
non-data-like regions from the model and refine the image samples. Moreover,
the VAE component in VAEBM allows us to speed up MCMC updates by
reparameterizing them in the VAE's latent space. Our experimental results show
that VAEBM outperforms state-of-the-art VAEs and EBMs in generative quality on
several benchmark image datasets by a large margin. It can generate
high-quality images as large as 256$\times$256 pixels with short MCMC chains.
We also demonstrate that VAEBM provides complete mode coverage and performs
well in out-of-distribution detection. The source code is available at
https://github.com/NVlabs/VAEBM
- Abstract(参考訳): エネルギーベースモデル(EBM)は、最近、小さな画像の複雑な分布を表すことに成功している。
しかし、それらからサンプリングするには、高次元ピクセル空間でゆっくりと混合する高価なマルコフ連鎖モンテカルロ (MCMC) の反復が必要である。
EBMとは異なり、可変オートエンコーダ(VAE)はサンプルを迅速に生成し、データ多様体の高速な移動を可能にする潜在空間を備える。
しかしながら、VAEは実際のデータ分布外の領域に高い確率密度を割り当てる傾向があり、しばしばシャープな画像を生成するのに失敗する。
本稿では,両世界の長所を提供するVAEBMとESMの共生構成であるVAEBMを提案する。
VAEBMは、最先端のVAEを使用してデータ分散の全体モード構造をキャプチャし、EBMコンポーネントに依存して、モデルから非データライクな領域を明示的に排除し、画像サンプルを精査する。
さらに、VAEBMのVAEコンポーネントは、VAEの潜伏空間で再パラメータ化することで、MCMC更新を高速化することができる。
実験の結果,VAEBMは,複数のベンチマーク画像データセットにおいて,最先端のVAEやESMよりも高い生成品質を示すことがわかった。
MCMCチェーンが短い256$\times$256ピクセルの高品質な画像を生成することができる。
また, VAEBMは全モードカバレッジを提供し, 分布外検出でも良好に動作することを示した。
ソースコードはhttps://github.com/NVlabs/VAEBMで入手できる。
関連論文リスト
- Meissonic: Revitalizing Masked Generative Transformers for Efficient High-Resolution Text-to-Image Synthesis [62.06970466554273]
SDXLのような最先端拡散モデルに匹敵するレベルまで、非自己回帰マスク型画像モデリング(MIM)のテキスト・ツー・イメージが増大するMeissonicを提案する。
高品質なトレーニングデータを活用し、人間の嗜好スコアから得られるマイクロ条件を統合し、特徴圧縮層を用いて画像の忠実度と解像度をさらに向上する。
我々のモデルは、高画質の高精細画像を生成する際に、SDXLのような既存のモデルに適合するだけでなく、しばしば性能を上回ります。
論文 参考訳(メタデータ) (2024-10-10T17:59:17Z) - HMT-UNet: A hybird Mamba-Transformer Vision UNet for Medical Image Segmentation [1.5574423250822542]
我々はHybird Transformer Vision Mamba UNet(HTM-UNet)という医療画像分割のためのU字型アーキテクチャーモデルを提案する。
我々はISIC17、ISIC18、CVC-300、CVC-ClinicDB、Kvasir、CVC-ColonDB、ETIS-Larib PolypDBパブリックデータセット、ZD-LCI-GIMプライベートデータセットに関する包括的な実験を行う。
論文 参考訳(メタデータ) (2024-08-21T02:25:14Z) - Efficient Visual State Space Model for Image Deblurring [83.57239834238035]
畳み込みニューラルネットワーク(CNN)とビジョントランスフォーマー(ViT)は、画像復元において優れた性能を発揮している。
本稿では,画像のデブロアに対する簡易かつ効果的な視覚状態空間モデル(EVSSM)を提案する。
論文 参考訳(メタデータ) (2024-05-23T09:13:36Z) - DiM: Diffusion Mamba for Efficient High-Resolution Image Synthesis [56.849285913695184]
Diffusion Mamba (DiM) は高分解能画像合成のためのシーケンスモデルである。
DiMアーキテクチャは高解像度画像の推論時間効率を実現する。
実験は、我々のDiMの有効性と効率を実証する。
論文 参考訳(メタデータ) (2024-05-23T06:53:18Z) - Improving Denoising Diffusion Probabilistic Models via Exploiting Shared
Representations [5.517338199249029]
SR-DDPMはノイズ拡散過程を逆転することで高品質な画像を生成する生成モデルのクラスである。
多様なデータ分布の類似性を利用して、画像の品質を損なうことなく、複数のタスクにスケールできる。
提案手法を標準画像データセット上で評価し、FIDとSSIMの指標で条件付きDDPMと条件付きDDPMの両方より優れていることを示す。
論文 参考訳(メタデータ) (2023-11-27T22:30:26Z) - PaDiM: a Patch Distribution Modeling Framework for Anomaly Detection and
Localization [64.39761523935613]
本稿では,画像中の異常を同時検出・ローカライズするPatch Distribution Modeling, PaDiMを提案する。
PaDiMは、パッチの埋め込みに事前訓練された畳み込みニューラルネットワーク(CNN)を使用している。
また、CNNの異なるセマンティックレベル間の相関を利用して、異常のローカライズも改善している。
論文 参考訳(メタデータ) (2020-11-17T17:29:18Z) - NVAE: A Deep Hierarchical Variational Autoencoder [102.29977384039805]
本稿では,深度ワイド分離可能な畳み込みとバッチ正規化を用いた画像生成のための階層型VAEを提案する。
NVAEは非自己回帰的確率ベースモデルにおいて最先端の結果が得られることを示す。
我々の知る限りでは、NVAEは256$times $256ピクセルの自然画像に適用された最初のVAEである。
論文 参考訳(メタデータ) (2020-07-08T04:56:56Z) - AE-OT-GAN: Training GANs from data specific latent distribution [21.48007565143911]
GAN(Generative Adversarial Network)は、現実的かつクリップな画像を生成するモデルである。
GANはしばしばモード崩壊問題に遭遇し、連続DNNを用いて本質的不連続分布変換マップを近似することから訓練に固執する。
最近提案されたAE-OTモデルでは、不連続なdistribu-tion変換マップを明示的に計算することで、この問題に対処している。
本稿では,AE-OT-GANモデルを用いて,高品質な画像を生成すると同時に,モード崩壊/混合問題を克服する。
論文 参考訳(メタデータ) (2020-01-11T01:18:00Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。