論文の概要: NVAE: A Deep Hierarchical Variational Autoencoder
- arxiv url: http://arxiv.org/abs/2007.03898v3
- Date: Fri, 8 Jan 2021 03:08:58 GMT
- ステータス: 処理完了
- システム内更新日: 2022-11-12 09:43:52.460048
- Title: NVAE: A Deep Hierarchical Variational Autoencoder
- Title(参考訳): NVAE: 階層的な変分オートエンコーダ
- Authors: Arash Vahdat, Jan Kautz
- Abstract要約: 本稿では,深度ワイド分離可能な畳み込みとバッチ正規化を用いた画像生成のための階層型VAEを提案する。
NVAEは非自己回帰的確率ベースモデルにおいて最先端の結果が得られることを示す。
我々の知る限りでは、NVAEは256$times $256ピクセルの自然画像に適用された最初のVAEである。
- 参考スコア(独自算出の注目度): 102.29977384039805
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Normalizing flows, autoregressive models, variational autoencoders (VAEs),
and deep energy-based models are among competing likelihood-based frameworks
for deep generative learning. Among them, VAEs have the advantage of fast and
tractable sampling and easy-to-access encoding networks. However, they are
currently outperformed by other models such as normalizing flows and
autoregressive models. While the majority of the research in VAEs is focused on
the statistical challenges, we explore the orthogonal direction of carefully
designing neural architectures for hierarchical VAEs. We propose Nouveau VAE
(NVAE), a deep hierarchical VAE built for image generation using depth-wise
separable convolutions and batch normalization. NVAE is equipped with a
residual parameterization of Normal distributions and its training is
stabilized by spectral regularization. We show that NVAE achieves
state-of-the-art results among non-autoregressive likelihood-based models on
the MNIST, CIFAR-10, CelebA 64, and CelebA HQ datasets and it provides a strong
baseline on FFHQ. For example, on CIFAR-10, NVAE pushes the state-of-the-art
from 2.98 to 2.91 bits per dimension, and it produces high-quality images on
CelebA HQ. To the best of our knowledge, NVAE is the first successful VAE
applied to natural images as large as 256$\times$256 pixels. The source code is
available at https://github.com/NVlabs/NVAE .
- Abstract(参考訳): フローの正規化、自己回帰モデル、変動オートエンコーダ(VAE)、深層エネルギーベースモデルは、深層生成学習のための競合する可能性ベースのフレームワークである。
その中でもvaeは、高速で扱いやすいサンプリングとアクセスしやすいエンコーディングネットワークの利点がある。
しかし、現在ではフローの正規化や自己回帰モデルなど、他のモデルよりも優れています。
VAEの研究の大部分は統計的な課題に焦点を当てているが、階層的なVAEのための神経アーキテクチャを慎重に設計する直交方向について検討する。
本研究では,深度的に分離可能な畳み込みとバッチ正規化を用いた画像生成のための階層型VAEであるNouveau VAE(NVAE)を提案する。
NVAEは正規分布の残留パラメータ化を備えており、そのトレーニングはスペクトル正則化によって安定化される。
NVAEは、MNIST、CIFAR-10、CelebA 64、CelebA HQデータセット上の非自己回帰的確率ベースモデルのうち、最先端の結果を達成し、FFHQに強力なベースラインを提供する。
例えば、CIFAR-10では、NVAEは2.98ビットから2.91ビットまで最先端の画像をCelebA本社で生成する。
我々の知る限りでは、NVAEは256$\times$256ピクセルの自然画像に適用された最初のVAEである。
ソースコードはhttps://github.com/NVlabs/NVAEで入手できる。
関連論文リスト
- Quantum Down Sampling Filter for Variational Auto-encoder [0.504868948270058]
変分オートエンコーダ(VAE)は、生成モデリングと画像再構成に不可欠なツールである。
本研究は, 画像の解像度を向上し, 細部を保存することにより, 画像の画質を向上させることを目的とする。
本稿では,VAEエンコーダの量子コンピューティング技術とデコーダの畳み込みニューラルネットワーク(CNN)を組み合わせたハイブリッドモデルを提案する。
論文 参考訳(メタデータ) (2025-01-09T11:08:55Z) - Reconstruction vs. Generation: Taming Optimization Dilemma in Latent Diffusion Models [34.15905637499148]
本稿では,視覚トークン化器のトレーニングにおいて,潜在空間と事前学習された視覚基盤モデルとの整合性を提案する。
提案するVA-VAEは遅延拡散モデルの再構成世代フロンティアを著しく拡張する。
私たちは、LightningDiTと呼ばれるトレーニング戦略とアーキテクチャ設計を改善した拡張DiTベースラインを構築します。
論文 参考訳(メタデータ) (2025-01-02T18:59:40Z) - Jet: A Modern Transformer-Based Normalizing Flow [62.2573739835562]
本稿では,結合型正規化フローモデルの設計を再考する。
よりシンプルなアーキテクチャで、最先端の定量的、質的なパフォーマンスを実現しています。
論文 参考訳(メタデータ) (2024-12-19T18:09:42Z) - DeepDC: Deep Distance Correlation as a Perceptual Image Quality
Evaluator [53.57431705309919]
ImageNet Pre-trained Deep Neural Network (DNN)は、効果的な画像品質評価(IQA)モデルを構築するための顕著な転送性を示す。
我々は,事前学習DNN機能のみに基づく新しいフル参照IQA(FR-IQA)モデルを開発した。
5つの標準IQAデータセット上で,提案した品質モデルの優位性を示すため,包括的実験を行った。
論文 参考訳(メタデータ) (2022-11-09T14:57:27Z) - Lossy Image Compression with Quantized Hierarchical VAEs [33.173021636656465]
ResNet VAEはもともとデータ(画像)の分散モデリングのために設計された。
自然画像の損失圧縮における従来の手法より優れる、強力で効率的なモデルを提案する。
本モデルでは,画像を粗大に圧縮し,並列符号化と復号化をサポートする。
論文 参考訳(メタデータ) (2022-08-27T17:15:38Z) - Spatial Dependency Networks: Neural Layers for Improved Generative Image
Modeling [79.15521784128102]
画像生成装置(デコーダ)を構築するための新しいニューラルネットワークを導入し、可変オートエンコーダ(VAE)に適用する。
空間依存ネットワーク(sdns)では、ディープニューラルネットの各レベルにおける特徴マップを空間的にコヒーレントな方法で計算する。
空間依存層による階層型vaeのデコーダの強化は密度推定を大幅に改善することを示す。
論文 参考訳(メタデータ) (2021-03-16T07:01:08Z) - Very Deep VAEs Generalize Autoregressive Models and Can Outperform Them
on Images [9.667538864515285]
我々は,すべての自然画像ベンチマークにおいて,PixelCNNをログライクな性能で上回りながら,初めてサンプルを高速に生成する階層型VAEを提案する。
理論上、VAEは自己回帰モデルを表現することができ、もし存在すればより高速でより良いモデルを作ることができる。
論文 参考訳(メタデータ) (2020-11-20T21:35:31Z) - A Contrastive Learning Approach for Training Variational Autoencoder
Priors [137.62674958536712]
変分オートエンコーダ(VAE)は、多くの領域で応用される強力な可能性に基づく生成モデルの一つである。
VAEsが生成性に乏しいことの1つの説明は、事前の分布が集合の近似的な後部と一致しないという、事前の穴の問題である。
本研究では, 基底分布の積と再重み付け係数によって定義されるエネルギーベースの事前定義を行い, 基底を集合体後部へ近づけるようにした。
論文 参考訳(メタデータ) (2020-10-06T17:59:02Z) - Locally Masked Convolution for Autoregressive Models [107.4635841204146]
LMConvは標準的な2Dコンボリューションの簡単な修正であり、任意のマスクを画像の各位置の重みに適用することができる。
我々は,パラメータを共有するが生成順序が異なる分布推定器のアンサンブルを学習し,全画像密度推定の性能を向上させる。
論文 参考訳(メタデータ) (2020-06-22T17:59:07Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。