Fugu-MT 論文翻訳(概要): NVAE: A Deep Hierarchical Variational Autoencoder

論文の概要: NVAE: A Deep Hierarchical Variational Autoencoder

arxiv url: http://arxiv.org/abs/2007.03898v3
Date: Fri, 8 Jan 2021 03:08:58 GMT
ステータス: 翻訳完了
システム内更新日: 2022-11-12 09:43:52.460048
Title: NVAE: A Deep Hierarchical Variational Autoencoder
Title（参考訳）: NVAE: 階層的な変分オートエンコーダ
Authors: Arash Vahdat, Jan Kautz
Abstract要約: 本稿では,深度ワイド分離可能な畳み込みとバッチ正規化を用いた画像生成のための階層型VAEを提案する。 NVAEは非自己回帰的確率ベースモデルにおいて最先端の結果が得られることを示す。我々の知る限りでは、NVAEは256$times $256ピクセルの自然画像に適用された最初のVAEである。
参考スコア（独自算出の注目度）: 102.29977384039805
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: Normalizing flows, autoregressive models, variational autoencoders (VAEs), and deep energy-based models are among competing likelihood-based frameworks for deep generative learning. Among them, VAEs have the advantage of fast and tractable sampling and easy-to-access encoding networks. However, they are currently outperformed by other models such as normalizing flows and autoregressive models. While the majority of the research in VAEs is focused on the statistical challenges, we explore the orthogonal direction of carefully designing neural architectures for hierarchical VAEs. We propose Nouveau VAE (NVAE), a deep hierarchical VAE built for image generation using depth-wise separable convolutions and batch normalization. NVAE is equipped with a residual parameterization of Normal distributions and its training is stabilized by spectral regularization. We show that NVAE achieves state-of-the-art results among non-autoregressive likelihood-based models on the MNIST, CIFAR-10, CelebA 64, and CelebA HQ datasets and it provides a strong baseline on FFHQ. For example, on CIFAR-10, NVAE pushes the state-of-the-art from 2.98 to 2.91 bits per dimension, and it produces high-quality images on CelebA HQ. To the best of our knowledge, NVAE is the first successful VAE applied to natural images as large as 256$\times$256 pixels. The source code is available at https://github.com/NVlabs/NVAE .
Abstract（参考訳）: フローの正規化、自己回帰モデル、変動オートエンコーダ(VAE)、深層エネルギーベースモデルは、深層生成学習のための競合する可能性ベースのフレームワークである。その中でもvaeは、高速で扱いやすいサンプリングとアクセスしやすいエンコーディングネットワークの利点がある。しかし、現在ではフローの正規化や自己回帰モデルなど、他のモデルよりも優れています。 VAEの研究の大部分は統計的な課題に焦点を当てているが、階層的なVAEのための神経アーキテクチャを慎重に設計する直交方向について検討する。本研究では,深度的に分離可能な畳み込みとバッチ正規化を用いた画像生成のための階層型VAEであるNouveau VAE(NVAE)を提案する。 NVAEは正規分布の残留パラメータ化を備えており、そのトレーニングはスペクトル正則化によって安定化される。 NVAEは、MNIST、CIFAR-10、CelebA 64、CelebA HQデータセット上の非自己回帰的確率ベースモデルのうち、最先端の結果を達成し、FFHQに強力なベースラインを提供する。例えば、CIFAR-10では、NVAEは2.98ビットから2.91ビットまで最先端の画像をCelebA本社で生成する。我々の知る限りでは、NVAEは256$\times$256ピクセルの自然画像に適用された最初のVAEである。ソースコードはhttps://github.com/NVlabs/NVAEで入手できる。

関連論文リスト

Reconstruction vs. Generation: Taming Optimization Dilemma in Latent Diffusion Models [33.519892081718716]
本稿では,視覚トークン化器のトレーニングにおいて,潜在空間と事前学習された視覚基盤モデルとの整合性を提案する。提案するVA-VAEは遅延拡散モデルの再構成世代フロンティアを著しく拡張する。私たちは、LightningDiTと呼ばれるトレーニング戦略とアーキテクチャ設計を改善した拡張DiTベースラインを構築します。
論文参考訳（メタデータ） (2025-01-02T18:59:40Z)
Jet: A Modern Transformer-Based Normalizing Flow [62.2573739835562]
本稿では,結合型正規化フローモデルの設計を再考する。よりシンプルなアーキテクチャで、最先端の定量的、質的なパフォーマンスを実現しています。
論文参考訳（メタデータ） (2024-12-19T18:09:42Z)
Hierarchical Patch Diffusion Models for High-Resolution Video Generation [50.42746357450949]
我々は,階層的な方法で,コンテキスト情報を低スケールから高スケールのパッチに伝播する深層文脈融合を開発する。また,ネットワーク容量の増大と,粗い画像の細部への演算を行う適応計算を提案する。得られたモデルは、クラス条件のビデオ生成において66.32の最先端FVDスコアと87.68のインセプションスコアを新たに設定する。
論文参考訳（メタデータ） (2024-06-12T01:12:53Z)
Variational Bayes image restoration with compressive autoencoders [4.879530644978008]
逆問題の正規化は、計算イメージングにおいて最重要となる。本研究では,まず,最先端生成モデルの代わりに圧縮型オートエンコーダを提案する。第2の貢献として、変分ベイズ潜時推定(VBLE)アルゴリズムを導入する。
論文参考訳（メタデータ） (2023-11-29T15:49:31Z)
DeepDC: Deep Distance Correlation as a Perceptual Image Quality Evaluator [53.57431705309919]
ImageNet Pre-trained Deep Neural Network (DNN)は、効果的な画像品質評価(IQA)モデルを構築するための顕著な転送性を示す。我々は,事前学習DNN機能のみに基づく新しいフル参照IQA(FR-IQA)モデルを開発した。 5つの標準IQAデータセット上で,提案した品質モデルの優位性を示すため,包括的実験を行った。
論文参考訳（メタデータ） (2022-11-09T14:57:27Z)
Denoising Masked AutoEncoders are Certifiable Robust Vision Learners [37.04863068273281]
DMAE(Denoising Masked AutoEncoders)と呼ばれる自己教師型手法を提案する。 DMAEは各ピクセル値にガウスノイズを加え、複数のパッチをランダムにマスキングすることで、各イメージを劣化させる。その後、Transformerベースのエンコーダデコーダモデルをトレーニングして、オリジナルのイメージを破損したイメージから再構築する。
論文参考訳（メタデータ） (2022-10-10T12:37:59Z)
Lossy Image Compression with Quantized Hierarchical VAEs [33.173021636656465]
ResNet VAEはもともとデータ(画像)の分散モデリングのために設計された。自然画像の損失圧縮における従来の手法より優れる、強力で効率的なモデルを提案する。本モデルでは,画像を粗大に圧縮し,並列符号化と復号化をサポートする。
論文参考訳（メタデータ） (2022-08-27T17:15:38Z)
Spatial Dependency Networks: Neural Layers for Improved Generative Image Modeling [79.15521784128102]
画像生成装置(デコーダ)を構築するための新しいニューラルネットワークを導入し、可変オートエンコーダ(VAE)に適用する。空間依存ネットワーク(sdns)では、ディープニューラルネットの各レベルにおける特徴マップを空間的にコヒーレントな方法で計算する。空間依存層による階層型vaeのデコーダの強化は密度推定を大幅に改善することを示す。
論文参考訳（メタデータ） (2021-03-16T07:01:08Z)
Very Deep VAEs Generalize Autoregressive Models and Can Outperform Them on Images [9.667538864515285]
我々は,すべての自然画像ベンチマークにおいて,PixelCNNをログライクな性能で上回りながら,初めてサンプルを高速に生成する階層型VAEを提案する。理論上、VAEは自己回帰モデルを表現することができ、もし存在すればより高速でより良いモデルを作ることができる。
論文参考訳（メタデータ） (2020-11-20T21:35:31Z)
A Contrastive Learning Approach for Training Variational Autoencoder Priors [137.62674958536712]
変分オートエンコーダ(VAE)は、多くの領域で応用される強力な可能性に基づく生成モデルの一つである。 VAEsが生成性に乏しいことの1つの説明は、事前の分布が集合の近似的な後部と一致しないという、事前の穴の問題である。本研究では, 基底分布の積と再重み付け係数によって定義されるエネルギーベースの事前定義を行い, 基底を集合体後部へ近づけるようにした。
論文参考訳（メタデータ） (2020-10-06T17:59:02Z)
Locally Masked Convolution for Autoregressive Models [107.4635841204146]
LMConvは標準的な2Dコンボリューションの簡単な修正であり、任意のマスクを画像の各位置の重みに適用することができる。我々は,パラメータを共有するが生成順序が異なる分布推定器のアンサンブルを学習し,全画像密度推定の性能を向上させる。
論文参考訳（メタデータ） (2020-06-22T17:59:07Z)
Neuromorphologicaly-preserving Volumetric data encoding using VQ-VAE [4.221619479687068]
VQ-VAEにインスパイアされたネットワークは、全解像度の3D脳の容積を効率よくエンコードし、画像の忠実さを維持しながら元のサイズの0.825%$に圧縮できることを示す。次に、VQ-VAEデコードされた画像は、ボクセルに基づく形態学およびセグメンテーション実験により、元のデータの形態的特性を保っていることを示す。
論文参考訳（メタデータ） (2020-02-13T18:18:51Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。