論文の概要: AVAE: Adversarial Variational Auto Encoder
- arxiv url: http://arxiv.org/abs/2012.11551v1
- Date: Mon, 21 Dec 2020 18:29:56 GMT
- ステータス: 処理完了
- システム内更新日: 2021-04-27 06:30:45.315054
- Title: AVAE: Adversarial Variational Auto Encoder
- Title(参考訳): AVAE: 逆変分オートエンコーダ
- Authors: Antoine Plumerault, Herv\'e Le Borgne, C\'eline Hudelot
- Abstract要約: VAEとGANを新規かつ補完的な方法で組み合わせ、自動符号化モデルを作成する新しいフレームワークを紹介します。
5つの画像データセットを質的かつ定量的に評価した。
- 参考スコア(独自算出の注目度): 2.1485350418225244
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Among the wide variety of image generative models, two models stand out:
Variational Auto Encoders (VAE) and Generative Adversarial Networks (GAN). GANs
can produce realistic images, but they suffer from mode collapse and do not
provide simple ways to get the latent representation of an image. On the other
hand, VAEs do not have these problems, but they often generate images less
realistic than GANs. In this article, we explain that this lack of realism is
partially due to a common underestimation of the natural image manifold
dimensionality. To solve this issue we introduce a new framework that combines
VAE and GAN in a novel and complementary way to produce an auto-encoding model
that keeps VAEs properties while generating images of GAN-quality. We evaluate
our approach both qualitatively and quantitatively on five image datasets.
- Abstract(参考訳): 多様な画像生成モデルのうち、2つのモデルは変分オートエンコーダ(VAE)とGAN(Generative Adversarial Networks)である。
GANはリアルな画像を生成できるが、モード崩壊に悩まされており、画像の潜伏表現を得るための簡単な方法を提供していない。
一方、VAEはこれらの問題を持たないが、GANよりも現実的な画像を生成することが多い。
本稿では、この現実主義の欠如は、自然像多様体次元の共通な過大評価によるものであることを述べる。
そこで本研究では,VAEとGANを相補的に組み合わせた新たなフレームワークを導入し,GAN品質の画像を生成しながら,VAEの特性を保ちながら自動符号化モデルを作成する。
5つの画像データセットを質的かつ定量的に評価した。
関連論文リスト
- Can We Generate Realistic Hands Only Using Convolution? [0.0]
画像生成モデルは、人間の手や指にあるような複雑な幾何学的特徴を再現できません。
本稿では,この問題を幾何的能力の畳み込み層を拡大することにより緩和する方法について述べる。
GANと変分オートエンコーダ(VAE)が生成する手・顔画像の品質を大幅に向上させることを示す。
論文 参考訳(メタデータ) (2024-01-03T19:27:20Z) - Unlocking Pre-trained Image Backbones for Semantic Image Synthesis [29.688029979801577]
本稿では,現実的な画像を生成するセマンティック画像合成のための新しい種類のGAN識別器を提案する。
DP-SIMSをダブした本モデルでは,ADE-20K,COCO-Stuff,Cityscapesの入力ラベルマップと画像品質と一貫性の両面から,最新の結果が得られる。
論文 参考訳(メタデータ) (2023-12-20T09:39:19Z) - A Bayesian Non-parametric Approach to Generative Models: Integrating
Variational Autoencoder and Generative Adversarial Networks using Wasserstein
and Maximum Mean Discrepancy [2.966338139852619]
GAN(Generative Adversarial Network)とVAE(VAE)は、最も顕著で広く研究されている生成モデルである。
ベイズ的非パラメトリック(BNP)アプローチを用いて、GANとVAEを融合する。
本稿では,GANの識別能力とVAEの再構成能力とを融合させることにより,多種多様な生成タスクにおいて優れた性能を実現する。
論文 参考訳(メタデータ) (2023-08-27T08:58:31Z) - NeRFInvertor: High Fidelity NeRF-GAN Inversion for Single-shot Real
Image Animation [66.0838349951456]
Nerfベースの生成モデルは、一貫した3次元幾何で高品質な画像を生成する能力を示している。
本研究では,このNeRF-GANモデルを外科的に微調整し,実物体の高忠実度アニメーションを単一画像のみで実現するための普遍的手法を提案する。
論文 参考訳(メタデータ) (2022-11-30T18:36:45Z) - DiVAE: Photorealistic Images Synthesis with Denoising Diffusion Decoder [73.1010640692609]
本稿では,拡散デコーダ(DiVAE)を用いたVQ-VAEアーキテクチャモデルを提案する。
我々のモデルは最先端の成果を達成し、さらに多くのフォトリアリスティックな画像を生成する。
論文 参考訳(メタデータ) (2022-06-01T10:39:12Z) - A Shared Representation for Photorealistic Driving Simulators [83.5985178314263]
本稿では、識別器アーキテクチャを再考することにより、生成画像の品質を向上させることを提案する。
シーンセグメンテーションマップや人体ポーズといったセマンティックインプットによって画像が生成されるという問題に焦点が当てられている。
我々は,意味的セグメンテーション,コンテンツ再構成,および粗い粒度の逆解析を行うのに十分な情報をエンコードする,共有潜在表現を学習することを目指している。
論文 参考訳(メタデータ) (2021-12-09T18:59:21Z) - InvGAN: Invertible GANs [88.58338626299837]
InvGANはInvertible GANの略で、高品質な生成モデルの潜在空間に実際の画像を埋め込むことに成功した。
これにより、画像のインペイント、マージ、オンラインデータ拡張を実行できます。
論文 参考訳(メタデータ) (2021-12-08T21:39:00Z) - Global Context with Discrete Diffusion in Vector Quantised Modelling for
Image Generation [19.156223720614186]
ベクトル量子変分オートエンコーダと自己回帰モデルとを生成部として統合することにより、画像生成における高品質な結果が得られる。
本稿では,VQ-VAEからのコンテンツリッチな離散視覚コードブックの助けを借りて,この離散拡散モデルにより,グローバルな文脈で高忠実度画像を生成することができることを示す。
論文 参考訳(メタデータ) (2021-12-03T09:09:34Z) - Ensembling with Deep Generative Views [72.70801582346344]
生成モデルは、色やポーズの変化などの現実世界の変動を模倣する人工画像の「ビュー」を合成することができる。
そこで本研究では, 画像分類などの下流解析作業において, 実画像に適用できるかどうかを検討する。
StyleGAN2を再生増強の源として使用し、顔の属性、猫の顔、車を含む分類タスクについてこの設定を調査します。
論文 参考訳(メタデータ) (2021-04-29T17:58:35Z) - Deep Variational Network Toward Blind Image Restoration [60.45350399661175]
ブラインド画像復元はコンピュータビジョンでは一般的だが難しい問題である。
両利点を両立させることを目的として,新しいブラインド画像復元手法を提案する。
画像デノイングと超解像という2つの典型的なブラインド赤外線タスクの実験により,提案手法が現状よりも優れた性能を達成できることが実証された。
論文 参考訳(メタデータ) (2020-08-25T03:30:53Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。