論文の概要: A Bayesian Non-parametric Approach to Generative Models: Integrating
Variational Autoencoder and Generative Adversarial Networks using Wasserstein
and Maximum Mean Discrepancy
- arxiv url: http://arxiv.org/abs/2308.14048v1
- Date: Sun, 27 Aug 2023 08:58:31 GMT
- ステータス: 処理完了
- システム内更新日: 2023-08-29 17:15:53.399137
- Title: A Bayesian Non-parametric Approach to Generative Models: Integrating
Variational Autoencoder and Generative Adversarial Networks using Wasserstein
and Maximum Mean Discrepancy
- Title(参考訳): ベイズ的非パラメトリックによる生成モデル:ワッサーシュタインと最大平均離散性を用いた変分オートエンコーダと生成対向ネットワークの統合
- Authors: Forough Fazeli-Asl and Michael Minyi Zhang
- Abstract要約: GAN(Generative Adversarial Network)とVAE(VAE)は、最も顕著で広く研究されている生成モデルである。
ベイズ的非パラメトリック(BNP)アプローチを用いて、GANとVAEを融合する。
本稿では,GANの識別能力とVAEの再構成能力とを融合させることにより,多種多様な生成タスクにおいて優れた性能を実現する。
- 参考スコア(独自算出の注目度): 2.966338139852619
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Generative models have emerged as a promising technique for producing
high-quality images that are indistinguishable from real images. Generative
adversarial networks (GANs) and variational autoencoders (VAEs) are two of the
most prominent and widely studied generative models. GANs have demonstrated
excellent performance in generating sharp realistic images and VAEs have shown
strong abilities to generate diverse images. However, GANs suffer from ignoring
a large portion of the possible output space which does not represent the full
diversity of the target distribution, and VAEs tend to produce blurry images.
To fully capitalize on the strengths of both models while mitigating their
weaknesses, we employ a Bayesian non-parametric (BNP) approach to merge GANs
and VAEs. Our procedure incorporates both Wasserstein and maximum mean
discrepancy (MMD) measures in the loss function to enable effective learning of
the latent space and generate diverse and high-quality samples. By fusing the
discriminative power of GANs with the reconstruction capabilities of VAEs, our
novel model achieves superior performance in various generative tasks, such as
anomaly detection and data augmentation. Furthermore, we enhance the model's
capability by employing an extra generator in the code space, which enables us
to explore areas of the code space that the VAE might have overlooked. With a
BNP perspective, we can model the data distribution using an
infinite-dimensional space, which provides greater flexibility in the model and
reduces the risk of overfitting. By utilizing this framework, we can enhance
the performance of both GANs and VAEs to create a more robust generative model
suitable for various applications.
- Abstract(参考訳): 生成モデルは、実画像と区別できない高品質な画像を生成するための有望な技術として登場してきた。
generative adversarial networks (gans) と variational autoencoder (vaes) は、最も顕著で広く研究されている生成モデルである。
GANは鮮明なリアルな画像を生成する上で優れた性能を示しており、VAEは多様な画像を生成する強力な能力を示している。
しかしながら、GANは、ターゲット分布の完全な多様性を表すものではない出力空間の大部分を無視し、VAEはぼやけた画像を生成する傾向にある。
弱さを緩和しながら両モデルの強みを最大限に活用するために、ベイズ非パラメトリック(BNP)アプローチを用いてGANとVAEを融合する。
本手法は,損失関数にwassersteinとmaximum mean discrepancy(mmd)を併用し,潜在空間の効果的な学習を可能にし,多様で高品質なサンプルを生成する。
本稿では,GANの識別能力とVAEの再構成能力とを融合させることで,異常検出やデータ拡張など,様々な生成タスクにおいて優れた性能を実現する。
さらに、コード空間に余分なジェネレータを使用することで、vaeが見落としているかもしれないコード空間の領域を探索することで、モデルの能力を高める。
BNPの観点からは、無限次元空間を用いてデータ分布をモデル化できるため、モデルの柔軟性が向上し、オーバーフィッティングのリスクを低減することができる。
このフレームワークを利用することで、GANとVAEの両方の性能を高め、様々なアプリケーションに適したより堅牢な生成モデルを作成することができる。
関連論文リスト
- Stabilize the Latent Space for Image Autoregressive Modeling: A Unified Perspective [52.778766190479374]
遅延ベース画像生成モデルは、画像生成タスクにおいて顕著な成功を収めた。
同じ遅延空間を共有するにもかかわらず、自己回帰モデルは画像生成において LDM や MIM よりもかなり遅れている。
本稿では,画像生成モデルのための遅延空間を安定化する,単純だが効果的な離散画像トークン化手法を提案する。
論文 参考訳(メタデータ) (2024-10-16T12:13:17Z) - Meissonic: Revitalizing Masked Generative Transformers for Efficient High-Resolution Text-to-Image Synthesis [62.06970466554273]
SDXLのような最先端拡散モデルに匹敵するレベルまで、非自己回帰マスク型画像モデリング(MIM)のテキスト・ツー・イメージが増大するMeissonicを提案する。
高品質なトレーニングデータを活用し、人間の嗜好スコアから得られるマイクロ条件を統合し、特徴圧縮層を用いて画像の忠実度と解像度をさらに向上する。
我々のモデルは、高画質の高精細画像を生成する際に、SDXLのような既存のモデルに適合するだけでなく、しばしば性能を上回ります。
論文 参考訳(メタデータ) (2024-10-10T17:59:17Z) - Elucidating Optimal Reward-Diversity Tradeoffs in Text-to-Image Diffusion Models [20.70550870149442]
Annealed Importance Guidance(AIG)は、Annealed Importance Smplingにインスパイアされた推論時正規化である。
安定拡散モデルに対するAIGの利点を実証し、報酬最適化と画像の多様性の最適なバランスを図った。
論文 参考訳(メタデータ) (2024-09-09T16:27:26Z) - DiffSG: A Generative Solver for Network Optimization with Diffusion Model [75.27274046562806]
拡散生成モデルはより広い範囲の解を考えることができ、学習パラメータによるより強力な一般化を示す。
拡散生成モデルの本質的な分布学習を利用して高品質な解を学習する新しいフレームワークを提案する。
論文 参考訳(メタデータ) (2024-08-13T07:56:21Z) - DomainStudio: Fine-Tuning Diffusion Models for Domain-Driven Image
Generation using Limited Data [20.998032566820907]
本稿では,大規模ソースデータセット上で事前学習したDDPMを限定データを用いて対象ドメインに適応する新しいDomainStudioアプローチを提案する。
ソースドメインが提供する主題の多様性を維持し、ターゲットドメインに高品質で多様な適応型サンプルを取得するように設計されている。
論文 参考訳(メタデータ) (2023-06-25T07:40:39Z) - Nonparametric Generative Modeling with Conditional Sliced-Wasserstein
Flows [101.31862036510701]
SWF(Sliced-Wasserstein Flow)は、非パラメトリックな生成モデルに対する有望なアプローチであるが、その最適な生成品質と条件付きモデリング能力の欠如により広く採用されていない。
本研究では,SWF の簡易かつ効果的な拡張である条件付きスライス・ワッサースタインフロー (CSWF) を提案する。
論文 参考訳(メタデータ) (2023-05-03T14:55:43Z) - Auto-regressive Image Synthesis with Integrated Quantization [55.51231796778219]
本稿では,条件付き画像生成のための多目的フレームワークを提案する。
CNNの帰納バイアスと自己回帰の強力なシーケンスモデリングが組み込まれている。
提案手法は,最先端技術と比較して,優れた多彩な画像生成性能を実現する。
論文 参考訳(メタデータ) (2022-07-21T22:19:17Z) - DiffuseVAE: Efficient, Controllable and High-Fidelity Generation from
Low-Dimensional Latents [26.17940552906923]
本稿では,拡散モデルフレームワーク内にVAEを統合する新しい生成フレームワークであるDiffuseVAEを紹介する。
提案モデルは高分解能サンプルを生成でき、標準ベンチマークの最先端モデルに匹敵する品質を示す。
論文 参考訳(メタデータ) (2022-01-02T06:44:23Z) - Global Context with Discrete Diffusion in Vector Quantised Modelling for
Image Generation [19.156223720614186]
ベクトル量子変分オートエンコーダと自己回帰モデルとを生成部として統合することにより、画像生成における高品質な結果が得られる。
本稿では,VQ-VAEからのコンテンツリッチな離散視覚コードブックの助けを借りて,この離散拡散モデルにより,グローバルな文脈で高忠実度画像を生成することができることを示す。
論文 参考訳(メタデータ) (2021-12-03T09:09:34Z) - A Method for Evaluating Deep Generative Models of Images via Assessing
the Reproduction of High-order Spatial Context [9.00018232117916]
GAN(Generative Adversarial Network)は、広く使われているDGMの一種である。
本稿では,2つのGANアーキテクチャによって出力される画像の客観的なテストについて述べる。
我々は、訓練されたGANによって生成した画像の特徴を再現できるいくつかのコンテキストモデル(SCM)を設計した。
論文 参考訳(メタデータ) (2021-11-24T15:58:10Z) - Learning High-Dimensional Distributions with Latent Neural Fokker-Planck
Kernels [67.81799703916563]
低次元潜在空間におけるフォッカー・プランク方程式の解法として問題を定式化する新しい手法を導入する。
提案モデルでは,潜在分散モーフィング,ジェネレータ,パラメータ化Fokker-Planckカーネル関数からなる。
論文 参考訳(メタデータ) (2021-05-10T17:42:01Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。