論文の概要: A Bayesian Non-parametric Approach to Generative Models: Integrating Variational Autoencoder and Generative Adversarial Networks using Wasserstein and Maximum Mean Discrepancy
- arxiv url: http://arxiv.org/abs/2308.14048v2
- Date: Sun, 22 Jun 2025 04:10:53 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-06-24 19:06:36.113553
- Title: A Bayesian Non-parametric Approach to Generative Models: Integrating Variational Autoencoder and Generative Adversarial Networks using Wasserstein and Maximum Mean Discrepancy
- Title(参考訳): ベイズ的非パラメトリックな生成モデルへのアプローチ:ワッサーシュタインと最大平均離散性を用いた変分オートエンコーダと生成逆数ネットワークの統合
- Authors: Forough Fazeli-Asl, Michael Minyi Zhang,
- Abstract要約: 本稿では,GAN(generative adversarial network)とVAE(variantal autoencoder)において,いくつかの顕著な障害モードに対処する,ベイズ非パラメトリック学習(BNPL)フレームワークの新たな生成モデルを提案する。
我々は、BNPLフレームワークがトレーニングの安定性を高め、WMMD(Wsserstein distance and maximum mean discrepancy measure)をモデルの損失関数に組み込む際に、堅牢性と精度の保証を提供することを示す。
- 参考スコア(独自算出の注目度): 2.5109359014278954
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: We propose a novel generative model within the Bayesian non-parametric learning (BNPL) framework to address some notable failure modes in generative adversarial networks (GANs) and variational autoencoders (VAEs)--these being overfitting in the GAN case and noisy samples in the VAE case. We will demonstrate that the BNPL framework enhances training stability and provides robustness and accuracy guarantees when incorporating the Wasserstein distance and maximum mean discrepancy measure (WMMD) into our model's loss function. Moreover, we introduce a so-called ``triple model'' that combines the GAN, the VAE, and further incorporates a code-GAN (CGAN) to explore the latent space of the VAE. This triple model design generates high-quality, diverse samples, while the BNPL framework, leveraging the WMMD loss function, enhances training stability. Together, these components enable our model to achieve superior performance across various generative tasks. These claims are supported by both theoretical analyses and empirical validation on a wide variety of datasets.
- Abstract(参考訳): 本稿では,GAN (generative adversarial network) とVAE (variantal autoencoder) のいくつかの顕著な障害モードに対応するために,ベイズ非パラメトリック学習(BNPL) フレームワーク内の新たな生成モデルを提案する。
BNPLフレームワークはトレーニングの安定性を高め、WMMD(Wsserstein distance and maximum mean discrepancy measure)をモデルの損失関数に組み込む際に、堅牢性と精度の保証を提供する。
さらに、GANとVAEを組み合わせたいわゆる「三重モデル」を導入し、さらにコードGAN(CGAN)を組み込んで、VAEの潜伏空間を探索する。
この三重モデル設計は高品質で多様なサンプルを生成するが、BNPLフレームワークはWMMD損失関数を利用して訓練安定性を向上させる。
これらのコンポーネントが組み合わさって、モデルが様々な生成タスクにまたがって優れたパフォーマンスを達成することができる。
これらの主張は、様々なデータセットに関する理論的分析と経験的検証の両方によって支持されている。
関連論文リスト
- D2C: Unlocking the Potential of Continuous Autoregressive Image Generation with Discrete Tokens [80.75893450536577]
モデル生成能力を向上させる新しい2段階法であるD2Cを提案する。
第1段階では、小さな離散値発生器を用いて粗粒度画像特徴を表す離散値トークンをサンプリングする。
第2段階では、離散トークンシーケンスに基づいて、きめ細かい画像特徴を表す連続値トークンを学習する。
論文 参考訳(メタデータ) (2025-03-21T13:58:49Z) - Stabilize the Latent Space for Image Autoregressive Modeling: A Unified Perspective [52.778766190479374]
遅延ベース画像生成モデルは、画像生成タスクにおいて顕著な成功を収めた。
同じ遅延空間を共有するにもかかわらず、自己回帰モデルは画像生成において LDM や MIM よりもかなり遅れている。
本稿では,画像生成モデルのための遅延空間を安定化する,単純だが効果的な離散画像トークン化手法を提案する。
論文 参考訳(メタデータ) (2024-10-16T12:13:17Z) - Meissonic: Revitalizing Masked Generative Transformers for Efficient High-Resolution Text-to-Image Synthesis [62.06970466554273]
SDXLのような最先端拡散モデルに匹敵するレベルまで、非自己回帰マスク型画像モデリング(MIM)のテキスト・ツー・イメージが増大するMeissonicを提案する。
高品質なトレーニングデータを活用し、人間の嗜好スコアから得られるマイクロ条件を統合し、特徴圧縮層を用いて画像の忠実度と解像度をさらに向上する。
我々のモデルは、高画質の高精細画像を生成する際に、SDXLのような既存のモデルに適合するだけでなく、しばしば性能を上回ります。
論文 参考訳(メタデータ) (2024-10-10T17:59:17Z) - Elucidating Optimal Reward-Diversity Tradeoffs in Text-to-Image Diffusion Models [20.70550870149442]
Annealed Importance Guidance(AIG)は、Annealed Importance Smplingにインスパイアされた推論時正規化である。
安定拡散モデルに対するAIGの利点を実証し、報酬最適化と画像の多様性の最適なバランスを図った。
論文 参考訳(メタデータ) (2024-09-09T16:27:26Z) - DiffSG: A Generative Solver for Network Optimization with Diffusion Model [75.27274046562806]
拡散生成モデルはより広い範囲の解を考えることができ、学習パラメータによるより強力な一般化を示す。
拡散生成モデルの本質的な分布学習を利用して高品質な解を学習する新しいフレームワークを提案する。
論文 参考訳(メタデータ) (2024-08-13T07:56:21Z) - DomainStudio: Fine-Tuning Diffusion Models for Domain-Driven Image
Generation using Limited Data [20.998032566820907]
本稿では,大規模ソースデータセット上で事前学習したDDPMを限定データを用いて対象ドメインに適応する新しいDomainStudioアプローチを提案する。
ソースドメインが提供する主題の多様性を維持し、ターゲットドメインに高品質で多様な適応型サンプルを取得するように設計されている。
論文 参考訳(メタデータ) (2023-06-25T07:40:39Z) - Hierarchical Integration Diffusion Model for Realistic Image Deblurring [71.76410266003917]
拡散モデル (DM) は画像劣化に導入され, 有望な性能を示した。
本稿では,階層型統合拡散モデル(HI-Diff)を提案する。
人工的および実世界のぼかしデータセットの実験は、HI-Diffが最先端の手法より優れていることを示した。
論文 参考訳(メタデータ) (2023-05-22T12:18:20Z) - Nonparametric Generative Modeling with Conditional Sliced-Wasserstein
Flows [101.31862036510701]
SWF(Sliced-Wasserstein Flow)は、非パラメトリックな生成モデルに対する有望なアプローチであるが、その最適な生成品質と条件付きモデリング能力の欠如により広く採用されていない。
本研究では,SWF の簡易かつ効果的な拡張である条件付きスライス・ワッサースタインフロー (CSWF) を提案する。
論文 参考訳(メタデータ) (2023-05-03T14:55:43Z) - Auto-regressive Image Synthesis with Integrated Quantization [55.51231796778219]
本稿では,条件付き画像生成のための多目的フレームワークを提案する。
CNNの帰納バイアスと自己回帰の強力なシーケンスモデリングが組み込まれている。
提案手法は,最先端技術と比較して,優れた多彩な画像生成性能を実現する。
論文 参考訳(メタデータ) (2022-07-21T22:19:17Z) - DiffuseVAE: Efficient, Controllable and High-Fidelity Generation from
Low-Dimensional Latents [26.17940552906923]
本稿では,拡散モデルフレームワーク内にVAEを統合する新しい生成フレームワークであるDiffuseVAEを紹介する。
提案モデルは高分解能サンプルを生成でき、標準ベンチマークの最先端モデルに匹敵する品質を示す。
論文 参考訳(メタデータ) (2022-01-02T06:44:23Z) - Global Context with Discrete Diffusion in Vector Quantised Modelling for
Image Generation [19.156223720614186]
ベクトル量子変分オートエンコーダと自己回帰モデルとを生成部として統合することにより、画像生成における高品質な結果が得られる。
本稿では,VQ-VAEからのコンテンツリッチな離散視覚コードブックの助けを借りて,この離散拡散モデルにより,グローバルな文脈で高忠実度画像を生成することができることを示す。
論文 参考訳(メタデータ) (2021-12-03T09:09:34Z) - A Method for Evaluating Deep Generative Models of Images via Assessing
the Reproduction of High-order Spatial Context [9.00018232117916]
GAN(Generative Adversarial Network)は、広く使われているDGMの一種である。
本稿では,2つのGANアーキテクチャによって出力される画像の客観的なテストについて述べる。
我々は、訓練されたGANによって生成した画像の特徴を再現できるいくつかのコンテキストモデル(SCM)を設計した。
論文 参考訳(メタデータ) (2021-11-24T15:58:10Z) - Learning High-Dimensional Distributions with Latent Neural Fokker-Planck
Kernels [67.81799703916563]
低次元潜在空間におけるフォッカー・プランク方程式の解法として問題を定式化する新しい手法を導入する。
提案モデルでは,潜在分散モーフィング,ジェネレータ,パラメータ化Fokker-Planckカーネル関数からなる。
論文 参考訳(メタデータ) (2021-05-10T17:42:01Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。