論文の概要: Complexity Matters: Rethinking the Latent Space for Generative Modeling
- arxiv url: http://arxiv.org/abs/2307.08283v2
- Date: Sun, 29 Oct 2023 13:13:00 GMT
- ステータス: 処理完了
- システム内更新日: 2023-10-31 20:36:14.584905
- Title: Complexity Matters: Rethinking the Latent Space for Generative Modeling
- Title(参考訳): 複雑性問題: 生成モデリングのための潜在空間の再考
- Authors: Tianyang Hu, Fei Chen, Haonan Wang, Jiawei Li, Wenjia Wang, Jiacheng
Sun, Zhenguo Li
- Abstract要約: 生成的モデリングにおいて、多くの成功したアプローチは、例えば安定拡散のような低次元の潜在空間を利用する。
本研究では, モデル複雑性の観点から潜在空間を再考することにより, 未探索の話題に光を当てることを目的としている。
- 参考スコア(独自算出の注目度): 65.64763873078114
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: In generative modeling, numerous successful approaches leverage a
low-dimensional latent space, e.g., Stable Diffusion models the latent space
induced by an encoder and generates images through a paired decoder. Although
the selection of the latent space is empirically pivotal, determining the
optimal choice and the process of identifying it remain unclear. In this study,
we aim to shed light on this under-explored topic by rethinking the latent
space from the perspective of model complexity. Our investigation starts with
the classic generative adversarial networks (GANs). Inspired by the GAN
training objective, we propose a novel "distance" between the latent and data
distributions, whose minimization coincides with that of the generator
complexity. The minimizer of this distance is characterized as the optimal
data-dependent latent that most effectively capitalizes on the generator's
capacity. Then, we consider parameterizing such a latent distribution by an
encoder network and propose a two-stage training strategy called Decoupled
Autoencoder (DAE), where the encoder is only updated in the first stage with an
auxiliary decoder and then frozen in the second stage while the actual decoder
is being trained. DAE can improve the latent distribution and as a result,
improve the generative performance. Our theoretical analyses are corroborated
by comprehensive experiments on various models such as VQGAN and Diffusion
Transformer, where our modifications yield significant improvements in sample
quality with decreased model complexity.
- Abstract(参考訳): 生成的モデリングにおいて、多くの成功したアプローチは、エンコーダによって引き起こされる潜在空間の安定拡散モデルのような低次元の潜在空間を活用し、ペア化されたデコーダを介して画像を生成する。
潜在空間の選択は経験的中心的であるが、最適な選択とそれを特定する過程は不明確である。
本研究では,モデルの複雑さの観点から潜在空間を再考することで,この未熟な話題に光を当てる。
我々の調査は、古典的生成逆ネットワーク(GAN)から始まる。
GANトレーニングの目的に触発された本研究では,発電機の複雑さと最小化が一致する潜在データ分布とデータ分布との「距離」を新たに提案する。
この距離の最小化は、発電機の容量に最も効果的に乗じる最適なデータ依存潜在性として特徴づけられる。
次に,そのような潜在分布をエンコーダネットワークでパラメータ化することを検討し,デコーダが訓練中,第1段階でのみ補助デコーダで更新され,第2ステージで凍結されるdecoupled autoencoder(dae)と呼ばれる2段階のトレーニング戦略を提案する。
DAEは潜伏分布を改善し、その結果、生成性能を向上させることができる。
理論解析はvqganや拡散変圧器などの種々のモデルに対する包括的な実験により裏付けられ, モデル複雑性を低減した試料品質の大幅な改善が得られた。
関連論文リスト
- Neural Network Parameter Diffusion [50.85251415173792]
拡散モデルは画像生成やビデオ生成において顕著な成功を収めた。
本研究は拡散モデルにも適用可能であることを示す。
高性能なニューラルネットワークパラメータを生成する。
論文 参考訳(メタデータ) (2024-02-20T16:59:03Z) - Refine, Discriminate and Align: Stealing Encoders via Sample-Wise Prototypes and Multi-Relational Extraction [57.16121098944589]
RDAは、事前訓練されたエンコーダを盗むために、以前の取り組みで普及した2つの主要な欠陥に対処するために設計された先駆的なアプローチである。
これは、サンプルの様々な視点に対してターゲットエンコーダの表現を統一するサンプルワイドプロトタイプによって達成される。
より強力な有効性を得るために、我々はサロゲートエンコーダを訓練し、ミスマッチした埋め込み-プロトタイプペアを識別するマルチリレーショナル抽出損失を開発する。
論文 参考訳(メタデータ) (2023-12-01T15:03:29Z) - Variational Diffusion Auto-encoder: Latent Space Extraction from
Pre-trained Diffusion Models [0.0]
可変オートエンコーダ(VAE)は、生成された画像の品質の問題に直面し、しばしば目立った曖昧さを示す。
この問題は、条件付きデータ分布を近似する非現実的な仮定である $p(textbfx | textbfz)$ が等方ガウス的であることに由来する。
本稿では,エンコーダを最適化することにより,既存の拡散モデルから潜在空間を抽出し,限界データのログ化を最大化する方法について述べる。
論文 参考訳(メタデータ) (2023-04-24T14:44:47Z) - Conditional Denoising Diffusion for Sequential Recommendation [62.127862728308045]
GAN(Generative Adversarial Networks)とVAE(VAE)の2つの顕著な生成モデル
GANは不安定な最適化に苦しむ一方、VAEは後続の崩壊と過度に平らな世代である。
本稿では,シーケンスエンコーダ,クロスアテンティブデノナイジングデコーダ,ステップワイズディフューザを含む条件付きデノナイジング拡散モデルを提案する。
論文 参考訳(メタデータ) (2023-04-22T15:32:59Z) - VTAE: Variational Transformer Autoencoder with Manifolds Learning [144.0546653941249]
深層生成モデルは、多くの潜伏変数を通して非線形データ分布の学習に成功している。
ジェネレータの非線形性は、潜在空間がデータ空間の不満足な射影を示し、表現学習が不十分になることを意味する。
本研究では、測地学と正確な計算により、深部生成モデルの性能を大幅に向上させることができることを示す。
論文 参考訳(メタデータ) (2023-04-03T13:13:19Z) - String-based Molecule Generation via Multi-decoder VAE [56.465033997245776]
可変オートエンコーダ(VAE)による文字列型分子生成の問題点について検討する。
本稿では,そのタスクに対するVAEの性能を改善するための,シンプルで効果的なアイデアを提案する。
実験では,提案するVAEモデルを用いて,領域外分布からサンプルを生成する。
論文 参考訳(メタデータ) (2022-08-23T03:56:30Z) - Diffusion bridges vector quantized Variational AutoEncoders [0.0]
我々のモデルは,ミニイメージネットデータセットに先行する自己回帰と競合することを示す。
我々のフレームワークは、標準のVQ-VAEを拡張し、エンドツーエンドのトレーニングを可能にします。
論文 参考訳(メタデータ) (2022-02-10T08:38:12Z) - Generation of data on discontinuous manifolds via continuous stochastic
non-invertible networks [6.201770337181472]
連続ネットワークを用いて不連続分布を生成する方法を示す。
コスト関数と情報理論の定式化の関係を導出する。
提案手法を合成2次元分布に適用し,不連続分布の再構成と生成の両立を実証する。
論文 参考訳(メタデータ) (2021-12-17T17:39:59Z) - Latent reweighting, an almost free improvement for GANs [12.605607949417033]
一連の作業は、計算コストの増大を犠牲にして、事前訓練された発電機からのサンプリング品質を改善することを目的としている。
遅延重みを予測するための追加ネットワークと、最も貧しいサンプルを避けるための2つの関連するサンプリング手法を導入する。
論文 参考訳(メタデータ) (2021-10-19T08:33:57Z) - Variance Constrained Autoencoding [0.0]
エンコーダの場合、同時に分布制約を強制し、出力歪みを最小化しようとすると、生成的および再構成的品質が低下することを示す。
本稿では,分散制約のみを適用した分散制約付きオートエンコーダ(VCAE)を提案する。
実験の結果,VCAEは,MNISTとCelebAの再構成および生成品質において,ワッサースタインオートエンコーダと変分オートエンコーダを改良することがわかった。
論文 参考訳(メタデータ) (2020-05-08T00:50:50Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。