論文の概要: Distribution Matching Variational AutoEncoder
- arxiv url: http://arxiv.org/abs/2512.07778v1
- Date: Mon, 08 Dec 2025 17:59:47 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-12-09 22:03:54.995016
- Title: Distribution Matching Variational AutoEncoder
- Title(参考訳): 分散整合変分オートエンコーダ
- Authors: Sen Ye, Jianning Pei, Mengde Xu, Shuyang Gu, Chunyu Wang, Liwei Wang, Han Hu,
- Abstract要約: VAEのような既存のアプローチは、その分布を明示的に形作ることなく、潜在空間を暗黙的に制限する。
textbfDMVAE(textbfDMVAE)を導入し、エンコーダの潜在分布と任意の参照分布を明示的に整列する。
提案手法は, モデルからモデルへの遅延と高忠実度画像合成のギャップを埋める上で, 適切な潜伏分布構造(分布レベルアライメント)を選択することが重要であることを示唆する。
- 参考スコア(独自算出の注目度): 24.58582338610613
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Most visual generative models compress images into a latent space before applying diffusion or autoregressive modelling. Yet, existing approaches such as VAEs and foundation model aligned encoders implicitly constrain the latent space without explicitly shaping its distribution, making it unclear which types of distributions are optimal for modeling. We introduce \textbf{Distribution-Matching VAE} (\textbf{DMVAE}), which explicitly aligns the encoder's latent distribution with an arbitrary reference distribution via a distribution matching constraint. This generalizes beyond the Gaussian prior of conventional VAEs, enabling alignment with distributions derived from self-supervised features, diffusion noise, or other prior distributions. With DMVAE, we can systematically investigate which latent distributions are more conducive to modeling, and we find that SSL-derived distributions provide an excellent balance between reconstruction fidelity and modeling efficiency, reaching gFID equals 3.2 on ImageNet with only 64 training epochs. Our results suggest that choosing a suitable latent distribution structure (achieved via distribution-level alignment), rather than relying on fixed priors, is key to bridging the gap between easy-to-model latents and high-fidelity image synthesis. Code is avaliable at https://github.com/sen-ye/dmvae.
- Abstract(参考訳): ほとんどの視覚生成モデルは、拡散または自己回帰モデルを適用する前に、イメージを潜在空間に圧縮する。
しかし、VAEやファンデーションモデルのような既存のアプローチは、分布を明示的に形成することなく、潜在空間を暗黙的に制約するので、どの種類の分布がモデリングに最適かは明らかではない。
本稿では,エンコーダの潜伏分布と任意の参照分布とを,分布マッチング制約を介して明示的に整列する, \textbf{Distribution-Matching VAE} (\textbf{DMVAE})を紹介する。
これは、従来のVAEのガウス分布よりも先に一般化され、自己教師付き特徴、拡散雑音、その他の先行分布から導かれる分布と整合することができる。
DMVAEでは、どの潜伏分布がモデリングに適しているかを体系的に調べることができ、SSL由来の分布は再構成忠実度とモデリング効率のバランスに優れており、画像ネット上では64のトレーニングエポックで3.2にしか達しない。
この結果から, 固定前処理に頼るのではなく, 適切な潜伏分布構造(分布レベルアライメント)を選択することが, 容易かつ忠実な画像合成とモデル潜伏のギャップを埋める鍵となることが示唆された。
コードはhttps://github.com/sen-ye/dmvae.comにある。
関連論文リスト
- DT-UFC: Universal Large Model Feature Coding via Peaky-to-Balanced Distribution Transformation [50.32808229665005]
本稿では,大規模モデルの普遍的特徴符号化に関する最初の体系的研究について述べる。
主な課題は、異なるモデルから抽出された特徴の本質的に多様性があり、分布的に互換性のない性質にある。
本稿では,高度に歪んだ特徴分布を共通目標空間に再帰させる学習ピーク対均衡分布変換を提案する。
論文 参考訳(メタデータ) (2025-06-19T17:43:32Z) - Theory on Score-Mismatched Diffusion Models and Zero-Shot Conditional Samplers [49.97755400231656]
一般のスコアミスマッチ拡散サンプリング器に対する明示的な次元依存性を持つ最初の性能保証を示す。
その結果, スコアミスマッチは, 目標分布とサンプリング分布の分布バイアスとなり, 目標分布とトレーニング分布の累積ミスマッチに比例することがわかった。
この結果は、測定ノイズに関係なく、任意の条件モデルに対するゼロショット条件付きサンプリングに直接適用することができる。
論文 参考訳(メタデータ) (2024-10-17T16:42:12Z) - Symmetric Equilibrium Learning of VAEs [56.56929742714685]
可変オートエンコーダ(VAE)をデコーダ-エンコーダペアとみなし,データ空間内の分布を潜在空間内の分布にマッピングする。
本研究では,エンコーダとデコーダに対して対称なナッシュ均衡学習手法を提案し,データと潜伏分布の両方がサンプリングによってのみアクセス可能な状況下でのVAEの学習を可能にする。
論文 参考訳(メタデータ) (2023-07-19T10:27:34Z) - Dior-CVAE: Pre-trained Language Models and Diffusion Priors for
Variational Dialog Generation [70.2283756542824]
Dior-CVAEは階層型条件変分オートエンコーダ(CVAE)である。
拡散モデルを用いて、従来の分布の複雑さを増大させ、PLMが生成した分布との整合性を高める。
2つのオープンドメインダイアログデータセットを対象とした実験により,大規模ダイアログ事前学習を必要とせずに,より多様な応答を生成できることが判明した。
論文 参考訳(メタデータ) (2023-05-24T11:06:52Z) - The Score-Difference Flow for Implicit Generative Modeling [1.1929584800629673]
Inlicit Generative Modelingは、対象データ分布と一致する合成データのサンプルを作成することを目的としている。
最近の研究は、合成音源データをターゲット分布へプッシュする観点から、IGG問題にアプローチしている。
任意のターゲット分布とソース分布のスコア差を,Kulback-Leibler分散を最適に低減するフローとして提示する。
論文 参考訳(メタデータ) (2023-04-25T15:21:12Z) - Structured Uncertainty in the Observation Space of Variational
Autoencoders [20.709989481734794]
画像合成において、そのような分布からのサンプリングは、非相関な画素ノイズを伴う空間的非コヒーレントな結果を生成する。
低ランクパラメータ化により空間依存性を符号化する観測空間の代替モデルを提案する。
画素単位の独立分布とは対照的に,本サンプルは複数の可算出力の予測を可能にする平均値から意味論的に有意な変動を含むと考えられる。
論文 参考訳(メタデータ) (2022-05-25T07:12:50Z) - Generative Model without Prior Distribution Matching [26.91643368299913]
変分オートエンコーダ(VAE)とその変分は、いくつかの先行分布を満たすために低次元の潜在表現を学習することによって古典的な生成モデルである。
我々は、先行変数に適合させるのではなく、先行変数が埋め込み分布と一致するように提案する。
論文 参考訳(メタデータ) (2020-09-23T09:33:24Z) - Variational Hyper-Encoding Networks [62.74164588885455]
ニューラルネットワークパラメータの分布を符号化するHyperVAEというフレームワークを提案する。
遅延符号の後部分布を予測し,行列ネットワークデコーダを用いて後部分布q(theta)を生成する。
論文 参考訳(メタデータ) (2020-05-18T06:46:09Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。