論文の概要: CoVAE: Consistency Training of Variational Autoencoders
- arxiv url: http://arxiv.org/abs/2507.09103v1
- Date: Sat, 12 Jul 2025 01:32:08 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-07-15 18:48:22.377933
- Title: CoVAE: Consistency Training of Variational Autoencoders
- Title(参考訳): CoVAE:変分オートエンコーダの一貫性トレーニング
- Authors: Gianluigi Silvestri, Luca Ambrogioni,
- Abstract要約: 本稿では,一貫性モデルからVAEアーキテクチャをトレーニングするための手法を取り入れた,新しい単一ステージ生成自動符号化フレームワークを提案する。
我々は,CoVAEが学習前の知識を使わずに,高品質なサンプルを1段階ないし数段階で生成できることを実証した。
提案手法は,自動エンコーディングと拡散型生成モデルのための統一的なフレームワークを提供し,一段階の高速自動エンコーディングのための実行可能な経路を提供する。
- 参考スコア(独自算出の注目度): 9.358185536754537
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Current state-of-the-art generative approaches frequently rely on a two-stage training procedure, where an autoencoder (often a VAE) first performs dimensionality reduction, followed by training a generative model on the learned latent space. While effective, this introduces computational overhead and increased sampling times. We challenge this paradigm by proposing Consistency Training of Variational AutoEncoders (CoVAE), a novel single-stage generative autoencoding framework that adopts techniques from consistency models to train a VAE architecture. The CoVAE encoder learns a progressive series of latent representations with increasing encoding noise levels, mirroring the forward processes of diffusion and flow matching models. This sequence of representations is regulated by a time dependent $\beta$ parameter that scales the KL loss. The decoder is trained using a consistency loss with variational regularization, which reduces to a conventional VAE loss at the earliest latent time. We show that CoVAE can generate high-quality samples in one or few steps without the use of a learned prior, significantly outperforming equivalent VAEs and other single-stage VAEs methods. Our approach provides a unified framework for autoencoding and diffusion-style generative modeling and provides a viable route for one-step generative high-performance autoencoding. Our code is publicly available at https://github.com/gisilvs/covae.
- Abstract(参考訳): 現在の最先端の生成的アプローチは、しばしば2段階の訓練手順に依存し、そこではオートエンコーダ(しばしばVAE)がまず次元的還元を行い、次に学習された潜在空間上で生成モデルを訓練する。
有効ではあるが、これは計算オーバーヘッドとサンプリング時間の増加をもたらす。
我々は,一貫性モデルからのテクニックを取り入れてVAEアーキテクチャをトレーニングする,新しい単一ステージ生成自動符号化フレームワークであるConsistency Training of Variational AutoEncoders (CoVAE)を提案することで,このパラダイムに挑戦する。
CoVAEエンコーダは、拡散およびフローマッチングモデルの前方過程を反映し、符号化ノイズレベルを増大させ、進行的な潜在表現を学習する。
この表現列は、KL損失をスケールする時間依存の$\beta$パラメータによって制御される。
復号器は変分正則化による整合性損失を用いて訓練され、早期に従来のVAE損失に還元される。
本研究では,1段階または数段階の高品質なサンプルを,学習済みのVAEと同等のVAEと,他の単一段階のVAEを併用せずに生成可能であることを示す。
提案手法は,自動エンコーディングと拡散型生成モデルのための統一的なフレームワークを提供し,一段階の高速自動エンコーディングのための実行可能な経路を提供する。
私たちのコードはhttps://github.com/gisilvs/covae.comで公開されています。
関連論文リスト
- One-Step Diffusion Model for Image Motion-Deblurring [85.76149042561507]
本稿では,脱臭過程を1段階に短縮する新しいフレームワークである脱臭拡散モデル(OSDD)を提案する。
拡散モデルにおける忠実度損失に対処するために,構造復元を改善する改良された変分オートエンコーダ(eVAE)を導入する。
提案手法は,実測値と非参照値の両方で高い性能を達成する。
論文 参考訳(メタデータ) (2025-03-09T09:39:57Z) - Rethinking Video Tokenization: A Conditioned Diffusion-based Approach [58.164354605550194]
新しいトークン化ツールであるDiffusion Conditioned-based Gene Tokenizerは、GANベースのデコーダを条件付き拡散モデルで置き換える。
再建に基本的MSE拡散損失とKL項,LPIPSを併用した訓練を行った。
CDTのスケールダウン版(3$times inference speedup)でさえ、トップベースラインと互換性がある。
論文 参考訳(メタデータ) (2025-03-05T17:59:19Z) - EQ-VAE: Equivariance Regularized Latent Space for Improved Generative Image Modeling [11.075247758198762]
潜在生成モデルは、イメージを潜在空間に圧縮するためのオートエンコーダに依存し、次いで、潜在分布を学習するための生成モデルが続く。
EQ-VAE(EQ-VAE)は、遅延空間における等式を強制し、再構成品質を劣化させることなく、その複雑さを低減させる単純な正規化手法である。
DiT, SiT, REPA, MaskGITなどの最先端生成モデルの性能を向上し, SD-VAE微調整を5回だけ行うことで, DiT-XL/2上で7回の高速化を実現した。
論文 参考訳(メタデータ) (2025-02-13T17:21:51Z) - Sample as You Infer: Predictive Coding With Langevin Dynamics [11.515490109360012]
汎用的な深層生成モデルにおけるパラメータ学習のための新しいアルゴリズムを提案する。
提案手法は,標準変分自動エンコーダトレーニングから得られる性能と超越性を実現するために,標準PCアルゴリズムを改良する。
論文 参考訳(メタデータ) (2023-11-22T19:36:47Z) - Generative Modeling of Regular and Irregular Time Series Data via Koopman VAEs [50.25683648762602]
モデルの新しい設計に基づく新しい生成フレームワークであるKoopman VAEを紹介する。
クープマン理論に触発され、線形写像を用いて潜在条件事前力学を表現する。
KoVAEは、いくつかの挑戦的な合成および実世界の時系列生成ベンチマークにおいて、最先端のGANおよびVAEメソッドより優れている。
論文 参考訳(メタデータ) (2023-10-04T07:14:43Z) - Complexity Matters: Rethinking the Latent Space for Generative Modeling [65.64763873078114]
生成的モデリングにおいて、多くの成功したアプローチは、例えば安定拡散のような低次元の潜在空間を利用する。
本研究では, モデル複雑性の観点から潜在空間を再考することにより, 未探索の話題に光を当てることを目的としている。
論文 参考訳(メタデータ) (2023-07-17T07:12:29Z) - String-based Molecule Generation via Multi-decoder VAE [56.465033997245776]
可変オートエンコーダ(VAE)による文字列型分子生成の問題点について検討する。
本稿では,そのタスクに対するVAEの性能を改善するための,シンプルで効果的なアイデアを提案する。
実験では,提案するVAEモデルを用いて,領域外分布からサンプルを生成する。
論文 参考訳(メタデータ) (2022-08-23T03:56:30Z) - Adversarial and Contrastive Variational Autoencoder for Sequential
Recommendation [25.37244686572865]
本稿では、逐次レコメンデーションのためのAdversarial and Contrastive Variational Autoencoder (ACVAE) と呼ばれる新しい手法を提案する。
まず,本モデルが高品質な潜在変数を生成することを可能にするadversarial variational bayesフレームワークの下で,シーケンス生成のためのadversarial trainingを導入する。
さらに、シーケンスをエンコードする場合、シーケンス内のグローバルおよびローカルの関係をキャプチャするために、繰り返しおよび畳み込み構造を適用します。
論文 参考訳(メタデータ) (2021-03-19T09:01:14Z) - Autoencoding Variational Autoencoder [56.05008520271406]
我々は,この行動が学習表現に与える影響と,自己整合性の概念を導入することでそれを修正する結果について検討する。
自己整合性アプローチで訓練されたエンコーダは、敵攻撃による入力の摂動に対して頑健な(無神経な)表現につながることを示す。
論文 参考訳(メタデータ) (2020-12-07T14:16:14Z) - Simple and Effective VAE Training with Calibrated Decoders [123.08908889310258]
変分オートエンコーダ(VAE)は、複雑な分布をモデル化するための効果的で簡単な方法である。
復号分布の不確かさを学習する校正復号器の影響について検討する。
本稿では,一般的なガウス復号器の簡易かつ斬新な修正を提案し,その予測分散を解析的に計算する。
論文 参考訳(メタデータ) (2020-06-23T17:57:47Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。