論文の概要: EQ-VAE: Equivariance Regularized Latent Space for Improved Generative Image Modeling
- arxiv url: http://arxiv.org/abs/2502.09509v2
- Date: Fri, 14 Feb 2025 13:48:01 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-02-17 14:45:11.330561
- Title: EQ-VAE: Equivariance Regularized Latent Space for Improved Generative Image Modeling
- Title(参考訳): EQ-VAE: 画像モデルの改良のための等分散正規化潜在空間
- Authors: Theodoros Kouzelis, Ioannis Kakogeorgiou, Spyros Gidaris, Nikos Komodakis,
- Abstract要約: 潜在生成モデルは、イメージを潜在空間に圧縮するためのオートエンコーダに依存し、次いで、潜在分布を学習するための生成モデルが続く。
EQ-VAE(EQ-VAE)は、遅延空間における等式を強制し、再構成品質を劣化させることなく、その複雑さを低減させる単純な正規化手法である。
DiT, SiT, REPA, MaskGITなどの最先端生成モデルの性能を向上し, SD-VAE微調整を5回だけ行うことで, DiT-XL/2上で7回の高速化を実現した。
- 参考スコア(独自算出の注目度): 11.075247758198762
- License:
- Abstract: Latent generative models have emerged as a leading approach for high-quality image synthesis. These models rely on an autoencoder to compress images into a latent space, followed by a generative model to learn the latent distribution. We identify that existing autoencoders lack equivariance to semantic-preserving transformations like scaling and rotation, resulting in complex latent spaces that hinder generative performance. To address this, we propose EQ-VAE, a simple regularization approach that enforces equivariance in the latent space, reducing its complexity without degrading reconstruction quality. By finetuning pre-trained autoencoders with EQ-VAE, we enhance the performance of several state-of-the-art generative models, including DiT, SiT, REPA and MaskGIT, achieving a 7 speedup on DiT-XL/2 with only five epochs of SD-VAE fine-tuning. EQ-VAE is compatible with both continuous and discrete autoencoders, thus offering a versatile enhancement for a wide range of latent generative models. Project page and code: https://eq-vae.github.io/.
- Abstract(参考訳): 遅延生成モデルは高品質な画像合成の先駆的なアプローチとして現れてきた。
これらのモデルは、イメージを潜在空間に圧縮するためのオートエンコーダに依存し、次いで、潜在分布を学習するための生成モデルが続く。
既存のオートエンコーダは、スケーリングや回転のような意味保存変換に等しくないため、生成性能を阻害する複雑な潜在空間が生じる。
そこで本稿では, 遅延空間の等式を強制するシンプルな正規化手法であるEQ-VAEを提案し, 再構成品質を劣化させることなく, その複雑さを低減させる。
EQ-VAEで事前学習したオートエンコーダを微調整することにより、DET、SiT、REPA、MaskGITなどの最先端生成モデルの性能を高め、SD-VAEの微細チューニングを5回しか行わないDiT-XL/2上で7回の高速化を実現した。
EQ-VAEは、連続的および離散的なオートエンコーダの両方と互換性があり、幅広い潜在生成モデルに対する汎用的な拡張を提供する。
プロジェクトページとコード:https://eq-vae.github.io/
関連論文リスト
- Reconstruction vs. Generation: Taming Optimization Dilemma in Latent Diffusion Models [34.15905637499148]
本稿では,視覚トークン化器のトレーニングにおいて,潜在空間と事前学習された視覚基盤モデルとの整合性を提案する。
提案するVA-VAEは遅延拡散モデルの再構成世代フロンティアを著しく拡張する。
私たちは、LightningDiTと呼ばれるトレーニング戦略とアーキテクチャ設計を改善した拡張DiTベースラインを構築します。
論文 参考訳(メタデータ) (2025-01-02T18:59:40Z) - Autoregressive Video Generation without Vector Quantization [90.87907377618747]
本研究では,時間フレーム毎の予測の非量子化自己回帰モデルとしてビデオ生成問題を再構成する。
提案手法では,ベクトル量子化のない新しい自己回帰モデルであるNOVAを訓練する。
以上の結果から,NOVAはデータ効率,推論速度,視覚的忠実度,映像流速において,従来の自己回帰ビデオモデルよりもはるかに小さいモデルキャパシティを有することがわかった。
論文 参考訳(メタデータ) (2024-12-18T18:59:53Z) - Stabilize the Latent Space for Image Autoregressive Modeling: A Unified Perspective [52.778766190479374]
遅延ベース画像生成モデルは、画像生成タスクにおいて顕著な成功を収めた。
同じ遅延空間を共有するにもかかわらず、自己回帰モデルは画像生成において LDM や MIM よりもかなり遅れている。
本稿では,画像生成モデルのための遅延空間を安定化する,単純だが効果的な離散画像トークン化手法を提案する。
論文 参考訳(メタデータ) (2024-10-16T12:13:17Z) - LiteVAE: Lightweight and Efficient Variational Autoencoders for Latent Diffusion Models [27.795088366122297]
潜在拡散モデル(LDM)のための新しいオートエンコーダ設計である LiteVAE を導入する。
LiteVAEは2次元離散ウェーブレット変換を使用して、標準変分オートエンコーダ(VAE)よりもスケーラビリティと計算効率を向上させる。
論文 参考訳(メタデータ) (2024-05-23T12:06:00Z) - Complexity Matters: Rethinking the Latent Space for Generative Modeling [65.64763873078114]
生成的モデリングにおいて、多くの成功したアプローチは、例えば安定拡散のような低次元の潜在空間を利用する。
本研究では, モデル複雑性の観点から潜在空間を再考することにより, 未探索の話題に光を当てることを目的としている。
論文 参考訳(メタデータ) (2023-07-17T07:12:29Z) - Semantic Image Synthesis with Semantically Coupled VQ-Model [42.19799555533789]
本稿では,ベクトル量子化モデル (VQ-model) から遅延空間を条件付きで合成する。
本モデルは,ADE20k,Cityscapes,COCO-Stuffといった人気セマンティック画像データセットを用いた自己回帰モデルを用いて,セマンティック画像合成を改善することを示す。
論文 参考訳(メタデータ) (2022-09-06T14:37:01Z) - Discrete Auto-regressive Variational Attention Models for Text Modeling [53.38382932162732]
変分オートエンコーダ(VAE)はテキストモデリングに広く応用されている。
情報不足と後部崩壊という2つの課題に悩まされている。
本稿では,自己回帰変動注意モデル(DAVAM)を提案する。
論文 参考訳(メタデータ) (2021-06-16T06:36:26Z) - VCE: Variational Convertor-Encoder for One-Shot Generalization [3.86981854389977]
変分変換エンコーダ(VCE)は、画像を様々なスタイルに変換する。
本稿では,一括一般化問題に対する新しいアーキテクチャを提案する。
また, 変分オートエンコーダ(VAE)の性能を向上し, その曖昧な点をフィルタする。
論文 参考訳(メタデータ) (2020-11-12T07:58:14Z) - Locally Masked Convolution for Autoregressive Models [107.4635841204146]
LMConvは標準的な2Dコンボリューションの簡単な修正であり、任意のマスクを画像の各位置の重みに適用することができる。
我々は,パラメータを共有するが生成順序が異なる分布推定器のアンサンブルを学習し,全画像密度推定の性能を向上させる。
論文 参考訳(メタデータ) (2020-06-22T17:59:07Z) - Variance Constrained Autoencoding [0.0]
エンコーダの場合、同時に分布制約を強制し、出力歪みを最小化しようとすると、生成的および再構成的品質が低下することを示す。
本稿では,分散制約のみを適用した分散制約付きオートエンコーダ(VCAE)を提案する。
実験の結果,VCAEは,MNISTとCelebAの再構成および生成品質において,ワッサースタインオートエンコーダと変分オートエンコーダを改良することがわかった。
論文 参考訳(メタデータ) (2020-05-08T00:50:50Z) - Improve Variational Autoencoder for Text Generationwith Discrete Latent
Bottleneck [52.08901549360262]
変分オートエンコーダ(VAE)は、エンドツーエンドの表現学習において必須のツールである。
VAEは強い自己回帰デコーダで潜伏変数を無視する傾向がある。
よりコンパクトな潜在空間において暗黙的な潜在特徴マッチングを強制する原理的アプローチを提案する。
論文 参考訳(メタデータ) (2020-04-22T14:41:37Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。