論文の概要: Latent Diffusion Model without Variational Autoencoder
- arxiv url: http://arxiv.org/abs/2510.15301v3
- Date: Tue, 21 Oct 2025 02:50:02 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-10-25 03:08:11.540513
- Title: Latent Diffusion Model without Variational Autoencoder
- Title(参考訳): 変分オートエンコーダのない潜時拡散モデル
- Authors: Minglei Shi, Haolin Wang, Wenzhao Zheng, Ziyang Yuan, Xiaoshi Wu, Xintao Wang, Pengfei Wan, Jie Zhou, Jiwen Lu,
- Abstract要約: SVGは視覚生成のための変分オートエンコーダを持たない新しい潜伏拡散モデルである。
凍結したDINO機能を利用して、明確な意味的識別性を持つ特徴空間を構築する。
迅速な拡散訓練を可能にし、数ステップのサンプリングをサポートし、生成品質を向上させる。
- 参考スコア(独自算出の注目度): 78.34722551463223
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Recent progress in diffusion-based visual generation has largely relied on latent diffusion models with variational autoencoders (VAEs). While effective for high-fidelity synthesis, this VAE+diffusion paradigm suffers from limited training efficiency, slow inference, and poor transferability to broader vision tasks. These issues stem from a key limitation of VAE latent spaces: the lack of clear semantic separation and strong discriminative structure. Our analysis confirms that these properties are crucial not only for perception and understanding tasks, but also for the stable and efficient training of latent diffusion models. Motivated by this insight, we introduce SVG, a novel latent diffusion model without variational autoencoders, which leverages self-supervised representations for visual generation. SVG constructs a feature space with clear semantic discriminability by leveraging frozen DINO features, while a lightweight residual branch captures fine-grained details for high-fidelity reconstruction. Diffusion models are trained directly on this semantically structured latent space to facilitate more efficient learning. As a result, SVG enables accelerated diffusion training, supports few-step sampling, and improves generative quality. Experimental results further show that SVG preserves the semantic and discriminative capabilities of the underlying self-supervised representations, providing a principled pathway toward task-general, high-quality visual representations. Code and interpretations are available at https://howlin-wang.github.io/svg/.
- Abstract(参考訳): 拡散に基づく視覚生成の最近の進歩は、変分オートエンコーダ(VAE)を用いた潜時拡散モデルに大きく依存している。
高忠実性合成には有効であるが、このVAE+拡散パラダイムは、訓練効率の制限、推論の遅さ、より広範な視覚タスクへの伝達性の低下に悩まされている。
これらの問題は、VAE潜在空間の鍵となる制限、すなわち明確な意味的分離の欠如と強い識別的構造に起因している。
解析の結果,これらの特性は知覚や理解だけでなく,潜伏拡散モデルの安定かつ効率的な訓練にも不可欠であることが確認された。
この知見に触発されたSVGは、視覚生成に自己教師付き表現を利用する変分オートエンコーダを持たない新しい潜伏拡散モデルである。
SVGは、凍結したDINO特徴を利用して明確な意味的識別性を持つ特徴空間を構築し、軽量な残留枝は、高忠実度再構成のためのきめ細かい詳細をキャプチャする。
拡散モデルは、より効率的な学習を容易にするために、この意味論的に構造化された潜在空間上で直接訓練される。
その結果、SVGは拡散訓練を加速し、数ステップのサンプリングをサポートし、生成品質を向上させる。
実験結果から,SVGは自己教師付き表現のセマンティクスと識別能力を保ち,タスク汎用,高品質な視覚表現への原則的経路を提供することが明らかとなった。
コードと解釈はhttps://howlin-wang.github.io/svg/.comで公開されている。
関連論文リスト
- DDAE++: Enhancing Diffusion Models Towards Unified Generative and Discriminative Learning [53.27049077100897]
生成前訓練は差別的な表現をもたらし、統一された視覚生成と理解への道を開くことが示されている。
この研究は自己条件付けを導入し、ネットワークに固有のリッチなセマンティクスを内部的に活用し、独自のデコード層をガイドする。
提案手法は、FIDの生成と認識の精度を1%の計算オーバーヘッドで向上させ、多様な拡散アーキテクチャで一般化する。
論文 参考訳(メタデータ) (2025-05-16T08:47:16Z) - Masked Autoencoders Are Effective Tokenizers for Diffusion Models [56.08109308294133]
MAETokは自己エンコーダであり、再構築の忠実さを維持しながら意味的にリッチな潜在空間を学習する。
MaETokは1.69のgFIDで76倍高速トレーニングが可能で、512x512世代で31倍高い推論スループットを実現している。
論文 参考訳(メタデータ) (2025-02-05T18:42:04Z) - Exploring Representation-Aligned Latent Space for Better Generation [86.45670422239317]
生成性能を改善するために,セマンティックな事前情報を統合するReaLSを導入する。
本研究では、ReaLSでトレーニングされたDETとSiTが、FID測定値の15%改善を実現することを示す。
拡張されたセマンティック潜在空間は、セグメンテーションや深さ推定のようなより知覚的な下流タスクを可能にする。
論文 参考訳(メタデータ) (2025-02-01T07:42:12Z) - Bridging Generative and Discriminative Models for Unified Visual
Perception with Diffusion Priors [56.82596340418697]
本稿では,豊富な生成前駆体を含む事前学習型安定拡散(SD)モデルと,階層的表現を統合可能な統一型ヘッド(Uヘッド)と,識別前駆体を提供する適応型専門家からなる,シンプルで効果的なフレームワークを提案する。
包括的調査では、異なる時間ステップで潜伏変数に隠された知覚の粒度や様々なU-netステージなど、バーマスの潜在的な特性が明らかになった。
有望な結果は,有望な学習者としての拡散モデルの可能性を示し,情報的かつ堅牢な視覚表現の確立にその意義を定めている。
論文 参考訳(メタデータ) (2024-01-29T10:36:57Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。