論文の概要: Geometric Autoencoder for Diffusion Models
- arxiv url: http://arxiv.org/abs/2603.10365v1
- Date: Wed, 11 Mar 2026 03:29:16 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-03-12 16:22:32.760926
- Title: Geometric Autoencoder for Diffusion Models
- Title(参考訳): 拡散モデルのための幾何学的オートエンコーダ
- Authors: Hangyu Liu, Jianyong Wang, Yutao Sun,
- Abstract要約: 遅延拡散モデルは、高解像度の視覚生成において新しい最先端技術を確立した。
本稿では,意味的識別性,忠実性,コンパクト性を統一する原理的フレームワークであるGeometric Autoencoder (GAE)を提案する。
GAEはImageNet-1Kの256倍の256$ベンチマークで、80 epochsで1.82gFID、800 epochsで1.31gFIDに達した。
- 参考スコア(独自算出の注目度): 16.699694260098948
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Latent diffusion models have established a new state-of-the-art in high-resolution visual generation. Integrating Vision Foundation Model priors improves generative efficiency, yet existing latent designs remain largely heuristic. These approaches often struggle to unify semantic discriminability, reconstruction fidelity, and latent compactness. In this paper, we propose Geometric Autoencoder (GAE), a principled framework that systematically addresses these challenges. By analyzing various alignment paradigms, GAE constructs an optimized low-dimensional semantic supervision target from VFMs to provide guidance for the autoencoder. Furthermore, we leverage latent normalization that replaces the restrictive KL-divergence of standard VAEs, enabling a more stable latent manifold specifically optimized for diffusion learning. To ensure robust reconstruction under high-intensity noise, GAE incorporates a dynamic noise sampling mechanism. Empirically, GAE achieves compelling performance on the ImageNet-1K $256 \times 256$ benchmark, reaching a gFID of 1.82 at only 80 epochs and 1.31 at 800 epochs without Classifier-Free Guidance, significantly surpassing existing state-of-the-art methods. Beyond generative quality, GAE establishes a superior equilibrium between compression, semantic depth and robust reconstruction stability. These results validate our design considerations, offering a promising paradigm for latent diffusion modeling. Code and models are publicly available at https://github.com/freezing-index/Geometric-Autoencoder-for-Diffusion-Models.
- Abstract(参考訳): 遅延拡散モデルは、高解像度の視覚生成において新しい最先端技術を確立した。
ビジョン・ファンデーション・モデルの統合は生成効率を向上させるが、既存の潜在設計は概ねヒューリスティックなままである。
これらのアプローチは、しばしば意味的差別性、再構築の忠実さ、潜在的コンパクト性を統合するのに苦労する。
本稿では,これらの課題に体系的に対処する原理的フレームワークであるGeometric Autoencoder (GAE)を提案する。
様々なアライメントパラダイムを解析することにより、GAEはVFMから最適化された低次元意味的監視ターゲットを構築し、オートエンコーダのガイダンスを提供する。
さらに、標準VAEの制限的KL分割を置き換える潜在正規化を利用して、拡散学習に特化して最適化されたより安定な潜在多様体を実現する。
高強度ノイズ下でのロバストな再構成を保証するため、GAEは動的ノイズサンプリング機構を組み込んでいる。
実証的には、GAEはImageNet-1K $256 \times 256$ベンチマークにおいて、80 epochsで1.82 gFID、800 epochsで1.31 gFIDに達した。
生成的品質以外にも、GAEは圧縮、セマンティックディープ、堅牢な再構成安定性のバランスが優れている。
これらの結果は、潜在拡散モデリングのための有望なパラダイムを提供することにより、設計上の考慮事項を検証する。
コードとモデルはhttps://github.com/freezing-index/Geometric-Autoencoder-for-Diffusion-Modelsで公開されている。
関連論文リスト
- Denoising Vision Transformer Autoencoder with Spectral Self-Regularization [21.85836384863372]
本研究では,高次元潜在空間における冗長な高周波成分が拡散モデルの訓練収束を妨げていることを示す。
本稿では, スペクトル自己正則化手法を提案し, 冗長な高周波ノイズを抑制すると同時に, 復元品質を同時に維持する。
その結果、ViTベースのオートエンコーダであるDenoising-VAEは、よりクリーンで低ノイズの潜伏剤を生成し、生成品質の向上と最適化の高速化につながる。
論文 参考訳(メタデータ) (2025-11-16T15:00:32Z) - Vision Foundation Models Can Be Good Tokenizers for Latent Diffusion Models [45.63522160275318]
Vision Foundation Model Variational Autoencoder (VFM-VAE) は、VFMのセマンティックフォーカスとピクセルレベルの忠実さの必要性の間の固有の緊張を解決するために設計された。
我々のシステムは80エポックで2.20のgFID(w/o CFG)に達する(先行トークン化器の10倍の高速化)。
論文 参考訳(メタデータ) (2025-10-21T09:30:45Z) - Towards Efficient General Feature Prediction in Masked Skeleton Modeling [59.46799426434277]
マスクスケルトンモデリングのための新しい汎用特徴予測フレームワーク(GFP)を提案する。
我々の重要な革新は、局所的な動きパターンからグローバルな意味表現にまたがる、従来の低レベルな再構築を高レベルな特徴予測に置き換えることです。
論文 参考訳(メタデータ) (2025-09-03T18:05:02Z) - Masked Autoencoders Are Effective Tokenizers for Diffusion Models [56.08109308294133]
MAETokは自己エンコーダであり、再構築の忠実さを維持しながら意味的にリッチな潜在空間を学習する。
MaETokは1.69のgFIDで76倍高速トレーニングが可能で、512x512世代で31倍高い推論スループットを実現している。
論文 参考訳(メタデータ) (2025-02-05T18:42:04Z) - Exploring Representation-Aligned Latent Space for Better Generation [86.45670422239317]
生成性能を改善するために,セマンティックな事前情報を統合するReaLSを導入する。
本研究では、ReaLSでトレーニングされたDETとSiTが、FID測定値の15%改善を実現することを示す。
拡張されたセマンティック潜在空間は、セグメンテーションや深さ推定のようなより知覚的な下流タスクを可能にする。
論文 参考訳(メタデータ) (2025-02-01T07:42:12Z) - Beyond the Kolmogorov Barrier: A Learnable Weighted Hybrid Autoencoder for Model Order Reduction [0.8021197489470758]
我々は,コルモゴロフ障壁を克服するために,学習可能な重み付きハイブリッドオートエンコーダを提案する。
トレーニングされたモデルは、他のモデルに比べて何千倍もシャープさが小さいことを実証的に見出した。
論文 参考訳(メタデータ) (2024-10-23T00:04:26Z) - Model Inversion Attacks Through Target-Specific Conditional Diffusion Models [54.69008212790426]
モデル反転攻撃(MIA)は、ターゲット分類器のトレーニングセットからプライベートイメージを再構築することを目的としており、それによってAIアプリケーションにおけるプライバシー上の懸念が高まる。
従来のGANベースのMIAは、GANの固有の欠陥と潜伏空間における最適化の偏りにより、劣った遺伝子的忠実度に悩まされる傾向にある。
これらの問題を緩和するために拡散モデル反転(Diff-MI)攻撃を提案する。
論文 参考訳(メタデータ) (2024-07-16T06:38:49Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。