論文の概要: Masked Autoencoders Are Effective Tokenizers for Diffusion Models
- arxiv url: http://arxiv.org/abs/2502.03444v1
- Date: Wed, 05 Feb 2025 18:42:04 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-02-06 14:29:11.667011
- Title: Masked Autoencoders Are Effective Tokenizers for Diffusion Models
- Title(参考訳): マスクオートエンコーダは拡散モデルに有効なトケナイザである
- Authors: Hao Chen, Yujin Han, Fangyi Chen, Xiang Li, Yidong Wang, Jindong Wang, Ze Wang, Zicheng Liu, Difan Zou, Bhiksha Raj,
- Abstract要約: MAETokは自己エンコーダであり、再構築の忠実さを維持しながら意味的にリッチな潜在空間を学習する。
MaETokは1.69のgFIDで76倍高速トレーニングが可能で、512x512世代で31倍高い推論スループットを実現している。
- 参考スコア(独自算出の注目度): 56.08109308294133
- License:
- Abstract: Recent advances in latent diffusion models have demonstrated their effectiveness for high-resolution image synthesis. However, the properties of the latent space from tokenizer for better learning and generation of diffusion models remain under-explored. Theoretically and empirically, we find that improved generation quality is closely tied to the latent distributions with better structure, such as the ones with fewer Gaussian Mixture modes and more discriminative features. Motivated by these insights, we propose MAETok, an autoencoder (AE) leveraging mask modeling to learn semantically rich latent space while maintaining reconstruction fidelity. Extensive experiments validate our analysis, demonstrating that the variational form of autoencoders is not necessary, and a discriminative latent space from AE alone enables state-of-the-art performance on ImageNet generation using only 128 tokens. MAETok achieves significant practical improvements, enabling a gFID of 1.69 with 76x faster training and 31x higher inference throughput for 512x512 generation. Our findings show that the structure of the latent space, rather than variational constraints, is crucial for effective diffusion models. Code and trained models are released.
- Abstract(参考訳): 遅延拡散モデルの最近の進歩は、高分解能画像合成にその効果を実証している。
しかし、より優れた学習と拡散モデルの生成のためのトークン化器からの潜伏空間の性質は、まだ解明されていない。
理論的および経験的に、改良された生成品質は、ガウス混合モードの少ないものやより識別的特徴を持つものなど、より優れた構造を持つ潜在分布と密接に結びついていることが分かる。
これらの知見に触発されて、マスクモデリングを利用した自己エンコーダ(AE)であるMAETokを提案し、再現性を維持しつつ、意味的にリッチな潜在空間を学習する。
大規模な実験により、オートエンコーダの変分形式は不要であることが証明され、128個のトークンのみを用いて、画像ネット生成の最先端性能を実現することができる。
MAETokは1.69のgFIDで76倍高速トレーニングが可能で、512x512世代で31倍高い推論スループットを実現している。
本研究により, 変動制約ではなく, 潜伏空間の構造が有効拡散モデルに不可欠であることが示唆された。
コードとトレーニングされたモデルがリリースされている。
関連論文リスト
- Exploring Representation-Aligned Latent Space for Better Generation [86.45670422239317]
生成性能を改善するために,セマンティックな事前情報を統合するReaLSを導入する。
本研究では、ReaLSでトレーニングされたDETとSiTが、FID測定値の15%改善を実現することを示す。
拡張されたセマンティック潜在空間は、セグメンテーションや深さ推定のようなより知覚的な下流タスクを可能にする。
論文 参考訳(メタデータ) (2025-02-01T07:42:12Z) - Reconstruction vs. Generation: Taming Optimization Dilemma in Latent Diffusion Models [34.15905637499148]
本稿では,視覚トークン化器のトレーニングにおいて,潜在空間と事前学習された視覚基盤モデルとの整合性を提案する。
提案するVA-VAEは遅延拡散モデルの再構成世代フロンティアを著しく拡張する。
私たちは、LightningDiTと呼ばれるトレーニング戦略とアーキテクチャ設計を改善した拡張DiTベースラインを構築します。
論文 参考訳(メタデータ) (2025-01-02T18:59:40Z) - Diffusion Prism: Enhancing Diversity and Morphology Consistency in Mask-to-Image Diffusion [4.0301593672451]
Diffusion Prismは、バイナリマスクを現実的で多様なサンプルに変換する、トレーニング不要のフレームワークである。
少量の人工ノイズが画像デノゲーションプロセスに大きく役立つことを探る。
論文 参考訳(メタデータ) (2025-01-01T20:04:25Z) - Boosting Latent Diffusion with Perceptual Objectives [29.107038084215514]
遅延拡散モデル (LDMs) パワー・オブ・ザ・アート高分解能画像モデル。
我々は,遅延知覚損失(LPL)を定義するためにデコーダの内部的特徴を活用することを提案する。
この損失により、モデルはよりシャープでリアルなイメージを作成することができる。
論文 参考訳(メタデータ) (2024-11-06T16:28:21Z) - Self-Play Fine-Tuning of Diffusion Models for Text-to-Image Generation [59.184980778643464]
ファインチューニング拡散モデル : 生成人工知能(GenAI)の最前線
本稿では,拡散モデル(SPIN-Diffusion)のための自己演奏ファインチューニングという革新的な手法を紹介する。
提案手法は従来の教師付き微調整とRL戦略の代替として,モデル性能とアライメントの両方を大幅に改善する。
論文 参考訳(メタデータ) (2024-02-15T18:59:18Z) - Hierarchical Integration Diffusion Model for Realistic Image Deblurring [71.76410266003917]
拡散モデル (DM) は画像劣化に導入され, 有望な性能を示した。
本稿では,階層型統合拡散モデル(HI-Diff)を提案する。
人工的および実世界のぼかしデータセットの実験は、HI-Diffが最先端の手法より優れていることを示した。
論文 参考訳(メタデータ) (2023-05-22T12:18:20Z) - Diffusion Models as Masked Autoencoders [52.442717717898056]
拡散モデルに対する近年の関心を踏まえて、生成的に事前学習された視覚表現を再考する。
拡散モデルによる直接事前学習では強い表現は得られないが、マスク付き入力上での拡散モデルと公式拡散モデルをマスク付きオートエンコーダ(DiffMAE)として条件付ける。
設計選択の長所と短所について包括的な研究を行い、拡散モデルとマスク付きオートエンコーダ間の接続を構築する。
論文 参考訳(メタデータ) (2023-04-06T17:59:56Z) - Denoising Diffusion Autoencoders are Unified Self-supervised Learners [58.194184241363175]
本稿では,拡散モデルにおけるネットワーク,すなわち拡散オートエンコーダ(DDAE)が,自己教師型学習者の統合であることを示す。
DDAEはすでに、補助エンコーダを使わずに、中間層内で線形分離可能な表現を強く学習している。
CIFAR-10 と Tiny-ImageNet の線形評価精度は95.9% と 50.0% である。
論文 参考訳(メタデータ) (2023-03-17T04:20:47Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。