論文の概要: Diffusion Transformers with Representation Autoencoders
- arxiv url: http://arxiv.org/abs/2510.11690v1
- Date: Mon, 13 Oct 2025 17:51:39 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-10-14 18:06:30.494901
- Title: Diffusion Transformers with Representation Autoencoders
- Title(参考訳): 表現オートエンコーダを用いた拡散変換器
- Authors: Boyang Zheng, Nanye Ma, Shengbang Tong, Saining Xie,
- Abstract要約: 事前学習された自己エンコーダが拡散過程の遅延空間に画素をマッピングする潜在生成モデリングは拡散変換器(DiT)の標準戦略となっている。
ほとんどのDiTはオリジナルのVAEエンコーダに依存しており、いくつかの制限が課されている。
本研究では、VAEをトレーニングされたデコーダと組み合わせた事前訓練された表現エンコーダに置き換え、Representation Autoencoders (RAE) と呼ぶものを形成する。
- 参考スコア(独自算出の注目度): 35.43400861279246
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Latent generative modeling, where a pretrained autoencoder maps pixels into a latent space for the diffusion process, has become the standard strategy for Diffusion Transformers (DiT); however, the autoencoder component has barely evolved. Most DiTs continue to rely on the original VAE encoder, which introduces several limitations: outdated backbones that compromise architectural simplicity, low-dimensional latent spaces that restrict information capacity, and weak representations that result from purely reconstruction-based training and ultimately limit generative quality. In this work, we explore replacing the VAE with pretrained representation encoders (e.g., DINO, SigLIP, MAE) paired with trained decoders, forming what we term Representation Autoencoders (RAEs). These models provide both high-quality reconstructions and semantically rich latent spaces, while allowing for a scalable transformer-based architecture. Since these latent spaces are typically high-dimensional, a key challenge is enabling diffusion transformers to operate effectively within them. We analyze the sources of this difficulty, propose theoretically motivated solutions, and validate them empirically. Our approach achieves faster convergence without auxiliary representation alignment losses. Using a DiT variant equipped with a lightweight, wide DDT head, we achieve strong image generation results on ImageNet: 1.51 FID at 256x256 (no guidance) and 1.13 at both 256x256 and 512x512 (with guidance). RAE offers clear advantages and should be the new default for diffusion transformer training.
- Abstract(参考訳): 事前訓練されたオートエンコーダが拡散過程のためにピクセルを潜在空間にマッピングする潜在生成モデリングは拡散変換器(DiT)の標準戦略となっているが、オートエンコーダコンポーネントはほとんど進化していない。
アーキテクチャの単純さを損なう時代遅れのバックボーン、情報容量を制限する低次元の潜伏空間、純粋に再構成ベースのトレーニングと最終的に生成品質を制限した弱い表現などである。
本研究では、VAEを事前訓練された表現エンコーダ(例えば、DINO、SigLIP、MAE)に置き換え、トレーニングされたデコーダと組み合わせ、表現オートエンコーダ(RAE)と呼ぶものを形成する。
これらのモデルは高品質な再構成とセマンティックにリッチな潜在空間の両方を提供し、スケーラブルなトランスフォーマーベースのアーキテクチャを実現する。
これらの潜伏空間は典型的には高次元であるため、拡散変換器が内部で効果的に動作できるようにするのが重要な課題である。
この困難の原因を分析し、理論的に動機づけられた解を提案し、それらを実証的に検証する。
提案手法は, 補助的なアライメントアライメント損失を伴わずに, より高速な収束を実現する。
軽量で幅の広いDDTヘッドを備えたDiT変種を用いて、画像Netでは、256x256で 1.51 FID(ガイダンスなし)、256x256と512x512で 1.13 FID(ガイダンス付き)という強力な画像生成結果が得られる。
RAEは明確な利点があり、拡散トランスフォーマートレーニングの新たなデフォルトとなるべきである。
関連論文リスト
- Both Semantics and Reconstruction Matter: Making Representation Encoders Ready for Text-to-Image Generation and Editing [62.94394079771687]
急成長する傾向は、表現エンコーダの高次元特徴を生成的潜伏剤として採用することである。
生成タスクに理解指向のエンコーダ機能を適用するための体系的フレームワークを提案する。
提案手法は,テキスト・トゥ・イメージ(T2I)と画像編集タスクにおいて,最先端の再構築,収束の高速化,大幅な性能向上を実現する。
論文 参考訳(メタデータ) (2025-12-19T18:59:57Z) - SSDD: Single-Step Diffusion Decoder for Efficient Image Tokenization [56.12853087022071]
スケーリングとトレーニングの安定性を向上させるために,新しい画素拡散デコーダアーキテクチャを導入する。
蒸留を用いて, 拡散復号器の性能を効率よく再現する。
これによりSSDDは、敵の損失なしに訓練された単一ステップ再構成に最適化された最初の拡散デコーダとなる。
論文 参考訳(メタデータ) (2025-10-06T15:57:31Z) - DDT: Decoupled Diffusion Transformer [51.84206763079382]
拡散変換器はノイズの多い入力を符号化し、意味成分を抽出し、同じモジュールで高い周波数をデコードする。
textbfcolorddtDecoupled textbfcolorddtTransformer(textbfcolorddtDDT)
textbfcolorddtTransformer(textbfcolorddtDDT)
textbfcolorddtTransformer(textbfcolorddtDDT)
論文 参考訳(メタデータ) (2025-04-08T07:17:45Z) - Toward Lightweight and Fast Decoders for Diffusion Models in Image and Video Generation [0.0]
大きな変分オートエンコーダデコーダは、生成を遅くし、かなりのGPUメモリを消費することができる。
軽量なVision Transformer と Taming Transformer アーキテクチャを用いたカスタムトレーニングデコーダを提案する。
COCO 2017では、画像生成の全体的なスピードアップが最大15%、サブモジュールでのデコーディングが最大20倍、ビデオタスクのUCF-101がさらに向上している。
論文 参考訳(メタデータ) (2025-03-06T16:21:49Z) - Improving the Diffusability of Autoencoders [54.920783089085035]
高品質な画像やビデオを生成するための主要なアプローチとして、潜伏拡散モデルが登場している。
我々は、現代のオートエンコーダのスペクトル分析を行い、その潜在空間における不規則な高周波成分を同定する。
我々は、この高周波成分が拡散合成プロセスの粗大な微細な性質に干渉し、生成品質を阻害する仮説を立てた。
論文 参考訳(メタデータ) (2025-02-20T18:45:44Z) - Reconstruction vs. Generation: Taming Optimization Dilemma in Latent Diffusion Models [33.519892081718716]
本稿では,視覚トークン化器のトレーニングにおいて,潜在空間と事前学習された視覚基盤モデルとの整合性を提案する。
提案するVA-VAEは遅延拡散モデルの再構成世代フロンティアを著しく拡張する。
私たちは、LightningDiTと呼ばれるトレーニング戦略とアーキテクチャ設計を改善した拡張DiTベースラインを構築します。
論文 参考訳(メタデータ) (2025-01-02T18:59:40Z) - Hierarchical Patch Diffusion Models for High-Resolution Video Generation [50.42746357450949]
我々は,階層的な方法で,コンテキスト情報を低スケールから高スケールのパッチに伝播する深層文脈融合を開発する。
また,ネットワーク容量の増大と,粗い画像の細部への演算を行う適応計算を提案する。
得られたモデルは、クラス条件のビデオ生成において66.32の最先端FVDスコアと87.68のインセプションスコアを新たに設定する。
論文 参考訳(メタデータ) (2024-06-12T01:12:53Z) - Scalable High-Resolution Pixel-Space Image Synthesis with Hourglass
Diffusion Transformers [2.078423403798577]
画像生成モデルであるHourglass Diffusion Transformer (HDiT)を提案する。
数十億のパラメータにスケールすることが知られているTransformerアーキテクチャに基づいて構築され、畳み込みU-Netの効率とTransformerのスケーラビリティのギャップを埋める。
論文 参考訳(メタデータ) (2024-01-21T21:49:49Z) - Fast Training of Diffusion Models with Masked Transformers [107.77340216247516]
マスク付き変圧器を用いた大規模拡散モデルの学習に有効な手法を提案する。
具体的には、トレーニング中に拡散された入力画像のパッチの割合をランダムにマスキングする。
ImageNet-256x256 と ImageNet-512x512 の実験により,我々の手法は最先端の拡散変換器 (DiT) モデルよりも競争力があり,より優れた生成性能が得られることが示された。
論文 参考訳(メタデータ) (2023-06-15T17:38:48Z) - Rethinking Semantic Segmentation from a Sequence-to-Sequence Perspective
with Transformers [149.78470371525754]
セマンティックセグメンテーションをシーケンスからシーケンスへの予測タスクとして扱う。
具体的には、イメージをパッチのシーケンスとしてエンコードするために純粋なトランスをデプロイします。
トランスのすべての層でモデル化されたグローバルコンテキストにより、このエンコーダは、SETR(SEgmentation TRansformer)と呼ばれる強力なセグメンテーションモデルを提供するための単純なデコーダと組み合わせることができる。
SETRはADE20K(50.28% mIoU)、Pascal Context(55.83% mIoU)、およびCityscapesの競争力のある結果に関する最新技術を達成している。
論文 参考訳(メタデータ) (2020-12-31T18:55:57Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。