論文の概要: Scaling Text-to-Image Diffusion Transformers with Representation Autoencoders
- arxiv url: http://arxiv.org/abs/2601.16208v1
- Date: Thu, 22 Jan 2026 18:58:16 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-01-23 21:37:20.700901
- Title: Scaling Text-to-Image Diffusion Transformers with Representation Autoencoders
- Title(参考訳): 表現オートエンコーダを用いたテキスト・画像拡散変換器のスケーリング
- Authors: Shengbang Tong, Boyang Zheng, Ziteng Wang, Bingda Tang, Nanye Ma, Ellis Brown, Jihan Yang, Rob Fergus, Yann LeCun, Saining Xie,
- Abstract要約: 表現オートエンコーダ(RAE)は、ImageNet上で拡散モデリングにおいて明確な利点を示している。
本稿では,このフレームワークが大規模でフリーフォームなテキスト・ツー・イメージ(T2I)生成に拡張できるかどうかを検討する。
- 参考スコア(独自算出の注目度): 74.72147962028265
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Representation Autoencoders (RAEs) have shown distinct advantages in diffusion modeling on ImageNet by training in high-dimensional semantic latent spaces. In this work, we investigate whether this framework can scale to large-scale, freeform text-to-image (T2I) generation. We first scale RAE decoders on the frozen representation encoder (SigLIP-2) beyond ImageNet by training on web, synthetic, and text-rendering data, finding that while scale improves general fidelity, targeted data composition is essential for specific domains like text. We then rigorously stress-test the RAE design choices originally proposed for ImageNet. Our analysis reveals that scaling simplifies the framework: while dimension-dependent noise scheduling remains critical, architectural complexities such as wide diffusion heads and noise-augmented decoding offer negligible benefits at scale Building on this simplified framework, we conduct a controlled comparison of RAE against the state-of-the-art FLUX VAE across diffusion transformer scales from 0.5B to 9.8B parameters. RAEs consistently outperform VAEs during pretraining across all model scales. Further, during finetuning on high-quality datasets, VAE-based models catastrophically overfit after 64 epochs, while RAE models remain stable through 256 epochs and achieve consistently better performance. Across all experiments, RAE-based diffusion models demonstrate faster convergence and better generation quality, establishing RAEs as a simpler and stronger foundation than VAEs for large-scale T2I generation. Additionally, because both visual understanding and generation can operate in a shared representation space, the multimodal model can directly reason over generated latents, opening new possibilities for unified models.
- Abstract(参考訳): 表現オートエンコーダ(RAE)は,高次元セマンティック潜在空間でのトレーニングにより,ImageNet上での拡散モデリングにおいて,明確なアドバンテージを示す。
本研究では,このフレームワークが大規模でフリーフォームなテキスト・ツー・イメージ(T2I)生成に拡張できるかどうかを検討する。
我々はまず,Web, 合成, テキストレンダリングデータのトレーニングによって, ImageNet を超えて凍結表現エンコーダ (SigLIP-2) 上のRAEデコーダをスケールし, スケールが一般的な忠実性を改善する一方で, テキストのような特定の領域においてターゲットデータ合成が不可欠であることを確認した。
次に、ImageNet用に提案されたRAE設計選択を厳格にストレステストする。
次元依存型ノイズスケジューリングは依然として重要であるが,広拡散ヘッドや雑音増進デコーディングといったアーキテクチャ上の複雑さは,スケールにおいて無視可能な利点を提供する。
RAEは、すべてのモデルスケールにわたる事前トレーニングにおいて、VAEよりも一貫して優れています。
さらに、高品質なデータセットの微調整中に、VAEベースのモデルは64エポック後に破滅的な過度に適合し、RAEモデルは256エポックを通して安定し、一貫してより良いパフォーマンスを達成する。
すべての実験において、RAEベースの拡散モデルは、より高速な収束とより優れた生成品質を示し、RAEを大規模なT2I生成のためのVAEよりもシンプルで強力な基礎として確立する。
さらに、視覚的理解と生成の両方が共有表現空間で操作できるため、マルチモーダルモデルは生成されたラテントを直接推論し、統一モデルの新たな可能性を開くことができる。
関連論文リスト
- One Layer Is Enough: Adapting Pretrained Visual Encoders for Image Generation [33.56782043207013]
Feature Auto-Encoder (FAE) は、学習済みの視覚表現を、単一の注意層としてほとんど使用せずに生成に適した低次元の潜伏子に適応させる。
FAEはクラス条件とテキスト・ツー・イメージのベンチマークで高いパフォーマンスを達成する。
論文 参考訳(メタデータ) (2025-12-08T18:57:26Z) - Edit2Perceive: Image Editing Diffusion Models Are Strong Dense Perceivers [55.15722080205737]
Edit2Perceiveは、深度、正規度、マッティングの編集モデルを適応させる統合拡散フレームワークである。
私たちの単一ステップの決定論的推論は、比較的小さなデータセットでトレーニングしながら、より高速なランタイムをもたらす。
論文 参考訳(メタデータ) (2025-11-24T01:13:51Z) - Knowledge-Informed Neural Network for Complex-Valued SAR Image Recognition [51.03674130115878]
本稿では,新しい「圧縮集約圧縮」アーキテクチャ上に構築された軽量なフレームワークであるKnowledge-Informed Neural Network(KINN)を紹介する。
KINNはパラメータ効率の認識における最先端を確立し、データスカースとアウト・オブ・ディストリビューションのシナリオにおいて例外的な一般化を提供する。
論文 参考訳(メタデータ) (2025-10-23T07:12:26Z) - Improving Progressive Generation with Decomposable Flow Matching [50.63174319509629]
Decomposable Flow Matching (DFM)は、ビジュアルメディアのプログレッシブな生成のためのシンプルで効果的なフレームワークである。
Imagenet-1k 512pxでは、DFMはベースアーキテクチャよりも35.2%改善され、ベースラインは26.4%向上した。
論文 参考訳(メタデータ) (2025-06-24T17:58:02Z) - Reconstruction vs. Generation: Taming Optimization Dilemma in Latent Diffusion Models [33.519892081718716]
本稿では,視覚トークン化器のトレーニングにおいて,潜在空間と事前学習された視覚基盤モデルとの整合性を提案する。
提案するVA-VAEは遅延拡散モデルの再構成世代フロンティアを著しく拡張する。
私たちは、LightningDiTと呼ばれるトレーニング戦略とアーキテクチャ設計を改善した拡張DiTベースラインを構築します。
論文 参考訳(メタデータ) (2025-01-02T18:59:40Z) - M-VAR: Decoupled Scale-wise Autoregressive Modeling for High-Quality Image Generation [39.97174784206976]
このスケールワイド自己回帰フレームワークは,テキストイントラスケールモデリングに効果的に分離可能であることを示す。
計算オーバーヘッドを大幅に削減するために,Mambaのような線形複雑度機構を適用した。
実験により,本手法は画像品質と生成速度の両方で既存モデルより優れていることが示された。
論文 参考訳(メタデータ) (2024-11-15T18:54:42Z) - DiffiT: Diffusion Vision Transformers for Image Generation [88.08529836125399]
ViT(Vision Transformer)は、特に認識タスクにおいて、強力なモデリング機能とスケーラビリティを実証している。
拡散型生成学習におけるViTの有効性について検討し、拡散ビジョン変換器(DiffiT)と呼ばれる新しいモデルを提案する。
DiffiTはパラメータ効率が大幅に向上した高忠実度画像を生成するのに驚くほど効果的である。
論文 参考訳(メタデータ) (2023-12-04T18:57:01Z) - Effective Invertible Arbitrary Image Rescaling [77.46732646918936]
Invertible Neural Networks (INN)は、ダウンスケーリングとアップスケーリングのサイクルを共同で最適化することにより、アップスケーリングの精度を大幅に向上させることができる。
本研究の1つのモデルのみをトレーニングすることにより、任意の画像再スケーリングを実現するために、単純で効果的な非可逆的再スケーリングネットワーク(IARN)を提案する。
LR出力の知覚品質を損なうことなく、双方向任意再スケーリングにおいて最先端(SOTA)性能を実現する。
論文 参考訳(メタデータ) (2022-09-26T22:22:30Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。