論文の概要: E-MMDiT: Revisiting Multimodal Diffusion Transformer Design for Fast Image Synthesis under Limited Resources
- arxiv url: http://arxiv.org/abs/2510.27135v1
- Date: Fri, 31 Oct 2025 03:13:08 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-11-03 17:52:15.963239
- Title: E-MMDiT: Revisiting Multimodal Diffusion Transformer Design for Fast Image Synthesis under Limited Resources
- Title(参考訳): E-MMDiT:限られた資源下での高速画像合成のためのマルチモーダル拡散変圧器設計の再検討
- Authors: Tong Shen, Jingai Yu, Dong Zhou, Dong Li, Emad Barsoum,
- Abstract要約: E-MMDiT(Efficient Multimodal Diffusion Transformer)は、高速画像合成のための304Mパラメータしか持たない、効率的で軽量なマルチモーダル拡散モデルである。
AMD MI300X GPUの1ノードで1.5日で2500万の公開データをトレーニングした512px生成のモデルは、GenEvalで0.66に達し、GRPOのようなポストトレーニング手法で簡単に0.72に達する。
- 参考スコア(独自算出の注目度): 12.244453688491731
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Diffusion models have shown strong capabilities in generating high-quality images from text prompts. However, these models often require large-scale training data and significant computational resources to train, or suffer from heavy structure with high latency. To this end, we propose Efficient Multimodal Diffusion Transformer (E-MMDiT), an efficient and lightweight multimodal diffusion model with only 304M parameters for fast image synthesis requiring low training resources. We provide an easily reproducible baseline with competitive results. Our model for 512px generation, trained with only 25M public data in 1.5 days on a single node of 8 AMD MI300X GPUs, achieves 0.66 on GenEval and easily reaches to 0.72 with some post-training techniques such as GRPO. Our design philosophy centers on token reduction as the computational cost scales significantly with the token count. We adopt a highly compressive visual tokenizer to produce a more compact representation and propose a novel multi-path compression module for further compression of tokens. To enhance our design, we introduce Position Reinforcement, which strengthens positional information to maintain spatial coherence, and Alternating Subregion Attention (ASA), which performs attention within subregions to further reduce computational cost. In addition, we propose AdaLN-affine, an efficient lightweight module for computing modulation parameters in transformer blocks. Our code is available at https://github.com/AMD-AGI/Nitro-E and we hope E-MMDiT serves as a strong and practical baseline for future research and contributes to democratization of generative AI models.
- Abstract(参考訳): 拡散モデルはテキストプロンプトから高品質な画像を生成する強力な能力を示している。
しかしながら、これらのモデルでは、大規模なトレーニングデータと、トレーニングを行うための重要な計算資源を必要としたり、あるいはレイテンシの高い重い構造に悩まされる場合が多い。
そこで本研究では,低トレーニングリソースを必要とする高速画像合成のために,304Mパラメータしか持たない高効率かつ軽量なマルチモーダル拡散モデルである,効率的なマルチモーダル拡散変換器(E-MMDiT)を提案する。
競争結果の再現が容易なベースラインを提供する。
AMD MI300X GPUの1ノードで1.5日で2500万の公開データをトレーニングした512px生成のモデルは、GenEvalで0.66に達し、GRPOのようなポストトレーニング手法で簡単に0.72に達する。
我々の設計哲学は、トークン数とともに計算コストが大幅にスケールするにつれて、トークンの削減に重点を置いている。
我々は、よりコンパクトな表現を生成するために、高度に圧縮されたビジュアルトークン化器を採用し、トークンをさらに圧縮するための新しいマルチパス圧縮モジュールを提案する。
本研究では,空間的コヒーレンスを維持するために位置情報を強化する位置強化と,計算コストをさらに削減するためにサブリージョン内で注意を向ける代替サブリージョンアテンション(ASA)を導入する。
さらに,トランスブロックの変調パラメータを計算するための軽量モジュールであるAdaLN-affineを提案する。
私たちのコードはhttps://github.com/AMD-AGI/Nitro-Eで公開されています。
関連論文リスト
- Home-made Diffusion Model from Scratch to Hatch [0.9383683724544296]
ホームメイド拡散モデル(Home-made Diffusion Model, HDM)は、消費者向けハードウェアのトレーニングに最適化された、効率的かつ強力なテキスト-画像拡散モデルである。
HDMは競争力のある1024x1024世代の品質を実現し、トレーニングコストは535-620ドルと極めて低い。
論文 参考訳(メタデータ) (2025-09-07T14:21:57Z) - Reconstruction vs. Generation: Taming Optimization Dilemma in Latent Diffusion Models [33.519892081718716]
本稿では,視覚トークン化器のトレーニングにおいて,潜在空間と事前学習された視覚基盤モデルとの整合性を提案する。
提案するVA-VAEは遅延拡散モデルの再構成世代フロンティアを著しく拡張する。
私たちは、LightningDiTと呼ばれるトレーニング戦略とアーキテクチャ設計を改善した拡張DiTベースラインを構築します。
論文 参考訳(メタデータ) (2025-01-02T18:59:40Z) - Dynamic Diffusion Transformer [67.13876021157887]
Diffusion Transformer (DiT) は優れた性能を示したが、かなりの計算コストに悩まされている。
本研究では,動的拡散変換器 (DyDiT) を提案する。
3%の微調整により,DiT-XLのFLOPを51%削減し,生成を1.73高速化し,ImageNet上でのFIDスコア2.07を達成する。
論文 参考訳(メタデータ) (2024-10-04T14:14:28Z) - DiM: Diffusion Mamba for Efficient High-Resolution Image Synthesis [56.849285913695184]
Diffusion Mamba (DiM) は高分解能画像合成のためのシーケンスモデルである。
DiMアーキテクチャは高解像度画像の推論時間効率を実現する。
実験は、我々のDiMの有効性と効率を実証する。
論文 参考訳(メタデータ) (2024-05-23T06:53:18Z) - Transforming Image Super-Resolution: A ConvFormer-based Efficient Approach [58.57026686186709]
本稿では, Convolutional Transformer Layer (ConvFormer) を導入し, ConvFormer-based Super-Resolution Network (CFSR) を提案する。
CFSRは畳み込みベースのアプローチとトランスフォーマーベースのアプローチの両方の利点を継承する。
CFSRは計算コストと性能のバランスが最適であることを示す実験である。
論文 参考訳(メタデータ) (2024-01-11T03:08:00Z) - MatFormer: Nested Transformer for Elastic Inference [91.45687988953435]
MatFormerは、多様なデプロイメント制約にまたがる弾性推論を提供するように設計された、新しいTransformerアーキテクチャである。
MatFormerは、標準的なTransformerモデルにネストフィードフォワードネットワーク(FFN)ブロック構造を組み込むことで、これを実現している。
8億5000万デコーダのみのMatFormer言語モデル(MatLM)により,5億2200万から8億5千万のパラメータにまたがる複数の小さなモデルを抽出できることを示す。
論文 参考訳(メタデータ) (2023-10-11T17:57:14Z) - BK-SDM: A Lightweight, Fast, and Cheap Version of Stable Diffusion [2.8461446020965435]
安定拡散モデル(SDM)を用いたテキスト・ツー・イメージ(T2I)生成は高い計算要求を伴う。
近年の研究では、サンプリングのステップを減らし、元のアーキテクチャを維持しながらネットワーク量子化を適用している。
低コスト汎用T2Iにおけるブロックプレーニングと特徴蒸留の驚くべき可能性を明らかにする。
論文 参考訳(メタデータ) (2023-05-25T07:28:28Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。