論文の概要: DiT-Air: Revisiting the Efficiency of Diffusion Model Architecture Design in Text to Image Generation
- arxiv url: http://arxiv.org/abs/2503.10618v2
- Date: Fri, 14 Mar 2025 18:01:10 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-03-18 12:36:26.943901
- Title: DiT-Air: Revisiting the Efficiency of Diffusion Model Architecture Design in Text to Image Generation
- Title(参考訳): DiT-Air:テキストから画像生成への拡散モデル設計の効率性の再検討
- Authors: Chen Chen, Rui Qian, Wenze Hu, Tsu-Jui Fu, Jialing Tong, Xinze Wang, Lezhi Li, Bowen Zhang, Alex Schwing, Wei Liu, Yinfei Yang,
- Abstract要約: テキスト・画像生成のための拡散変換器(DiT)について検討する。
PixArt や MMDiT などの DiT ベースのアーキテクチャを評価し,標準的な DiT アーキテクチャと比較する。
監督と報酬の微調整により、DiT-AirはGenEvalとT2I CompBenchで最先端のパフォーマンスを達成する。
- 参考スコア(独自算出の注目度): 30.534142032949536
- License:
- Abstract: In this work, we empirically study Diffusion Transformers (DiTs) for text-to-image generation, focusing on architectural choices, text-conditioning strategies, and training protocols. We evaluate a range of DiT-based architectures--including PixArt-style and MMDiT variants--and compare them with a standard DiT variant which directly processes concatenated text and noise inputs. Surprisingly, our findings reveal that the performance of standard DiT is comparable with those specialized models, while demonstrating superior parameter-efficiency, especially when scaled up. Leveraging the layer-wise parameter sharing strategy, we achieve a further reduction of 66% in model size compared to an MMDiT architecture, with minimal performance impact. Building on an in-depth analysis of critical components such as text encoders and Variational Auto-Encoders (VAEs), we introduce DiT-Air and DiT-Air-Lite. With supervised and reward fine-tuning, DiT-Air achieves state-of-the-art performance on GenEval and T2I CompBench, while DiT-Air-Lite remains highly competitive, surpassing most existing models despite its compact size.
- Abstract(参考訳): 本研究では,テキスト・ツー・イメージ生成のための拡散変換器(DiT)を実証的に研究し,アーキテクチャの選択,テキストコンディショニング戦略,トレーニングプロトコルに着目した。
PixArt や MMDiT などの DiT ベースのアーキテクチャについて評価し,それらを統合されたテキストやノイズ入力を直接処理する標準 DiT 版と比較する。
驚くべきことに、標準DiTの性能はこれらの特化モデルに匹敵するが、特にスケールアップ時のパラメータ効率は優れていた。
階層的なパラメータ共有戦略を活用することで,MMDiTアーキテクチャと比較してモデルサイズが66%削減され,性能への影響は最小限となる。
テキストエンコーダや変分自動エンコーダ(VAE)などの重要なコンポーネントの詳細な分析に基づいて,DiT-AirとDiT-Air-Liteを導入する。
監督と報酬の微調整により、DiT-AirはGenEvalとT2I CompBenchで最先端のパフォーマンスを達成する一方、DiT-Air-Liteはコンパクトなサイズにもかかわらず既存のモデルよりも競争力が高い。
関連論文リスト
- Efficient Language Modeling for Low-Resource Settings with Hybrid RNN-Transformer Architectures [8.442206285783463]
トランスフォーマーベースの言語モデルは、最近テキスト生成における活発な研究の最前線にある。
これらのモデルの進歩は、数十億のパラメータ数とペタフロップ/秒単位の計算要求によって、禁止的なトレーニングコストの価格で実現されている。
注目層をフィードフォワードと準リカレントニューラルネットワーク層に選択的に置き換えることで,低データ方式におけるモデル性能向上のためのトランスフォーマーアーキテクチャについて検討する。
論文 参考訳(メタデータ) (2025-02-02T01:05:09Z) - Tensor Product Attention Is All You Need [54.40495407154611]
プロダクトアテンション(TPA)は、テンソル分解を使用してクエリ、キー、値をコンパクトに表現する新しいアテンションメカニズムである。
TPAは、メモリ効率とともに改善されたモデル品質を実現する。
本稿では,シーケンスモデリングのための新しいモデルアーキテクチャであるProducT ATTion Transformer (T6)を紹介する。
論文 参考訳(メタデータ) (2025-01-11T03:37:10Z) - Efficient Scaling of Diffusion Transformers for Text-to-Image Generation [105.7324182618969]
各種拡散変換器(DiT)のテキスト・画像生成におけるスケーリング特性について,広範かつ厳密なアブレーションにより検討した。
We found that U-ViT, a pure self-attention based DiT model provides a simple design and scales using cross-attention based DiT variants。
論文 参考訳(メタデータ) (2024-12-16T22:59:26Z) - OminiControl: Minimal and Universal Control for Diffusion Transformer [68.3243031301164]
我々は,Diffusion Transformer(DiT)アーキテクチャに画像条件をどのように統合するかを再考する,新しいアプローチであるOminiControlを提案する。
OminiControlは3つの重要なイノベーションを通じて、これらの制限に対処する。
論文 参考訳(メタデータ) (2024-11-22T17:55:15Z) - Dynamic Tuning Towards Parameter and Inference Efficiency for ViT Adaptation [67.13876021157887]
動的チューニング(DyT)は、ViT適応のためのパラメータと推論効率を改善するための新しいアプローチである。
DyTは既存のPEFT法に比べて性能が優れており、VTAB-1KベンチマークではFLOPの71%しか呼び出されていない。
論文 参考訳(メタデータ) (2024-03-18T14:05:52Z) - DiffiT: Diffusion Vision Transformers for Image Generation [88.08529836125399]
ViT(Vision Transformer)は、特に認識タスクにおいて、強力なモデリング機能とスケーラビリティを実証している。
拡散型生成学習におけるViTの有効性について検討し、拡散ビジョン変換器(DiffiT)と呼ばれる新しいモデルを提案する。
DiffiTはパラメータ効率が大幅に向上した高忠実度画像を生成するのに驚くほど効果的である。
論文 参考訳(メタデータ) (2023-12-04T18:57:01Z) - Extensive Evaluation of Transformer-based Architectures for Adverse Drug
Events Extraction [6.78974856327994]
逆イベント(ADE)抽出は、デジタル製薬における中核的なタスクの1つである。
我々は、非公式テキストを用いたADE抽出のための19のトランスフォーマーモデルを評価する。
分析の最後には、実験データから導出可能なテイクホームメッセージのリストを同定する。
論文 参考訳(メタデータ) (2023-06-08T15:25:24Z) - ACORT: A Compact Object Relation Transformer for Parameter Efficient
Image Captioning [13.659124860884912]
画像キャプションモデル削減のための3つの方法を提案する。
提案したACORTモデルはベースラインモデルよりも3.7倍から21.6倍少ないパラメータを持つ。
その結果、ACORTモデルはベースラインやSOTAアプローチと競合することを示した。
論文 参考訳(メタデータ) (2022-02-11T05:10:28Z) - Global Vision Transformer Pruning with Hessian-Aware Saliency [93.33895899995224]
この研究はヴィジュアルトランスフォーマー(ViT)モデルの共通設計哲学に挑戦する。
遅延を意識した規則化による直接遅延低減を実現し,すべての層や構造に匹敵する新しいヘッセン型構造解析基準を導出する。
DeiT-Baseモデルで反復的なプルーニングを実行すると、NViT(Novel ViT)と呼ばれる新しいアーキテクチャファミリが生まれ、パラメータをより効率的に利用する新しいパラメータが現れる。
論文 参考訳(メタデータ) (2021-10-10T18:04:59Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。