Fugu-MT 論文翻訳(概要): Efficient Scaling of Diffusion Transformers for Text-to-Image Generation

論文の概要: Efficient Scaling of Diffusion Transformers for Text-to-Image Generation

arxiv url: http://arxiv.org/abs/2412.12391v1
Date: Mon, 16 Dec 2024 22:59:26 GMT
ステータス: 翻訳完了
システム内更新日: 2024-12-18 17:09:38.47186
Title: Efficient Scaling of Diffusion Transformers for Text-to-Image Generation
Title（参考訳）: テキスト・画像生成のための拡散変換器の効率的なスケーリング
Authors: Hao Li, Shamit Lal, Zhiheng Li, Yusheng Xie, Ying Wang, Yang Zou, Orchid Majumder, R. Manmatha, Zhuowen Tu, Stefano Ermon, Stefano Soatto, Ashwin Swaminathan,
Abstract要約: 各種拡散変換器(DiT)のテキスト・画像生成におけるスケーリング特性について,広範かつ厳密なアブレーションにより検討した。 We found that U-ViT, a pure self-attention based DiT model provides a simple design and scales using cross-attention based DiT variants。
参考スコア（独自算出の注目度）: 105.7324182618969
License: http://creativecommons.org/licenses/by/4.0/
Abstract: We empirically study the scaling properties of various Diffusion Transformers (DiTs) for text-to-image generation by performing extensive and rigorous ablations, including training scaled DiTs ranging from 0.3B upto 8B parameters on datasets up to 600M images. We find that U-ViT, a pure self-attention based DiT model provides a simpler design and scales more effectively in comparison with cross-attention based DiT variants, which allows straightforward expansion for extra conditions and other modalities. We identify a 2.3B U-ViT model can get better performance than SDXL UNet and other DiT variants in controlled setting. On the data scaling side, we investigate how increasing dataset size and enhanced long caption improve the text-image alignment performance and the learning efficiency.
Abstract（参考訳）: テキスト・画像生成のための各種拡散変換器(DiT)のスケーリング特性を実験的に検討し,最大6億枚までのデータセット上で0.3Bから8Bまでの拡張DiTをトレーニングするなど,広範かつ厳密な改善を行った。純粋な自己注意型DiTモデルであるU-ViTは、クロスアテンション型DiTモデルと比較して、よりシンプルな設計とスケールを実現し、余分な条件や他のモダリティの簡単な拡張を可能にしている。 2.3BのU-ViTモデルではSDXL UNetや他のDiTモデルよりも優れた性能が得られる。データスケーリングの面では、データセットサイズの増加と長文キャプションの強化により、テキストのアライメント性能と学習効率が向上するかを検討する。

関連論文リスト

Diffusion-Enhanced Test-time Adaptation with Text and Image Augmentation [67.37146712877794]
IT3Aは、未知の新しいドメインから各テストサンプルをマルチモーダル拡張するために、事前訓練された生成モデルを利用する新しいテスト時間適応手法である。事前学習された視覚と言語モデルからの強化されたデータを組み合わせることで、未知の新しいテストデータに適応するモデルの能力を高めることができる。ゼロショット設定では、IT3Aは5.50%の精度で最先端のテスト時間プロンプトチューニング手法より優れている。
論文参考訳（メタデータ） (2024-12-12T20:01:24Z)
On the Scalability of Diffusion-based Text-to-Image Generation [97.64837704129005]
拡散に基づくテキスト・ツー・イメージ(T2I)モデルのスケーリング特性について検討する。モデルスケーリングでは、既存のUNet設計の性能を区別して、クロスアテンションの位置と量を求める。データスケーリングの面では、単にデータセットのサイズではなく、トレーニングセットの品質と多様性が重要です。
論文参考訳（メタデータ） (2024-04-03T17:34:28Z)
DiffiT: Diffusion Vision Transformers for Image Generation [88.08529836125399]
ViT(Vision Transformer)は、特に認識タスクにおいて、強力なモデリング機能とスケーラビリティを実証している。拡散型生成学習におけるViTの有効性について検討し、拡散ビジョン変換器(DiffiT)と呼ばれる新しいモデルを提案する。 DiffiTはパラメータ効率が大幅に向上した高忠実度画像を生成するのに驚くほど効果的である。
論文参考訳（メタデータ） (2023-12-04T18:57:01Z)
TTIDA: Controllable Generative Data Augmentation via Text-to-Text and Text-to-Image Models [37.2392848181456]
本稿では,テキスト・トゥ・テクスト・トゥ・イメージ・データ拡張のための大規模事前学習テキスト・ツー・テクスト・トゥ・イメージ・ジェネレーティブ・モデルの有用性を活用するため,TIDA(Text-to-Text-to-Image Data Augmentation)を提案する。 T2Tモデルによる詳細な記述にT2Iモデルを適用することにより、フレキシブルかつ制御可能な方法で写真リアルなラベル付き画像を生成することができる。
論文参考訳（メタデータ） (2023-04-18T08:40:30Z)
ViTAEv2: Vision Transformer Advanced by Exploring Inductive Bias for Image Recognition and Beyond [76.35955924137986]
我々は、内在性IBを畳み込み、すなわちViTAEから探索するビジョントランスフォーマーを提案する。 ViTAEはいくつかの空間ピラミッド縮小モジュールを備えており、入力イメージをリッチなマルチスケールコンテキストでトークンに埋め込む。我々は、ImageNet検証セット上で88.5%のTop-1分類精度と、ImageNet実検証セット上で最高の91.2%のTop-1分類精度を得る。
論文参考訳（メタデータ） (2022-02-21T10:40:05Z)
Vision Transformers are Robust Learners [65.91359312429147]
ビジョントランスフォーマー(ViT)の一般的な腐敗や摂動、分布シフト、自然逆転例に対する堅牢性について検討します。 ViTsが実際により堅牢な学習者である理由を説明するために、定量的および定性的な指標を提供する分析を提示します。
論文参考訳（メタデータ） (2021-05-17T02:39:22Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。