論文の概要: On the Scalability of Diffusion-based Text-to-Image Generation
- arxiv url: http://arxiv.org/abs/2404.02883v1
- Date: Wed, 3 Apr 2024 17:34:28 GMT
- ステータス: 処理完了
- システム内更新日: 2024-04-04 16:40:30.952810
- Title: On the Scalability of Diffusion-based Text-to-Image Generation
- Title(参考訳): 拡散に基づくテキスト・画像生成のスケーラビリティについて
- Authors: Hao Li, Yang Zou, Ying Wang, Orchid Majumder, Yusheng Xie, R. Manmatha, Ashwin Swaminathan, Zhuowen Tu, Stefano Ermon, Stefano Soatto,
- Abstract要約: 拡散に基づくテキスト・ツー・イメージ(T2I)モデルのスケーリング特性について検討する。
モデルスケーリングでは、既存のUNet設計の性能を区別して、クロスアテンションの位置と量を求める。
データスケーリングの面では、単にデータセットのサイズではなく、トレーニングセットの品質と多様性が重要です。
- 参考スコア(独自算出の注目度): 97.64837704129005
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Scaling up model and data size has been quite successful for the evolution of LLMs. However, the scaling law for the diffusion based text-to-image (T2I) models is not fully explored. It is also unclear how to efficiently scale the model for better performance at reduced cost. The different training settings and expensive training cost make a fair model comparison extremely difficult. In this work, we empirically study the scaling properties of diffusion based T2I models by performing extensive and rigours ablations on scaling both denoising backbones and training set, including training scaled UNet and Transformer variants ranging from 0.4B to 4B parameters on datasets upto 600M images. For model scaling, we find the location and amount of cross attention distinguishes the performance of existing UNet designs. And increasing the transformer blocks is more parameter-efficient for improving text-image alignment than increasing channel numbers. We then identify an efficient UNet variant, which is 45% smaller and 28% faster than SDXL's UNet. On the data scaling side, we show the quality and diversity of the training set matters more than simply dataset size. Increasing caption density and diversity improves text-image alignment performance and the learning efficiency. Finally, we provide scaling functions to predict the text-image alignment performance as functions of the scale of model size, compute and dataset size.
- Abstract(参考訳): モデルとデータサイズをスケールアップすることは、LLMの進化に非常に成功した。
しかし,拡散に基づくテキスト・ツー・イメージ(T2I)モデルのスケーリング法則は十分には検討されていない。
また、コスト削減によるパフォーマンス向上のためにモデルを効率的にスケールする方法も不明である。
異なるトレーニング設定と高価なトレーニングコストは、公正なモデル比較を極めて困難にします。
本研究では,拡散に基づくT2Iモデルのスケーリング特性を,最大6億枚までのデータセット上の0.4Bから4BのパラメータをトレーニングしたUNetとTransformerの変種を含む,広範かつ厳密なバックボーンとトレーニングセットのスケーリングの短縮によって実証的に研究する。
モデルスケーリングでは、既存のUNet設計の性能を区別して、クロスアテンションの位置と量を求める。
また、トランスブロックの増加は、チャネル数の増加よりもテキスト画像のアライメントを改善するためのパラメータ効率が高い。
次に、SDXLのUNetよりも45%小さく、28%高速な効率的なUNet変種を同定する。
データスケーリングの面では、単にデータセットのサイズではなく、トレーニングセットの品質と多様性が重要です。
キャプション密度と多様性の向上により、テキストのアライメント性能と学習効率が向上する。
最後に、モデルサイズ、計算量、データセットサイズのスケールの関数として、テキスト画像のアライメント性能を予測するためのスケーリング機能を提供します。
関連論文リスト
- FreeSeg-Diff: Training-Free Open-Vocabulary Segmentation with Diffusion Models [56.71672127740099]
我々は,閉鎖語彙データセットのトレーニングモデルによって伝統的に解決されるイメージセグメンテーションの課題に焦点をあてる。
我々は、ゼロショットのオープン語彙セグメンテーションのために、異なる、比較的小さなオープンソース基盤モデルを活用している。
当社のアプローチ(別名FreeSeg-Diff)は、トレーニングに依存しないもので、Pascal VOCとCOCOデータセットの両方で多くのトレーニングベースのアプローチより優れています。
論文 参考訳(メタデータ) (2024-03-29T10:38:25Z) - Joint Adaptive Representations for Image-Language Learning [59.40890927221377]
画像言語学習のためのレシピを提案し、より大きくて高価なものよりも優れたモデルを作成し、しばしば桁違いに大きなデータセットで訓練する。
我々の重要な発見は、適応的かつ反復的にマルチモーダルな特徴を融合させる、コンパクトな視覚と言語表現の連成学習である。
たった4000万のトレーニング例と39のGFLOPで、私たちの軽量モデルは、2~20倍以上のFLOPの最先端モデルで、さらに大きなデータセットを使用して、1B近くのトレーニング例で何倍もパフォーマンスを上げています。
論文 参考訳(メタデータ) (2023-05-31T15:02:02Z) - LLM-grounded Diffusion: Enhancing Prompt Understanding of Text-to-Image
Diffusion Models with Large Language Models [62.75006608940132]
本研究は,テキストから画像への拡散モデルにおいて,迅速な理解能力を高めることを提案する。
提案手法は,新たな2段階プロセスにおいて,事前訓練された大規模言語モデルを用いてグラウンドド生成を行う。
提案手法は,画像の正確な生成において,ベース拡散モデルといくつかの強いベースラインを著しく上回る。
論文 参考訳(メタデータ) (2023-05-23T03:59:06Z) - Efficient Context Integration through Factorized Pyramidal Learning for
Ultra-Lightweight Semantic Segmentation [1.0499611180329804]
本稿では,FPL(Facterized Pyramidal Learning)モジュールを提案する。
空間ピラミッドを2つのステージに分解し,モジュール内での簡易かつ効率的な特徴融合により,悪名高いチェッカーボード効果を解決する。
FPLモジュールとFIRユニットをベースとしたFPLNetと呼ばれる超軽量リアルタイムネットワークを提案する。
論文 参考訳(メタデータ) (2023-02-23T05:34:51Z) - Lafite2: Few-shot Text-to-Image Generation [132.14211027057766]
本稿では,画像のみのデータセットを用いたテキスト・画像生成モデルの事前学習手法を提案する。
擬似テキスト特徴を合成する検索テーマ最適化手法を検討する。
これは、数ショット、半教師あり、完全に教師された学習など、幅広い設定で有益である。
論文 参考訳(メタデータ) (2022-10-25T16:22:23Z) - Scale Attention for Learning Deep Face Representation: A Study Against
Visual Scale Variation [69.45176408639483]
我々はスケール空間理論に頼って凸層を再構築する。
我々はSCale AttentioN Conv Neural Network(textbfSCAN-CNN)という新しいスタイルを構築した。
単発方式として、推論はマルチショット融合よりも効率的である。
論文 参考訳(メタデータ) (2022-09-19T06:35:04Z) - FiT: Parameter Efficient Few-shot Transfer Learning for Personalized and
Federated Image Classification [47.24770508263431]
画像分類における要件を満たすFiLM Transfer (FiT) を開発した。
FiTは、大規模な画像データセットで事前トレーニングされた固定バックボーンの上に、自動的に設定されたNaive Bayes分類器を使用する。
本研究では, 最先端のBig Transfer (BiT) アルゴリズムよりも, ローショット, 挑戦的なVTAB-1kベンチマークにおいて, 高い分類精度が得られることを示す。
論文 参考訳(メタデータ) (2022-06-17T10:17:20Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。