論文の概要: Diffusion Beats Autoregressive: An Evaluation of Compositional Generation in Text-to-Image Models
- arxiv url: http://arxiv.org/abs/2410.22775v1
- Date: Wed, 30 Oct 2024 07:43:29 GMT
- ステータス: 翻訳完了
- システム内更新日: 2024-10-31 14:27:40.498726
- Title: Diffusion Beats Autoregressive: An Evaluation of Compositional Generation in Text-to-Image Models
- Title(参考訳): Diffusion Beats Autoregressive: テキスト・画像モデルにおける合成生成の評価
- Authors: Arash Marioriyad, Parham Rezaei, Mahdieh Soleymani Baghshah, Mohammad Hossein Rohban,
- Abstract要約: テキスト・ツー・イメージ(T2I)生成モデルは、高品質でリアルで自然な画像を生成するのに顕著な熟練性を示している。
オープンソースの拡散に基づく新しいT2IモデルFLUXが導入された。
本稿では,T2I-CompBenchベンチマークを用いて,新たに導入されたモデルに対して構成生成能力を評価する。
- 参考スコア(独自算出の注目度): 3.5999252362400993
- License:
- Abstract: Text-to-image (T2I) generative models, such as Stable Diffusion and DALL-E, have shown remarkable proficiency in producing high-quality, realistic, and natural images from textual descriptions. However, these models sometimes fail to accurately capture all the details specified in the input prompts, particularly concerning entities, attributes, and spatial relationships. This issue becomes more pronounced when the prompt contains novel or complex compositions, leading to what are known as compositional generation failure modes. Recently, a new open-source diffusion-based T2I model, FLUX, has been introduced, demonstrating strong performance in high-quality image generation. Additionally, autoregressive T2I models like LlamaGen have claimed competitive visual quality performance compared to diffusion-based models. In this study, we evaluate the compositional generation capabilities of these newly introduced models against established models using the T2I-CompBench benchmark. Our findings reveal that LlamaGen, as a vanilla autoregressive model, is not yet on par with state-of-the-art diffusion models for compositional generation tasks under the same criteria, such as model size and inference time. On the other hand, the open-source diffusion-based model FLUX exhibits compositional generation capabilities comparable to the state-of-the-art closed-source model DALL-E3.
- Abstract(参考訳): 安定拡散(Stable Diffusion)やDALL-E(DALL-E)のようなテキスト・ツー・イメージ(Text-to-image, T2I)生成モデルは、テキスト記述から高品質でリアルで自然な画像を生成するのに顕著な能力を示している。
しかし、これらのモデルでは、入力プロンプトで指定された詳細、特にエンティティ、属性、空間的関係を正確に把握できないことがある。
この問題は、プロンプトに新規または複雑な構成が含まれており、コンストラクショナルジェネレーション障害モードとして知られるものとなると、より顕著になる。
近年,オープンソースの拡散型T2IモデルFLUXが登場し,高品質な画像生成性能が向上した。
さらに、LlamaGenのような自己回帰型T2Iモデルは、拡散ベースのモデルと比較して、競争力のある視覚的品質性能を主張している。
本研究では,T2I-CompBenchベンチマークを用いて,新たに導入されたモデルに対して構成生成能力を評価する。
この結果から,LlamaGenは,バニラ自己回帰モデルとして,モデルサイズや推論時間といった同じ条件下での合成タスクの最先端拡散モデルと同等ではないことが明らかとなった。
一方、オープンソースの拡散モデルFLUXは、最先端のクローズドソースモデルであるDALL-E3に匹敵する構成生成能力を示す。
関連論文リスト
- IterComp: Iterative Composition-Aware Feedback Learning from Model Gallery for Text-to-Image Generation [70.8833857249951]
IterCompは、複数のモデルから合成対応モデルの好みを集約する新しいフレームワークである。
クローズドループ方式で構成性を向上する反復的フィードバック学習法を提案する。
IterCompは、拡散モデルと合成生成のための報酬フィードバック学習の新たな研究の道を開く。
論文 参考訳(メタデータ) (2024-10-09T17:59:13Z) - GenMix: Combining Generative and Mixture Data Augmentation for Medical Image Classification [0.6554326244334868]
我々はGenMixと呼ばれる新しいデータ拡張手法を提案する。
両方の手法の強みを利用するために、生成的アプローチと混合的アプローチを組み合わせる。
我々はGenMixが様々な生成モデルの性能を向上させることを実証した。
論文 参考訳(メタデータ) (2024-05-31T07:32:31Z) - MaxFusion: Plug&Play Multi-Modal Generation in Text-to-Image Diffusion Models [34.611309081801345]
大規模な拡散ベースのテキスト・ツー・イメージ(T2I)モデルでは、テキスト・ツー・イメージ生成に印象的な生成能力がある。
本稿では,最小限の計算量で新しいタスクにまたがって生成モデルを拡張するための新しい手法を提案する。
論文 参考訳(メタデータ) (2024-04-15T17:55:56Z) - RealCompo: Balancing Realism and Compositionality Improves Text-to-Image Diffusion Models [42.20230095700904]
RealCompoは、新しいトレーニングフリーで、移行フレンドリーなテキスト・ツー・イメージ生成フレームワークである。
復調過程における2つのモデルの強みのバランスをとるために,直感的で斬新なバランサを提案する。
我々のRealCompoは、幅広い空間認識画像拡散モデルとスタイル化された拡散モデルでシームレスに拡張できる。
論文 参考訳(メタデータ) (2024-02-20T10:56:52Z) - Steered Diffusion: A Generalized Framework for Plug-and-Play Conditional
Image Synthesis [62.07413805483241]
Steered Diffusionは、無条件生成のために訓練された拡散モデルを用いたゼロショット条件画像生成のためのフレームワークである。
塗装,着色,テキスト誘導セマンティック編集,画像超解像などのタスクに対して,ステアリング拡散を用いた実験を行った。
論文 参考訳(メタデータ) (2023-09-30T02:03:22Z) - Conditional Generation from Unconditional Diffusion Models using
Denoiser Representations [94.04631421741986]
本稿では,学習したデノイザネットワークの内部表現を用いて,事前学習した非条件拡散モデルを新しい条件に適用することを提案する。
提案手法により生成した合成画像を用いたTiny ImageNetトレーニングセットの強化により,ResNetベースラインの分類精度が最大8%向上することを示す。
論文 参考訳(メタデータ) (2023-06-02T20:09:57Z) - Extracting Training Data from Diffusion Models [77.11719063152027]
拡散モデルはトレーニングデータから個々の画像を記憶し,生成時に出力することを示す。
生成とフィルタのパイプラインを用いて、最先端のモデルから数千以上のトレーニング例を抽出する。
さまざまな設定で何百もの拡散モデルをトレーニングし、モデリングとデータ決定の違いがプライバシに与える影響を分析する。
論文 参考訳(メタデータ) (2023-01-30T18:53:09Z) - On Distillation of Guided Diffusion Models [94.95228078141626]
そこで本研究では,分類器を含まない誘導拡散モデルから抽出し易いモデルへ抽出する手法を提案する。
画素空間上で訓練された標準拡散モデルに対して,本手法は元のモデルに匹敵する画像を生成することができる。
遅延空間で訓練された拡散モデル(例えば、安定拡散)に対して、我々の手法は1から4段階のデノナイジングステップで高忠実度画像を生成することができる。
論文 参考訳(メタデータ) (2022-10-06T18:03:56Z) - Implementing and Experimenting with Diffusion Models for Text-to-Image
Generation [0.0]
DALL-E 2 と Imagen という2つのモデルでは、画像の単純なテキスト記述から高画質の画像を生成できることが示されている。
テキスト・ツー・イメージのモデルは、トレーニングに必要な膨大な計算リソースと、インターネットから収集された巨大なデータセットを扱う必要がある。
この論文は、これらのモデルが使用するさまざまなアプローチとテクニックをレビューし、それから、テキスト・ツー・イメージ・モデルの独自の実装を提案することで貢献する。
論文 参考訳(メタデータ) (2022-09-22T12:03:33Z) - Compositional Visual Generation with Composable Diffusion Models [80.75258849913574]
拡散モデルを用いた構成生成のための代替的な構造的アプローチを提案する。
画像は拡散モデルの集合を構成することで生成され、それぞれが画像の特定のコンポーネントをモデル化する。
提案手法は, トレーニングで見られるものよりもはるかに複雑なシーンを, テスト時に生成することができる。
論文 参考訳(メタデータ) (2022-06-03T17:47:04Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。