論文の概要: ConceptMix: A Compositional Image Generation Benchmark with Controllable Difficulty
- arxiv url: http://arxiv.org/abs/2408.14339v1
- Date: Mon, 26 Aug 2024 15:08:12 GMT
- ステータス: 処理完了
- システム内更新日: 2024-08-27 13:31:39.260412
- Title: ConceptMix: A Compositional Image Generation Benchmark with Controllable Difficulty
- Title(参考訳): ConceptMix: 制御困難を伴う合成画像生成ベンチマーク
- Authors: Xindi Wu, Dingli Yu, Yangsibo Huang, Olga Russakovsky, Sanjeev Arora,
- Abstract要約: ConceptMixはスケーラブルで、制御可能で、カスタマイズ可能なベンチマークです。
テキスト・ツー・イメージ(T2I)モデルの合成生成能力を自動的に評価する。
いくつかのモデル、特に開モデルの性能は k の増加とともに劇的に低下する。
- 参考スコア(独自算出の注目度): 52.15933752463479
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Compositionality is a critical capability in Text-to-Image (T2I) models, as it reflects their ability to understand and combine multiple concepts from text descriptions. Existing evaluations of compositional capability rely heavily on human-designed text prompts or fixed templates, limiting their diversity and complexity, and yielding low discriminative power. We propose ConceptMix, a scalable, controllable, and customizable benchmark which automatically evaluates compositional generation ability of T2I models. This is done in two stages. First, ConceptMix generates the text prompts: concretely, using categories of visual concepts (e.g., objects, colors, shapes, spatial relationships), it randomly samples an object and k-tuples of visual concepts, then uses GPT4-o to generate text prompts for image generation based on these sampled concepts. Second, ConceptMix evaluates the images generated in response to these prompts: concretely, it checks how many of the k concepts actually appeared in the image by generating one question per visual concept and using a strong VLM to answer them. Through administering ConceptMix to a diverse set of T2I models (proprietary as well as open ones) using increasing values of k, we show that our ConceptMix has higher discrimination power than earlier benchmarks. Specifically, ConceptMix reveals that the performance of several models, especially open models, drops dramatically with increased k. Importantly, it also provides insight into the lack of prompt diversity in widely-used training datasets. Additionally, we conduct extensive human studies to validate the design of ConceptMix and compare our automatic grading with human judgement. We hope it will guide future T2I model development.
- Abstract(参考訳): 構成性は、テキスト記述から複数の概念を理解し、組み合わせる能力の反映として、テキスト間画像(T2I)モデルにおいて重要な機能である。
既存の構成能力の評価は、人間の設計したテキストプロンプトや固定テンプレートに大きく依存し、その多様性と複雑さを制限し、識別力の低下を招いている。
本稿では,T2Iモデルの構成生成能力を自動評価する,スケーラブルで制御可能な,カスタマイズ可能なベンチマークであるConceptMixを提案する。
これは2つの段階で行われる。
まず、ConceptMixはテキストプロンプトを生成する: 具体的には、視覚概念のカテゴリ(例えば、オブジェクト、色、形状、空間関係)を使用して、ランダムにオブジェクトとkタプルのビジュアル概念をサンプリングし、次にGPT4-oを使用して、これらのサンプルされた概念に基づいて画像生成のためのテキストプロンプトを生成する。
第2に、ConceptMixはこれらのプロンプトに応答して生成された画像を評価する。具体的には、視覚的概念毎に1つの質問を生成して、強いVLMを使用して、実際に画像に現れるk概念の数をチェックします。
ConceptMix を k の値の増大を利用して T2I モデルの多種多様な集合(プロパティとオープンモデル)に導入することにより、私たちの ConceptMix が以前のベンチマークよりも高い識別能力を持つことを示す。
具体的には、ConceptMixは、いくつかのモデル、特にオープンモデルのパフォーマンスが、kの増加とともに劇的に低下することを明らかにした。
重要なのは、広く使用されているトレーニングデータセットにおいて、迅速な多様性の欠如に関する洞察を提供することだ。
さらに,ConceptMixの設計を検証し,自動階調と人間の判断を比較した。
将来のT2Iモデル開発をガイドすることを期待しています。
関連論文リスト
- MagicTailor: Component-Controllable Personalization in Text-to-Image Diffusion Models [51.1034358143232]
本稿では,テキスト・ツー・イメージ(T2I)モデルの境界を押し上げる新しいタスクであるコンポーネント・コントロール可能なパーソナライゼーションを提案する。
これらの課題を克服するために、動的マスケード分解(DM-Deg)を活用して、望ましくない視覚的セマンティクスを動的に摂動させる革新的なフレームワークであるMagicTailorを設計する。
論文 参考訳(メタデータ) (2024-10-17T09:22:53Z) - Non-confusing Generation of Customized Concepts in Diffusion Models [135.4385383284657]
テキスト誘導拡散モデル(TGDM)を用いた合成概念生成における概念間視覚混乱の共通課題に取り組む。
既存のカスタマイズされた生成方法は、第2ステージの微調整のみに焦点を当て、第1ステージを見下ろしている。
本稿では,CLIF(CLIF)と呼ばれる単純かつ効果的な画像言語微調整法を提案する。
論文 参考訳(メタデータ) (2024-05-11T05:01:53Z) - MC$^2$: Multi-concept Guidance for Customized Multi-concept Generation [49.935634230341904]
MC$2$と呼ばれるマルチコンセプトカスタマイズのためのマルチコンセプトガイダンスを導入し、柔軟性と忠実さを改善した。
MC$2$は、推論時間最適化を通じてモデルアーキテクチャの要件を分離する。
視覚とテキストのトークン間の注意重みを適応的に改善し、画像領域に関連した単語に集中するよう指示する。
論文 参考訳(メタデータ) (2024-04-08T07:59:04Z) - Gen4Gen: Generative Data Pipeline for Generative Multi-Concept
Composition [47.07564907486087]
近年のテキスト・画像拡散モデルでは,新規でパーソナライズされた概念を含む画像の学習と合成が可能となっている。
本稿では,テキスト・画像拡散モデルのパーソナライズという領域における2つの相互接続問題に取り組む。
論文 参考訳(メタデータ) (2024-02-23T18:55:09Z) - Textual Localization: Decomposing Multi-concept Images for
Subject-Driven Text-to-Image Generation [5.107886283951882]
マルチコンセプト入力画像を扱うための局所化テキスト・ツー・イメージモデルを提案する。
提案手法は,複数概念を分解するための新しいクロスアテンションガイダンスを組み込んだものである。
特に,本手法は,生成した画像の目標概念と整合した横断アテンションマップを生成する。
論文 参考訳(メタデータ) (2024-02-15T14:19:42Z) - ConceptBed: Evaluating Concept Learning Abilities of Text-to-Image
Diffusion Models [79.10890337599166]
本研究では,284のユニークな視覚概念と33Kの合成テキストプロンプトからなる大規模データセットであるConceptBedを紹介する。
我々は、対象、属性、スタイルのいずれかである視覚概念を評価し、また、構成性の4つの次元(計数、属性、関係、行動)を評価する。
私たちの結果は、概念を学ぶことと、既存のアプローチが克服に苦労する構成性を維持することのトレードオフを示しています。
論文 参考訳(メタデータ) (2023-06-07T18:00:38Z) - Break-A-Scene: Extracting Multiple Concepts from a Single Image [80.47666266017207]
テキストシーン分解の課題を紹介する。
本稿では,対象概念の存在を示すマスクを用いた入力画像の拡張を提案する。
次に、新しい2段階のカスタマイズプロセスを示す。
論文 参考訳(メタデータ) (2023-05-25T17:59:04Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。