論文の概要: T2I-CompBench: A Comprehensive Benchmark for Open-world Compositional
Text-to-image Generation
- arxiv url: http://arxiv.org/abs/2307.06350v2
- Date: Mon, 30 Oct 2023 11:42:42 GMT
- ステータス: 処理完了
- システム内更新日: 2023-11-01 23:18:05.536294
- Title: T2I-CompBench: A Comprehensive Benchmark for Open-world Compositional
Text-to-image Generation
- Title(参考訳): T2I-CompBench: オープンワールドコンポジションテキスト画像生成のための総合ベンチマーク
- Authors: Kaiyi Huang, Kaiyue Sun, Enze Xie, Zhenguo Li, Xihui Liu
- Abstract要約: T2I-CompBenchは、オープンワールドのコンポジションテキスト・ツー・イメージ生成のための包括的なベンチマークである。
合成テキスト・画像生成の評価に特化して設計されたいくつかの評価指標を提案する。
本稿では,ジェネレーティブmOdelファインタニングとReward-driven Sample selection (GORS)を導入することで,合成テキスト・画像生成能力を向上する手法を提案する。
- 参考スコア(独自算出の注目度): 62.71574695256264
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Despite the stunning ability to generate high-quality images by recent
text-to-image models, current approaches often struggle to effectively compose
objects with different attributes and relationships into a complex and coherent
scene. We propose T2I-CompBench, a comprehensive benchmark for open-world
compositional text-to-image generation, consisting of 6,000 compositional text
prompts from 3 categories (attribute binding, object relationships, and complex
compositions) and 6 sub-categories (color binding, shape binding, texture
binding, spatial relationships, non-spatial relationships, and complex
compositions). We further propose several evaluation metrics specifically
designed to evaluate compositional text-to-image generation and explore the
potential and limitations of multimodal LLMs for evaluation. We introduce a new
approach, Generative mOdel fine-tuning with Reward-driven Sample selection
(GORS), to boost the compositional text-to-image generation abilities of
pretrained text-to-image models. Extensive experiments and evaluations are
conducted to benchmark previous methods on T2I-CompBench, and to validate the
effectiveness of our proposed evaluation metrics and GORS approach. Project
page is available at https://karine-h.github.io/T2I-CompBench/.
- Abstract(参考訳): 最近のテキストから画像へのモデルによって高品質な画像を生成する素晴らしい能力にもかかわらず、現在のアプローチでは、異なる属性と関係を持つオブジェクトを複雑で一貫性のあるシーンに効果的に構成するのに苦労することが多い。
T2I-CompBenchは3つのカテゴリ(属性バインディング、オブジェクト関係、複雑な構成)と6つのサブカテゴリ(カラーバインディング、形状バインディング、テクスチャバインディング、空間関係、非空間関係、複雑な構成)から6000のコンポジションテキストプロンプトからなるオープンワールドコンポジションテキスト画像生成のための総合ベンチマークである。
さらに,合成テキストから画像への生成を評価するために特別に設計された評価指標をいくつか提案し,マルチモーダルllmの可能性と限界について検討する。
本稿では,プリトレーニングされたテキスト対画像モデルの合成テキスト生成能力を高めるために,報酬駆動サンプル選択(gors)による生成モデルの微調整を提案する。
従来のt2i-compbench法をベンチマークし,提案手法の有効性を検証するため,広範な実験と評価を行った。
プロジェクトページはhttps://karine-h.github.io/t2i-compbench/。
関連論文リスト
- Divide and Conquer: Language Models can Plan and Self-Correct for
Compositional Text-to-Image Generation [72.6168579583414]
CompAgentは、大規模な言語モデル(LLM)エージェントをコアとして、コンポジションテキスト・画像生成のためのトレーニング不要のアプローチである。
提案手法は,オープンワールド合成T2I生成のための総合的なベンチマークであるT2I-CompBenchに対して10%以上の改善を達成している。
論文 参考訳(メタデータ) (2024-01-28T16:18:39Z) - A Contrastive Compositional Benchmark for Text-to-Image Synthesis: A
Study with Unified Text-to-Image Fidelity Metrics [58.83242220266935]
我々は,T2Iモデルの構成性を評価するためのベンチマークであるWinoground-T2Iを紹介する。
このベンチマークには、20のカテゴリにまたがる11Kの複雑で高品質なコントラスト文ペアが含まれている。
我々は、Winoground-T2Iモデルの性能評価と、その評価に使用される指標の2つの目的を兼ね備えたWinoground-T2Iを用いている。
論文 参考訳(メタデータ) (2023-12-04T20:47:48Z) - GenEval: An Object-Focused Framework for Evaluating Text-to-Image
Alignment [26.785655363790312]
我々は、合成画像特性を評価するためのオブジェクト中心のフレームワークGenEvalを紹介する。
そこで本研究では,現在のオブジェクト検出モデルを用いてテキスト・ツー・イメージ・モデルの評価を行う。
次に、複数のオープンソーステキスト・ツー・イメージモデルを評価し、それらの相対的生成能力を解析する。
論文 参考訳(メタデータ) (2023-10-17T18:20:03Z) - OpenLEAF: Open-Domain Interleaved Image-Text Generation and Evaluation [151.57313182844936]
本稿では,大規模言語モデル(LLM)と事前学習されたテキスト・ツー・イメージ(T2I)モデル,すなわちOpenLEAFに基づく新たなインターリーブ生成フレームワークを提案する。
まず,大規模マルチモーダルモデル(LMM)を用いて,オープンドメインのインターリーブ画像-テキストシーケンスのエンティティとスタイルのコンピテンシーを評価することを提案する。
論文 参考訳(メタデータ) (2023-10-11T17:58:33Z) - Re-Imagen: Retrieval-Augmented Text-to-Image Generator [58.60472701831404]
検索用テキスト・ツー・イメージ・ジェネレータ(再画像)
検索用テキスト・ツー・イメージ・ジェネレータ(再画像)
論文 参考訳(メタデータ) (2022-09-29T00:57:28Z) - StyleT2I: Toward Compositional and High-Fidelity Text-to-Image Synthesis [52.341186561026724]
構成性の欠如は、堅牢性と公正性に深刻な影響を及ぼす可能性がある。
テキスト対画像合成の合成性を改善するための新しいフレームワークであるStyleT2Iを導入する。
その結果,StyleT2Iは入力テキストと合成画像との整合性という点で従来の手法よりも優れていた。
論文 参考訳(メタデータ) (2022-03-29T17:59:50Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。