論文の概要: T2I-CompBench: A Comprehensive Benchmark for Open-world Compositional
Text-to-image Generation
- arxiv url: http://arxiv.org/abs/2307.06350v1
- Date: Wed, 12 Jul 2023 17:59:42 GMT
- ステータス: 処理完了
- システム内更新日: 2023-07-14 16:57:55.498700
- Title: T2I-CompBench: A Comprehensive Benchmark for Open-world Compositional
Text-to-image Generation
- Title(参考訳): T2I-CompBench: オープンワールドコンポジションテキスト画像生成のための総合ベンチマーク
- Authors: Kaiyi Huang, Kaiyue Sun, Enze Xie, Zhenguo Li, Xihui Liu
- Abstract要約: T2I-CompBenchは、オープンワールドのコンポジションテキスト・ツー・イメージ生成のための包括的なベンチマークである。
合成テキスト・画像生成の評価に特化して設計されたいくつかの評価指標を提案する。
本稿では,ジェネレーティブmOdelファインタニングとReward-driven Sample selection (GORS)を導入することで,合成テキスト・画像生成能力を向上する手法を提案する。
- 参考スコア(独自算出の注目度): 40.13214262175412
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Despite the stunning ability to generate high-quality images by recent
text-to-image models, current approaches often struggle to effectively compose
objects with different attributes and relationships into a complex and coherent
scene. We propose T2I-CompBench, a comprehensive benchmark for open-world
compositional text-to-image generation, consisting of 6,000 compositional text
prompts from 3 categories (attribute binding, object relationships, and complex
compositions) and 6 sub-categories (color binding, shape binding, texture
binding, spatial relationships, non-spatial relationships, and complex
compositions). We further propose several evaluation metrics specifically
designed to evaluate compositional text-to-image generation. We introduce a new
approach, Generative mOdel fine-tuning with Reward-driven Sample selection
(GORS), to boost the compositional text-to-image generation abilities of
pretrained text-to-image models. Extensive experiments and evaluations are
conducted to benchmark previous methods on T2I-CompBench, and to validate the
effectiveness of our proposed evaluation metrics and GORS approach. Project
page is available at https://karine-h.github.io/T2I-CompBench/.
- Abstract(参考訳): 最近のテキストから画像へのモデルによって高品質な画像を生成する素晴らしい能力にもかかわらず、現在のアプローチでは、異なる属性と関係を持つオブジェクトを複雑で一貫性のあるシーンに効果的に構成するのに苦労することが多い。
T2I-CompBenchは3つのカテゴリ(属性バインディング、オブジェクト関係、複雑な構成)と6つのサブカテゴリ(カラーバインディング、形状バインディング、テクスチャバインディング、空間関係、非空間関係、複雑な構成)から6000のコンポジションテキストプロンプトからなるオープンワールドコンポジションテキスト画像生成のための総合ベンチマークである。
さらに,合成テキストから画像への生成を評価するための評価指標をいくつか提案する。
本稿では,プリトレーニングされたテキスト対画像モデルの合成テキスト生成能力を高めるために,報酬駆動サンプル選択(gors)による生成モデルの微調整を提案する。
従来のt2i-compbench法をベンチマークし,提案手法の有効性を検証するため,広範な実験と評価を行った。
プロジェクトページはhttps://karine-h.github.io/t2i-compbench/。
関連論文リスト
- Interleaved Scene Graph for Interleaved Text-and-Image Generation Assessment [53.45813302866466]
我々は、インターリーブされたテキスト・画像生成のための総合的な評価フレームワークISGを提案する。
ISGは、全体性、構造性、ブロックレベル、画像固有性の4つのレベルで反応を評価する。
ISGと組み合わせて、ISG-Benchというベンチマークを導入し、8つのカテゴリと21のサブカテゴリにわたる1,150のサンプルを網羅した。
論文 参考訳(メタデータ) (2024-11-26T07:55:57Z) - T2V-CompBench: A Comprehensive Benchmark for Compositional Text-to-video Generation [55.57459883629706]
コンポジションテキスト・ビデオ生成に関する最初の体系的研究を行う。
合成テキスト・ビデオ生成に適した最初のベンチマークであるT2V-CompBenchを提案する。
論文 参考訳(メタデータ) (2024-07-19T17:58:36Z) - FINEMATCH: Aspect-based Fine-grained Image and Text Mismatch Detection and Correction [66.98008357232428]
我々は新しいアスペクトベースのきめ細かいテキストと画像マッチングベンチマークであるFineMatchを提案する。
FineMatchはテキストと画像のミスマッチの検出と修正に焦点を当てている。
FineMatchで訓練されたモデルは、きめ細かいテキストや画像のミスマッチを検出する能力の向上を示す。
論文 参考訳(メタデータ) (2024-04-23T03:42:14Z) - Divide and Conquer: Language Models can Plan and Self-Correct for
Compositional Text-to-Image Generation [72.6168579583414]
CompAgentは、大規模な言語モデル(LLM)エージェントをコアとして、コンポジションテキスト・画像生成のためのトレーニング不要のアプローチである。
提案手法は,オープンワールド合成T2I生成のための総合的なベンチマークであるT2I-CompBenchに対して10%以上の改善を達成している。
論文 参考訳(メタデータ) (2024-01-28T16:18:39Z) - OpenLEAF: Open-Domain Interleaved Image-Text Generation and Evaluation [151.57313182844936]
本稿では,大規模言語モデル(LLM)と事前学習されたテキスト・ツー・イメージ(T2I)モデル,すなわちOpenLEAFに基づく新たなインターリーブ生成フレームワークを提案する。
まず,大規模マルチモーダルモデル(LMM)を用いて,オープンドメインのインターリーブ画像-テキストシーケンスのエンティティとスタイルのコンピテンシーを評価することを提案する。
論文 参考訳(メタデータ) (2023-10-11T17:58:33Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。