論文の概要: A Contrastive Compositional Benchmark for Text-to-Image Synthesis: A
Study with Unified Text-to-Image Fidelity Metrics
- arxiv url: http://arxiv.org/abs/2312.02338v1
- Date: Mon, 4 Dec 2023 20:47:48 GMT
- ステータス: 処理完了
- システム内更新日: 2023-12-06 17:38:58.926462
- Title: A Contrastive Compositional Benchmark for Text-to-Image Synthesis: A
Study with Unified Text-to-Image Fidelity Metrics
- Title(参考訳): テキスト・画像合成のためのコントラスト構成ベンチマーク:統一テキスト・画像の忠実度指標を用いた検討
- Authors: Xiangru Zhu, Penglei Sun, Chengyu Wang, Jingping Liu, Zhixu Li,
Yanghua Xiao, Jun Huang
- Abstract要約: 我々は,T2Iモデルの構成性を評価するためのベンチマークであるWinoground-T2Iを紹介する。
このベンチマークには、20のカテゴリにまたがる11Kの複雑で高品質なコントラスト文ペアが含まれている。
我々は、Winoground-T2Iモデルの性能評価と、その評価に使用される指標の2つの目的を兼ね備えたWinoground-T2Iを用いている。
- 参考スコア(独自算出の注目度): 58.83242220266935
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Text-to-image (T2I) synthesis has recently achieved significant advancements.
However, challenges remain in the model's compositionality, which is the
ability to create new combinations from known components. We introduce
Winoground-T2I, a benchmark designed to evaluate the compositionality of T2I
models. This benchmark includes 11K complex, high-quality contrastive sentence
pairs spanning 20 categories. These contrastive sentence pairs with subtle
differences enable fine-grained evaluations of T2I synthesis models.
Additionally, to address the inconsistency across different metrics, we propose
a strategy that evaluates the reliability of various metrics by using
comparative sentence pairs. We use Winoground-T2I with a dual objective: to
evaluate the performance of T2I models and the metrics used for their
evaluation. Finally, we provide insights into the strengths and weaknesses of
these metrics and the capabilities of current T2I models in tackling challenges
across a range of complex compositional categories. Our benchmark is publicly
available at https://github.com/zhuxiangru/Winoground-T2I .
- Abstract(参考訳): text-to-image (t2i) 合成は近年大きな進歩を遂げている。
しかし、既知のコンポーネントから新しい組み合わせを作成する能力であるモデルの構成性には課題が残っている。
我々は,T2Iモデルの構成性を評価するためのベンチマークであるWinoground-T2Iを紹介する。
このベンチマークには、20のカテゴリにまたがる11Kの複雑で高品質なコントラスト文ペアが含まれている。
これらの微妙な相違のある対照的な文対は、T2I合成モデルのきめ細かい評価を可能にする。
さらに,異なる指標間の不整合に対処するために,比較文ペアを用いて様々な指標の信頼性を評価する戦略を提案する。
我々は、Winoground-T2Iモデルの性能評価と、その評価に使用される指標の2つの目的を持つ。
最後に、これらの指標の長所と短所、および様々な複雑な構成カテゴリにわたる課題に対処する現在のT2Iモデルの能力について考察する。
私たちのベンチマークはhttps://github.com/zhuxiangru/Winoground-T2Iで公開されています。
関連論文リスト
- Evaluating Semantic Variation in Text-to-Image Synthesis: A Causal Perspective [50.261681681643076]
本稿では,SemVarEffectとSemVarBenchというベンチマークを用いて,テキスト・画像合成における入力のセマンティックな変化と出力の因果性を評価する。
本研究は,T2I合成コミュニティによるヒューマンインストラクション理解の探索を促進する効果的な評価枠組みを確立する。
論文 参考訳(メタデータ) (2024-10-14T08:45:35Z) - T2V-CompBench: A Comprehensive Benchmark for Compositional Text-to-video Generation [55.57459883629706]
コンポジションテキスト・ビデオ生成に関する最初の体系的研究を行う。
合成テキスト・ビデオ生成に適した最初のベンチマークであるT2V-CompBenchを提案する。
論文 参考訳(メタデータ) (2024-07-19T17:58:36Z) - Revisiting Text-to-Image Evaluation with Gecko: On Metrics, Prompts, and Human Ratings [31.34775554251813]
我々は、異なる人間のテンプレート間でモデルを識別できるスキルベースのベンチマークを導入する。
4つのテンプレートと4つのT2Iモデルにまたがって人間の評価を収集し、合計100Kのアノテーションを作成します。
既存の指標よりも人間の評価と相関した新しいQAベースの自動評価指標を導入する。
論文 参考訳(メタデータ) (2024-04-25T17:58:43Z) - Who Evaluates the Evaluations? Objectively Scoring Text-to-Image Prompt Coherence Metrics with T2IScoreScore (TS2) [62.44395685571094]
T2IScoreScoreはプロンプトを含むセマンティックエラーグラフのキュレートされたセットであり,誤画像の集合である。
これにより、与えられた迅速な忠実度測定値が、客観的な誤差数に対して正しく画像を順序付けできるかどうかを厳格に判断することができる。
最先端のVLMベースのメトリクスは、CLIPScoreのような単純な(そしておそらく悪い)機能ベースのメトリクスを著しく上回りません。
論文 参考訳(メタデータ) (2024-04-05T17:57:16Z) - T2I-CompBench: A Comprehensive Benchmark for Open-world Compositional
Text-to-image Generation [62.71574695256264]
T2I-CompBenchは、オープンワールドのコンポジションテキスト・ツー・イメージ生成のための包括的なベンチマークである。
合成テキスト・画像生成の評価に特化して設計されたいくつかの評価指標を提案する。
本稿では,ジェネレーティブmOdelファインタニングとReward-driven Sample selection (GORS)を導入することで,合成テキスト・画像生成能力を向上する手法を提案する。
論文 参考訳(メタデータ) (2023-07-12T17:59:42Z) - HRS-Bench: Holistic, Reliable and Scalable Benchmark for Text-to-Image
Models [39.38477117444303]
HRS-Benchはテキスト・ツー・イメージ(T2I)モデルの評価ベンチマークである。
正確性、堅牢性、一般化、公正性、偏見の5つのカテゴリに分類される13のスキルを測定する。
ファッション、動物、輸送、食品、衣服など50のシナリオをカバーしている。
論文 参考訳(メタデータ) (2023-04-11T17:59:13Z) - StyleT2I: Toward Compositional and High-Fidelity Text-to-Image Synthesis [52.341186561026724]
構成性の欠如は、堅牢性と公正性に深刻な影響を及ぼす可能性がある。
テキスト対画像合成の合成性を改善するための新しいフレームワークであるStyleT2Iを導入する。
その結果,StyleT2Iは入力テキストと合成画像との整合性という点で従来の手法よりも優れていた。
論文 参考訳(メタデータ) (2022-03-29T17:59:50Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。