論文の概要: T2I-FactualBench: Benchmarking the Factuality of Text-to-Image Models with Knowledge-Intensive Concepts
- arxiv url: http://arxiv.org/abs/2412.04300v2
- Date: Sat, 07 Dec 2024 17:25:28 GMT
- ステータス: 翻訳完了
- システム内更新日: 2024-12-10 11:30:45.870983
- Title: T2I-FactualBench: Benchmarking the Factuality of Text-to-Image Models with Knowledge-Intensive Concepts
- Title(参考訳): T2I-FactualBench:知識集約的概念を用いたテキスト・画像モデルの現実性のベンチマーク
- Authors: Ziwei Huang, Wanggui He, Quanyu Long, Yandi Wang, Haoyuan Li, Zhelun Yu, Fangxun Shu, Long Chan, Hao Jiang, Leilei Gan, Fei Wu,
- Abstract要約: T2I-FactualBench - 知識集約型概念生成の事実性を評価するために設計された概念とプロンプトの数で、これまでで最大のベンチマークである。
T2I-FactualBenchは、個々の知識概念の基本記憶から、複数の知識概念のより複雑な構成まで、三段階の知識集約型テキスト・画像生成フレームワークで構成されている。
- 参考スコア(独自算出の注目度): 21.897804514122843
- License:
- Abstract: Evaluating the quality of synthesized images remains a significant challenge in the development of text-to-image (T2I) generation. Most existing studies in this area primarily focus on evaluating text-image alignment, image quality, and object composition capabilities, with comparatively fewer studies addressing the evaluation of the factuality of T2I models, particularly when the concepts involved are knowledge-intensive. To mitigate this gap, we present T2I-FactualBench in this work - the largest benchmark to date in terms of the number of concepts and prompts specifically designed to evaluate the factuality of knowledge-intensive concept generation. T2I-FactualBench consists of a three-tiered knowledge-intensive text-to-image generation framework, ranging from the basic memorization of individual knowledge concepts to the more complex composition of multiple knowledge concepts. We further introduce a multi-round visual question answering (VQA) based evaluation framework to assess the factuality of three-tiered knowledge-intensive text-to-image generation tasks. Experiments on T2I-FactualBench indicate that current state-of-the-art (SOTA) T2I models still leave significant room for improvement.
- Abstract(参考訳): 合成画像の品質を評価することは、テキスト・ツー・イメージ(T2I)の生成において重要な課題である。
この分野の既存の研究は、主にテキスト画像アライメント、画像品質、オブジェクト合成能力の評価に重点を置いており、特に関連する概念が知識集約である場合、T2Iモデルの事実性を評価する研究は比較的少ない。
このギャップを緩和するために,本研究では,知識集約型概念生成の事実性を評価するために特別に設計された概念とプロンプトの数の観点から,これまでで最大のベンチマークであるT2I-FactualBenchを提示する。
T2I-FactualBenchは、個々の知識概念の基本記憶から、複数の知識概念のより複雑な構成まで、三段階の知識集約型テキスト・画像生成フレームワークで構成されている。
さらに,3階層の知識集約型テキスト・ツー・イメージ生成タスクの事実性を評価するために,VQAに基づく多段階視覚質問応答(multi-round visual question answering, VQA)評価フレームワークを導入する。
T2I-FactualBenchの実験は、現在の最先端(SOTA)のT2Iモデルが依然として改善の余地を残していることを示している。
関連論文リスト
- Text-to-Image Synthesis: A Decade Survey [7.250878248686215]
テキスト・ツー・イメージ合成(T2I)は、テキスト記述から高品質な画像を生成することに焦点を当てている。
本調査では,T2Iに関する最近の研究440件について概説する。
論文 参考訳(メタデータ) (2024-11-25T07:40:32Z) - KITTEN: A Knowledge-Intensive Evaluation of Image Generation on Visual Entities [93.74881034001312]
テキスト・画像生成モデルにおける実体の忠実度に関する系統的研究を行う。
我々はランドマークの建物、航空機、植物、動物など、幅広い現実世界の視覚的実体を生成する能力に焦点をあてる。
その結果、最も高度なテキスト・画像モデルでさえ、正確な視覚的詳細を持つエンティティを生成できないことが判明した。
論文 参考訳(メタデータ) (2024-10-15T17:50:37Z) - Pioneering Reliable Assessment in Text-to-Image Knowledge Editing: Leveraging a Fine-Grained Dataset and an Innovative Criterion [21.37254997228105]
テキスト・トゥ・イメージ(T2I)拡散モデルは、事実知識をパラメータにエンコードする。
知識編集技術は、対象とする方法でモデル知識を更新することを目的としている。
我々は3つのフェーズに網羅してT2I知識編集フレームワークを設計する。
T2I知識編集のためのシンプルだが効果的なアプローチである textbfMPE を導入する。
論文 参考訳(メタデータ) (2024-09-26T15:07:30Z) - ConceptMix: A Compositional Image Generation Benchmark with Controllable Difficulty [52.15933752463479]
ConceptMixはスケーラブルで、制御可能で、カスタマイズ可能なベンチマークです。
テキスト・ツー・イメージ(T2I)モデルの合成生成能力を自動的に評価する。
いくつかのモデル、特に開モデルの性能は k の増加とともに劇的に低下する。
論文 参考訳(メタデータ) (2024-08-26T15:08:12Z) - PhyBench: A Physical Commonsense Benchmark for Evaluating Text-to-Image Models [50.33699462106502]
テキスト・トゥ・イメージ(T2I)モデルは、物理コモンセンスと整合した画像を生成するのにしばしば失敗する。
現在のT2I評価ベンチマークは、精度、バイアス、安全性などの指標に焦点を当て、モデルの内部知識の評価を無視している。
メカニクス,光学,熱力学,材料特性の4つのカテゴリに700のプロンプトを含む総合的なT2I評価データセットであるPhyBenchを紹介する。
論文 参考訳(メタデータ) (2024-06-17T17:49:01Z) - T2I-CompBench: A Comprehensive Benchmark for Open-world Compositional
Text-to-image Generation [62.71574695256264]
T2I-CompBenchは、オープンワールドのコンポジションテキスト・ツー・イメージ生成のための包括的なベンチマークである。
合成テキスト・画像生成の評価に特化して設計されたいくつかの評価指標を提案する。
本稿では,ジェネレーティブmOdelファインタニングとReward-driven Sample selection (GORS)を導入することで,合成テキスト・画像生成能力を向上する手法を提案する。
論文 参考訳(メタデータ) (2023-07-12T17:59:42Z) - ConceptBed: Evaluating Concept Learning Abilities of Text-to-Image
Diffusion Models [79.10890337599166]
本研究では,284のユニークな視覚概念と33Kの合成テキストプロンプトからなる大規模データセットであるConceptBedを紹介する。
我々は、対象、属性、スタイルのいずれかである視覚概念を評価し、また、構成性の4つの次元(計数、属性、関係、行動)を評価する。
私たちの結果は、概念を学ぶことと、既存のアプローチが克服に苦労する構成性を維持することのトレードオフを示しています。
論文 参考訳(メタデータ) (2023-06-07T18:00:38Z) - Re-Imagen: Retrieval-Augmented Text-to-Image Generator [58.60472701831404]
検索用テキスト・ツー・イメージ・ジェネレータ(再画像)
検索用テキスト・ツー・イメージ・ジェネレータ(再画像)
論文 参考訳(メタデータ) (2022-09-29T00:57:28Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。