論文の概要: Evaluating Image Hallucination in Text-to-Image Generation with Question-Answering
- arxiv url: http://arxiv.org/abs/2409.12784v2
- Date: Tue, 15 Oct 2024 15:01:44 GMT
- ステータス: 処理完了
- システム内更新日: 2024-11-07 13:23:33.609957
- Title: Evaluating Image Hallucination in Text-to-Image Generation with Question-Answering
- Title(参考訳): 質問応答によるテキスト・ツー・イメージ生成における画像幻覚の評価
- Authors: Youngsun Lim, Hojun Choi, Pin-Yu Chen, Hyunjung Shim,
- Abstract要約: 我々は,新しい評価指標であるI-HallA (Image Hallucination Evaluation with Question Answering)を紹介する。
I-HallAは視覚的質問応答(VQA)を用いて生成画像の事実性を測定する
我々はI-HallAを用いて5つのテキスト・ツー・イメージモデルを評価し、これらの最先端モデルが事実情報を正確に伝達できない場合が多いことを明らかにした。
- 参考スコア(独自算出の注目度): 57.347251327135865
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Despite the impressive success of text-to-image (TTI) generation models, existing studies overlook the issue of whether these models accurately convey factual information. In this paper, we focus on the problem of image hallucination, where images created by generation models fail to faithfully depict factual content. To address this, we introduce I-HallA (Image Hallucination evaluation with Question Answering), a novel automated evaluation metric that measures the factuality of generated images through visual question answering (VQA). We also introduce I-HallA v1.0, a curated benchmark dataset for this purpose. As part of this process, we develop a pipeline that generates high-quality question-answer pairs using multiple GPT-4 Omni-based agents, with human judgments to ensure accuracy. Our evaluation protocols measure image hallucination by testing if images from existing text-to-image models can correctly respond to these questions. The I-HallA v1.0 dataset comprises 1.2K diverse image-text pairs across nine categories with 1,000 rigorously curated questions covering various compositional challenges. We evaluate five text-to-image models using I-HallA and reveal that these state-of-the-art models often fail to accurately convey factual information. Moreover, we validate the reliability of our metric by demonstrating a strong Spearman correlation (rho=0.95) with human judgments. We believe our benchmark dataset and metric can serve as a foundation for developing factually accurate text-to-image generation models.
- Abstract(参考訳): TTI(text-to-image)生成モデルの成功にもかかわらず、既存の研究では、これらのモデルが事実情報を正確に伝達するかどうかという問題を見逃している。
本稿では,生成モデルが生成した画像が事実を忠実に表現できない画像幻覚の問題に焦点をあてる。
そこで我々は,視覚的質問応答(VQA)を用いて生成した画像の事実を計測する新しい自動評価指標であるI-HallA(Image Hallucination Evaluation with Question Answering)を紹介する。
また、この目的でキュレートされたベンチマークデータセットであるI-HallA v1.0についても紹介する。
このプロセスの一環として,複数のGPT-4 Omniエージェントを用いて高品質な質問応答対を生成するパイプラインを開発した。
評価プロトコルは,既存のテキスト・ツー・イメージモデルから得られた画像がこれらの疑問に正しく答えられるかどうかをテストすることで,画像の幻覚を測定する。
I-HallA v1.0データセットは、9つのカテゴリにまたがる1.2Kの多様な画像テキストペアで構成され、1,000の厳密なキュレートされた質問が様々な構成上の課題をカバーしている。
我々はI-HallAを用いて5つのテキスト・ツー・イメージモデルを評価し、これらの最先端モデルが事実情報を正確に伝達できない場合が多いことを明らかにした。
さらに,人間の判断と強いスピアマン相関(rho=0.95)を示すことによって,指標の信頼性を検証する。
われわれのベンチマークデータセットとメトリクスは、事実的精度の高いテキスト・画像生成モデルを開発する基盤となると信じている。
関連論文リスト
- Image2Text2Image: A Novel Framework for Label-Free Evaluation of Image-to-Text Generation with Text-to-Image Diffusion Models [16.00576040281808]
本稿では,画像キャプションモデルを評価するための新しいフレームワークであるImage2Text2Imageを提案する。
高い類似度スコアは、このモデルが忠実なテキスト記述を生み出し、低いスコアは相違点を強調していることを示唆している。
本フレームワークは人手によるキャプション参照に依存しないので,画像キャプションモデルを評価する上で貴重なツールである。
論文 参考訳(メタデータ) (2024-11-08T17:07:01Z) - KITTEN: A Knowledge-Intensive Evaluation of Image Generation on Visual Entities [93.74881034001312]
テキスト・画像生成モデルにおける実体の忠実度に関する系統的研究を行う。
我々はランドマークの建物、航空機、植物、動物など、幅広い現実世界の視覚的実体を生成する能力に焦点をあてる。
その結果、最も高度なテキスト・画像モデルでさえ、正確な視覚的詳細を持つエンティティを生成できないことが判明した。
論文 参考訳(メタデータ) (2024-10-15T17:50:37Z) - A Novel Evaluation Framework for Image2Text Generation [15.10524860121122]
本稿では,画像生成が可能な現代大規模言語モデル(LLM)に根ざした評価フレームワークを提案する。
高い類似度スコアは、画像キャプションモデルが正確にテキスト記述を生成することを示唆している。
類似度の低いスコアは相違点を示し、モデルの性能の潜在的な欠点を明らかにする。
論文 参考訳(メタデータ) (2024-08-03T09:27:57Z) - Holistic Evaluation of Text-To-Image Models [153.47415461488097]
我々はテキスト・ツー・イメージ・モデル(HEIM)の全体的評価という新しいベンチマークを導入する。
テキスト・イメージ・アライメント、画像品質、美学、独創性、推論、知識、バイアス、毒性、公正性、堅牢性、多言語性、効率性を含む12の側面を識別する。
以上の結果から,異なるモデルが異なる強みを示すことにより,すべての面において単一のモデルが優れているものはないことが明らかとなった。
論文 参考訳(メタデータ) (2023-11-07T19:00:56Z) - Davidsonian Scene Graph: Improving Reliability in Fine-grained Evaluation for Text-to-Image Generation [64.64849950642619]
テキスト・ツー・イメージ・モデルを評価するための形式的意味論にインスパイアされた評価フレームワークを開発する。
Davidsonian Scene Graph (DSG) が依存性グラフにまとめられた原子的およびユニークな質問を生成することを示す。
また,1060個のプロンプトを含むオープンソースの評価ベンチマークDSG-1kを提案する。
論文 参考訳(メタデータ) (2023-10-27T16:20:10Z) - StableRep: Synthetic Images from Text-to-Image Models Make Strong Visual
Representation Learners [58.941838860425754]
合成画像の自己教師的手法を訓練することで、実際の画像と一致したり、打ち負かしたりすることができることを示す。
本研究では,StableRepと呼ばれるマルチ陽性のコントラスト学習手法を開発した。
合成画像だけで、StableRepで学んだ表現は、SimCLRとCLIPで学んだ表現のパフォーマンスを上回る。
論文 参考訳(メタデータ) (2023-06-01T17:59:51Z) - TIFA: Accurate and Interpretable Text-to-Image Faithfulness Evaluation
with Question Answering [86.38098280689027]
視覚的質問応答(VQA)を用いたテキスト入力に生成した画像の忠実度を測定する自動評価指標を導入する。
そこで本研究では,12カテゴリにわたる4Kの多様なテキスト入力と25Kの質問(オブジェクト,カウントなど)からなるベンチマークを用いて,既存のテキスト・ツー・イメージ・モデルの包括的評価を行う。
論文 参考訳(メタデータ) (2023-03-21T14:41:02Z) - Improving Generation and Evaluation of Visual Stories via Semantic
Consistency [72.00815192668193]
一連の自然言語キャプションが与えられた場合、エージェントはキャプションに対応する一連の画像を生成する必要がある。
それまでの作業では、このタスクで合成テキスト・画像モデルより優れた繰り返し生成モデルを導入してきた。
従来のモデリング手法には、デュアルラーニングフレームワークの追加など、いくつかの改善点を提示する。
論文 参考訳(メタデータ) (2021-05-20T20:42:42Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。