論文の概要: Evaluating Image Hallucination in Text-to-Image Generation with Question-Answering
- arxiv url: http://arxiv.org/abs/2409.12784v4
- Date: Tue, 15 Oct 2024 15:01:44 GMT
- ステータス: 処理完了
- システム内更新日: 2024-11-07 13:23:33.603781
- Title: Evaluating Image Hallucination in Text-to-Image Generation with Question-Answering
- Title(参考訳): 質問応答によるテキスト・ツー・イメージ生成における画像幻覚の評価
- Authors: Youngsun Lim, Hojun Choi, Hyunjung Shim,
- Abstract要約: 我々は,新しい評価指標であるI-HallA (Image Hallucination Evaluation with Question Answering)を紹介する。
I-HallAは視覚的質問応答(VQA)を用いて生成画像の事実性を測定する
我々はI-HallAを用いて5つのテキスト・ツー・イメージモデルを評価し、これらの最先端モデルが事実情報を正確に伝達できない場合が多いことを明らかにした。
- 参考スコア(独自算出の注目度): 13.490305443938817
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Despite the impressive success of text-to-image (TTI) generation models, existing studies overlook the issue of whether these models accurately convey factual information. In this paper, we focus on the problem of image hallucination, where images created by generation models fail to faithfully depict factual content. To address this, we introduce I-HallA (Image Hallucination evaluation with Question Answering), a novel automated evaluation metric that measures the factuality of generated images through visual question answering (VQA). We also introduce I-HallA v1.0, a curated benchmark dataset for this purpose. As part of this process, we develop a pipeline that generates high-quality question-answer pairs using multiple GPT-4 Omni-based agents, with human judgments to ensure accuracy. Our evaluation protocols measure image hallucination by testing if images from existing text-to-image models can correctly respond to these questions. The I-HallA v1.0 dataset comprises 1.2K diverse image-text pairs across nine categories with 1,000 rigorously curated questions covering various compositional challenges. We evaluate five text-to-image models using I-HallA and reveal that these state-of-the-art models often fail to accurately convey factual information. Moreover, we validate the reliability of our metric by demonstrating a strong Spearman correlation (rho=0.95) with human judgments. We believe our benchmark dataset and metric can serve as a foundation for developing factually accurate text-to-image generation models.
- Abstract(参考訳): TTI(text-to-image)生成モデルの成功にもかかわらず、既存の研究では、これらのモデルが事実情報を正確に伝達するかどうかという問題を見逃している。
本稿では,生成モデルが生成した画像が事実を忠実に表現できない画像幻覚の問題に焦点をあてる。
そこで我々は,視覚的質問応答(VQA)を用いて生成した画像の事実を計測する新しい自動評価指標であるI-HallA(Image Hallucination Evaluation with Question Answering)を紹介する。
また、この目的でキュレートされたベンチマークデータセットであるI-HallA v1.0についても紹介する。
このプロセスの一環として,複数のGPT-4 Omniエージェントを用いて高品質な質問応答対を生成するパイプラインを開発した。
評価プロトコルは,既存のテキスト・ツー・イメージモデルから得られた画像がこれらの疑問に正しく答えられるかどうかをテストすることで,画像の幻覚を測定する。
I-HallA v1.0データセットは、9つのカテゴリにまたがる1.2Kの多様な画像テキストペアで構成され、1,000の厳密なキュレートされた質問が様々な構成上の課題をカバーしている。
我々はI-HallAを用いて5つのテキスト・ツー・イメージモデルを評価し、これらの最先端モデルが事実情報を正確に伝達できない場合が多いことを明らかにした。
さらに,人間の判断と強いスピアマン相関(rho=0.95)を示すことによって,指標の信頼性を検証する。
われわれのベンチマークデータセットとメトリクスは、事実的精度の高いテキスト・画像生成モデルを開発する基盤となると信じている。
関連論文リスト
- HAUR: Human Annotation Understanding and Recognition Through Text-Heavy Images [4.468589513127865]
視覚質問回答(VQA)タスクは、重要な情報を伝えるために画像を使用し、テキストベースの質問に答える。
データセットとモデルも間もなくリリースされる予定です。
論文 参考訳(メタデータ) (2024-12-24T10:25:41Z) - Evaluating Hallucination in Text-to-Image Diffusion Models with Scene-Graph based Question-Answering Agent [9.748808189341526]
有効なテキスト・ツー・イメージ(T2I)評価指標は以下のとおりである: 生成された画像がテキストのプロンプトと一致しないインスタンスを検出する。
抽出したシーングラフを用いて質問応答を行うための大規模言語モデル (LLM) に基づく手法を提案し, 生成された画像に対する評価スコアを用いたデータセットを作成する。
論文 参考訳(メタデータ) (2024-12-07T18:44:38Z) - How Many Van Goghs Does It Take to Van Gogh? Finding the Imitation Threshold [50.33428591760124]
学習データセットにおける概念の頻度とモデルを模倣する能力の関係について検討する。
我々は,複数のモデルをスクラッチからトレーニングする余剰コストを発生させることなく,模倣閾値を推定する効率的な手法を提案する。
論文 参考訳(メタデータ) (2024-10-19T06:28:14Z) - Holistic Evaluation of Text-To-Image Models [153.47415461488097]
我々はテキスト・ツー・イメージ・モデル(HEIM)の全体的評価という新しいベンチマークを導入する。
テキスト・イメージ・アライメント、画像品質、美学、独創性、推論、知識、バイアス、毒性、公正性、堅牢性、多言語性、効率性を含む12の側面を識別する。
以上の結果から,異なるモデルが異なる強みを示すことにより,すべての面において単一のモデルが優れているものはないことが明らかとなった。
論文 参考訳(メタデータ) (2023-11-07T19:00:56Z) - Davidsonian Scene Graph: Improving Reliability in Fine-grained Evaluation for Text-to-Image Generation [64.64849950642619]
テキスト・ツー・イメージ・モデルを評価するための形式的意味論にインスパイアされた評価フレームワークを開発する。
Davidsonian Scene Graph (DSG) が依存性グラフにまとめられた原子的およびユニークな質問を生成することを示す。
また,1060個のプロンプトを含むオープンソースの評価ベンチマークDSG-1kを提案する。
論文 参考訳(メタデータ) (2023-10-27T16:20:10Z) - On quantifying and improving realism of images generated with diffusion [50.37578424163951]
与えられた画像の5つの統計的測度から算出した画像リアリズムスコア(IRS)と呼ばれるメトリクスを提案する。
IRSは、与えられた画像を実または偽のものとして分類する手段として容易に利用できる。
我々は,安定拡散モデル (SDM) , Dalle2, Midjourney, BigGAN による偽画像の検出に成功して,提案したIRSのモデルおよびデータに依存しない性質を実験的に確立した。
このデータセットは、高品質の4つのモデルによって生成される100のクラスに対して1,000のサンプルを提供します。
論文 参考訳(メタデータ) (2023-09-26T08:32:55Z) - TIFA: Accurate and Interpretable Text-to-Image Faithfulness Evaluation
with Question Answering [86.38098280689027]
視覚的質問応答(VQA)を用いたテキスト入力に生成した画像の忠実度を測定する自動評価指標を導入する。
そこで本研究では,12カテゴリにわたる4Kの多様なテキスト入力と25Kの質問(オブジェクト,カウントなど)からなるベンチマークを用いて,既存のテキスト・ツー・イメージ・モデルの包括的評価を行う。
論文 参考訳(メタデータ) (2023-03-21T14:41:02Z) - How good are deep models in understanding the generated images? [47.64219291655723]
オブジェクト認識と視覚的質問応答タスクのために、生成画像の2つのセットを収集する。
オブジェクト認識では、10の最先端オブジェクト認識モデルのうち最高のモデルが、約60%と80%のトップ-1とトップ5の精度を達成する。
VQAでは、50の画像で241のバイナリ質問に回答すると77.3%のスコアが与えられる。
論文 参考訳(メタデータ) (2022-08-23T06:44:43Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。