Fugu-MT 論文翻訳(概要): Evaluating Image Hallucination in Text-to-Image Generation with Question-Answering

論文の概要: Evaluating Image Hallucination in Text-to-Image Generation with Question-Answering

arxiv url: http://arxiv.org/abs/2409.12784v6
Date: Mon, 23 Dec 2024 15:08:35 GMT
ステータス: 翻訳完了
システム内更新日: 2024-12-24 17:32:08.622262
Title: Evaluating Image Hallucination in Text-to-Image Generation with Question-Answering
Title（参考訳）: 質問応答によるテキスト・ツー・イメージ生成における画像幻覚の評価
Authors: Youngsun Lim, Hojun Choi, Hyunjung Shim,
Abstract要約: 我々は,新しい評価指標であるI-HallA (Image Hallucination Evaluation with Question Answering)を紹介する。 I-HallAは視覚的質問応答(VQA)を用いて生成画像の事実性を測定する I-HallAを用いて5つのTTIモデルを評価し、これらの最先端モデルが事実情報を正確に伝達できないことを明らかにする。
参考スコア（独自算出の注目度）: 13.490305443938817
License: http://creativecommons.org/licenses/by/4.0/
Abstract: Despite the impressive success of text-to-image (TTI) generation models, existing studies overlook the issue of whether these models accurately convey factual information. In this paper, we focus on the problem of image hallucination, where images created by generation models fail to faithfully depict factual content. To address this, we introduce I-HallA (Image Hallucination evaluation with Question Answering), a novel automated evaluation metric that measures the factuality of generated images through visual question answering (VQA). We also introduce I-HallA v1.0, a curated benchmark dataset for this purpose. As part of this process, we develop a pipeline that generates high-quality question-answer pairs using multiple GPT-4 Omni-based agents, with human judgments to ensure accuracy. Our evaluation protocols measure image hallucination by testing if images from existing TTI models can correctly respond to these questions. The I-HallA v1.0 dataset comprises 1.2K diverse image-text pairs across nine categories with 1,000 rigorously curated questions covering various compositional challenges. We evaluate five TTI models using I-HallA and reveal that these state-of-the-art models often fail to accurately convey factual information. Moreover, we validate the reliability of our metric by demonstrating a strong Spearman correlation ($\rho$=0.95) with human judgments. We believe our benchmark dataset and metric can serve as a foundation for developing factually accurate TTI generation models. Additional resources can be found on our project page: https://sgt-lim.github.io/I-HallA/.
Abstract（参考訳）: TTI(text-to-image)生成モデルの成功にもかかわらず、既存の研究では、これらのモデルが事実情報を正確に伝達するかどうかという問題を見逃している。本稿では,生成モデルが生成した画像が事実を忠実に表現できない画像幻覚の問題に焦点をあてる。そこで我々は,視覚的質問応答(VQA)を用いて生成した画像の事実を計測する新しい自動評価指標であるI-HallA(Image Hallucination Evaluation with Question Answering)を紹介する。また、この目的でキュレートされたベンチマークデータセットであるI-HallA v1.0についても紹介する。このプロセスの一環として,複数のGPT-4 Omniエージェントを用いて高品質な質問応答対を生成するパイプラインを開発した。評価プロトコルは,既存のTTIモデルから得られた画像がこれらの疑問に正しく答えられるかどうかをテストすることで,画像の幻覚を測定する。 I-HallA v1.0データセットは、9つのカテゴリにまたがる1.2Kの多様な画像テキストペアで構成され、1,000の厳密なキュレートされた質問が様々な構成上の課題をカバーしている。 I-HallAを用いて5つのTTIモデルを評価し、これらの最先端モデルが事実情報を正確に伝達できないことを明らかにする。さらに,人間の判断と強いスピアマン相関($=0.95)を示すことによって,指標の信頼性を検証する。当社のベンチマークデータセットとメトリックは,現実的に正確なTTI生成モデルを開発する基盤として機能すると考えています。追加のリソースは、プロジェクトのページ(https://sgt-lim.github.io/I-HallA/)で参照できます。

関連論文リスト

D-Judge: How Far Are We? Evaluating the Discrepancies Between AI-synthesized Images and Natural Images through Multimodal Guidance [19.760989919485894]
AI-Natural Image Discrepancy accessing benchmark(textitD-Judge)を導入する。我々は、テキスト・トゥ・イメージ(T2I)、画像・トゥ・イメージ(I2I)、テキスト・アンド・イメージ(TI2I)プロンプトを用いて、5000の自然画像と4万以上のAIGIを9つのモデルで生成したデータセットであるtextitD-ANIを構築した。本フレームワークは, 画像品質, セマンティックアライメント, 美的魅力, 下流適用性, 人間の検証の5次元にわたる相違性を評価する。
論文参考訳（メタデータ） (2024-12-23T15:08:08Z)
Evaluating Hallucination in Text-to-Image Diffusion Models with Scene-Graph based Question-Answering Agent [9.748808189341526]
有効なテキスト・ツー・イメージ(T2I)評価指標は以下のとおりである: 生成された画像がテキストのプロンプトと一致しないインスタンスを検出する。抽出したシーングラフを用いて質問応答を行うための大規模言語モデル (LLM) に基づく手法を提案し, 生成された画像に対する評価スコアを用いたデータセットを作成する。
論文参考訳（メタデータ） (2024-12-07T18:44:38Z)
Image2Text2Image: A Novel Framework for Label-Free Evaluation of Image-to-Text Generation with Text-to-Image Diffusion Models [16.00576040281808]
本稿では,画像キャプションモデルを評価するための新しいフレームワークであるImage2Text2Imageを提案する。高い類似度スコアは、このモデルが忠実なテキスト記述を生み出し、低いスコアは相違点を強調していることを示唆している。本フレームワークは人手によるキャプション参照に依存しないので,画像キャプションモデルを評価する上で貴重なツールである。
論文参考訳（メタデータ） (2024-11-08T17:07:01Z)
How Many Van Goghs Does It Take to Van Gogh? Finding the Imitation Threshold [50.33428591760124]
学習データセットにおける概念の頻度とモデルを模倣する能力の関係について検討する。我々は,複数のモデルをスクラッチからトレーニングする余剰コストを発生させることなく,模倣閾値を推定する効率的な手法を提案する。
論文参考訳（メタデータ） (2024-10-19T06:28:14Z)
KITTEN: A Knowledge-Intensive Evaluation of Image Generation on Visual Entities [93.74881034001312]
テキスト・画像生成モデルにおける実体の忠実度に関する系統的研究を行う。我々はランドマークの建物、航空機、植物、動物など、幅広い現実世界の視覚的実体を生成する能力に焦点をあてる。その結果、最も高度なテキスト・画像モデルでさえ、正確な視覚的詳細を持つエンティティを生成できないことが判明した。
論文参考訳（メタデータ） (2024-10-15T17:50:37Z)
A Novel Evaluation Framework for Image2Text Generation [15.10524860121122]
本稿では,画像生成が可能な現代大規模言語モデル(LLM)に根ざした評価フレームワークを提案する。高い類似度スコアは、画像キャプションモデルが正確にテキスト記述を生成することを示唆している。類似度の低いスコアは相違点を示し、モデルの性能の潜在的な欠点を明らかにする。
論文参考訳（メタデータ） (2024-08-03T09:27:57Z)
Holistic Evaluation of Text-To-Image Models [153.47415461488097]
我々はテキスト・ツー・イメージ・モデル(HEIM)の全体的評価という新しいベンチマークを導入する。テキスト・イメージ・アライメント、画像品質、美学、独創性、推論、知識、バイアス、毒性、公正性、堅牢性、多言語性、効率性を含む12の側面を識別する。以上の結果から,異なるモデルが異なる強みを示すことにより,すべての面において単一のモデルが優れているものはないことが明らかとなった。
論文参考訳（メタデータ） (2023-11-07T19:00:56Z)
Davidsonian Scene Graph: Improving Reliability in Fine-grained Evaluation for Text-to-Image Generation [64.64849950642619]
テキスト・ツー・イメージ・モデルを評価するための形式的意味論にインスパイアされた評価フレームワークを開発する。 Davidsonian Scene Graph (DSG) が依存性グラフにまとめられた原子的およびユニークな質問を生成することを示す。また,1060個のプロンプトを含むオープンソースの評価ベンチマークDSG-1kを提案する。
論文参考訳（メタデータ） (2023-10-27T16:20:10Z)
On quantifying and improving realism of images generated with diffusion [50.37578424163951]
与えられた画像の5つの統計的測度から算出した画像リアリズムスコア(IRS)と呼ばれるメトリクスを提案する。 IRSは、与えられた画像を実または偽のものとして分類する手段として容易に利用できる。我々は,安定拡散モデル (SDM) , Dalle2, Midjourney, BigGAN による偽画像の検出に成功して,提案したIRSのモデルおよびデータに依存しない性質を実験的に確立した。このデータセットは、高品質の4つのモデルによって生成される100のクラスに対して1,000のサンプルを提供します。
論文参考訳（メタデータ） (2023-09-26T08:32:55Z)
StableRep: Synthetic Images from Text-to-Image Models Make Strong Visual Representation Learners [58.941838860425754]
合成画像の自己教師的手法を訓練することで、実際の画像と一致したり、打ち負かしたりすることができることを示す。本研究では,StableRepと呼ばれるマルチ陽性のコントラスト学習手法を開発した。合成画像だけで、StableRepで学んだ表現は、SimCLRとCLIPで学んだ表現のパフォーマンスを上回る。
論文参考訳（メタデータ） (2023-06-01T17:59:51Z)
TIFA: Accurate and Interpretable Text-to-Image Faithfulness Evaluation with Question Answering [86.38098280689027]
視覚的質問応答(VQA)を用いたテキスト入力に生成した画像の忠実度を測定する自動評価指標を導入する。そこで本研究では,12カテゴリにわたる4Kの多様なテキスト入力と25Kの質問(オブジェクト,カウントなど)からなるベンチマークを用いて,既存のテキスト・ツー・イメージ・モデルの包括的評価を行う。
論文参考訳（メタデータ） (2023-03-21T14:41:02Z)
How good are deep models in understanding the generated images? [47.64219291655723]
オブジェクト認識と視覚的質問応答タスクのために、生成画像の2つのセットを収集する。オブジェクト認識では、10の最先端オブジェクト認識モデルのうち最高のモデルが、約60%と80%のトップ-1とトップ5の精度を達成する。 VQAでは、50の画像で241のバイナリ質問に回答すると77.3%のスコアが与えられる。
論文参考訳（メタデータ） (2022-08-23T06:44:43Z)
Improving Generation and Evaluation of Visual Stories via Semantic Consistency [72.00815192668193]
一連の自然言語キャプションが与えられた場合、エージェントはキャプションに対応する一連の画像を生成する必要がある。それまでの作業では、このタスクで合成テキスト・画像モデルより優れた繰り返し生成モデルを導入してきた。従来のモデリング手法には、デュアルラーニングフレームワークの追加など、いくつかの改善点を提示する。
論文参考訳（メタデータ） (2021-05-20T20:42:42Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。