論文の概要: TIFA: Accurate and Interpretable Text-to-Image Faithfulness Evaluation
with Question Answering
- arxiv url: http://arxiv.org/abs/2303.11897v1
- Date: Tue, 21 Mar 2023 14:41:02 GMT
- ステータス: 処理完了
- システム内更新日: 2023-03-22 14:38:17.574713
- Title: TIFA: Accurate and Interpretable Text-to-Image Faithfulness Evaluation
with Question Answering
- Title(参考訳): TIFA:質問応答によるテキストから画像への忠実度の評価
- Authors: Yushi Hu, Benlin Liu, Jungo Kasai, Yizhong Wang, Mari Ostendorf,
Ranjay Krishna, Noah A. Smith
- Abstract要約: 視覚的質問応答(VQA)を用いたテキスト入力に生成した画像の忠実度を測定する自動評価指標を導入する。
そこで本研究では,12カテゴリにわたる4Kの多様なテキスト入力と25Kの質問(オブジェクト,カウントなど)からなるベンチマークを用いて,既存のテキスト・ツー・イメージ・モデルの包括的評価を行う。
- 参考スコア(独自算出の注目度): 63.97964855741879
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Despite thousands of researchers, engineers, and artists actively working on
improving text-to-image generation models, systems often fail to produce images
that accurately align with the text inputs. We introduce TIFA (Text-to-Image
Faithfulness evaluation with question Answering), an automatic evaluation
metric that measures the faithfulness of a generated image to its text input
via visual question answering (VQA). Specifically, given a text input, we
automatically generate several question-answer pairs using a language model. We
calculate image faithfulness by checking whether existing VQA models can answer
these questions using the generated image. TIFA is a reference-free metric that
allows for fine-grained and interpretable evaluations of generated images. TIFA
also has better correlations with human judgments than existing metrics. Based
on this approach, we introduce TIFA v1.0, a benchmark consisting of 4K diverse
text inputs and 25K questions across 12 categories (object, counting, etc.). We
present a comprehensive evaluation of existing text-to-image models using TIFA
v1.0 and highlight the limitations and challenges of current models. For
instance, we find that current text-to-image models, despite doing well on
color and material, still struggle in counting, spatial relations, and
composing multiple objects. We hope our benchmark will help carefully measure
the research progress in text-to-image synthesis and provide valuable insights
for further research.
- Abstract(参考訳): 何千もの研究者、エンジニア、アーティストが、テキストから画像への生成モデルの改善に積極的に取り組んでいるが、システムはしばしば、テキスト入力と正確に一致する画像の生成に失敗している。
本稿では,視覚的質問応答(VQA)によるテキスト入力に対して生成画像の忠実度を測定する自動評価指標であるTIFA(Text-to- Image Faithfulness Evaluation with question Answering)を紹介する。
具体的には,テキスト入力が与えられた場合,言語モデルを用いて質問応答ペアを自動的に生成する。
既存のVQAモデルが生成した画像を用いてこれらの疑問に答えられるかどうかを確認することにより、画像忠実度を算出する。
TIFAは参照なしの計量であり、生成した画像のきめ細やかで解釈可能な評価を可能にする。
TIFAは既存の指標よりも人間の判断と相関性が高い。
このアプローチに基づいて,12カテゴリ(オブジェクト,カウントなど)にわたる4Kの多様なテキスト入力と25Kの質問からなるベンチマークであるTIFA v1.0を紹介する。
本稿では,tifa v1.0を用いた既存のテキスト対画像モデルの包括的評価を行い,現行モデルの限界と課題を強調する。
例えば、現在のテキストから画像へのモデルは、色や素材ではうまく機能しているが、数え上げや空間的関係、複数のオブジェクトの作成に苦労している。
われわれのベンチマークは、テキストと画像の合成における研究の進捗を注意深く測定し、さらなる研究に有用な洞察を提供することを期待している。
関連論文リスト
- Evaluating Image Hallucination in Text-to-Image Generation with Question-Answering [13.490305443938817]
我々は,新しい評価指標であるI-HallA (Image Hallucination Evaluation with Question Answering)を紹介する。
I-HallAは視覚的質問応答(VQA)を用いて生成画像の事実性を測定する
我々はI-HallAを用いて5つのテキスト・ツー・イメージモデルを評価し、これらの最先端モデルが事実情報を正確に伝達できない場合が多いことを明らかにした。
論文 参考訳(メタデータ) (2024-09-19T13:51:21Z) - Evaluating Text-to-Visual Generation with Image-to-Text Generation [113.07368313330994]
VQAScore(VQAScore)は、アライメントスコアを生成するビジュアル・クエクション・アンサーリング(VQA)モデルである。
これは、多くの(8)画像テキストアライメントベンチマークで最先端の結果を生成する。
我々は1,600の合成テキストプロンプトを備えたより難しいベンチマークであるGenAI-Benchを紹介する。
論文 参考訳(メタデータ) (2024-04-01T17:58:06Z) - Zero-shot Translation of Attention Patterns in VQA Models to Natural
Language [65.94419474119162]
ZS-A2Tは、トレーニングを必要とせずに、与えられたモデルのトランスフォーマーアテンションを自然言語に変換するフレームワークである。
我々はこれを視覚質問回答(VQA)の文脈で考える。
私たちのフレームワークはトレーニングを一切必要とせず、異なるガイドソースをドロップインで置き換えることができます。
論文 参考訳(メタデータ) (2023-11-08T22:18:53Z) - Holistic Evaluation of Text-To-Image Models [153.47415461488097]
我々はテキスト・ツー・イメージ・モデル(HEIM)の全体的評価という新しいベンチマークを導入する。
テキスト・イメージ・アライメント、画像品質、美学、独創性、推論、知識、バイアス、毒性、公正性、堅牢性、多言語性、効率性を含む12の側面を識別する。
以上の結果から,異なるモデルが異なる強みを示すことにより,すべての面において単一のモデルが優れているものはないことが明らかとなった。
論文 参考訳(メタデータ) (2023-11-07T19:00:56Z) - What You See is What You Read? Improving Text-Image Alignment Evaluation [28.722369586165108]
テキスト画像の自動アライメント評価法について検討する。
まず、テキスト・ツー・イメージと画像・ツー・テキスト生成タスクから複数のデータセットにまたがるSeeeTRUEを紹介します。
質問生成モデルと視覚的質問応答モデルに基づくパイプラインを含むパイプラインと、マルチモーダル事前学習モデルの微調整によるエンドツーエンドの分類手法を用いて、アライメントを決定するための2つの自動手法について述べる。
論文 参考訳(メタデータ) (2023-05-17T17:43:38Z) - Learning the Visualness of Text Using Large Vision-Language Models [42.75864384249245]
視覚的テキストは人の心の中のイメージを誘発するが、視覚的でないテキストはそれを起こさない。
テキスト内の視覚を自動的に検出する手法により、テキスト・ツー・イメージ検索と生成モデルにより、関連する画像でテキストを拡張できる。
我々は,3,620の英語文のデータセットと,複数のアノテータによって提供されるその視覚性スコアをキュレートする。
論文 参考訳(メタデータ) (2023-05-11T17:45:16Z) - Language Quantized AutoEncoders: Towards Unsupervised Text-Image
Alignment [81.73717488887938]
Language-Quantized AutoEncoder (LQAE)は、事前訓練された言語モデルを利用して、教師なしの方法でテキストイメージデータを整列することを学ぶ。
LQAEは類似した画像を類似したテキストトークンのクラスタで表現することを学び、一致したテキストイメージペアを使わずにこれら2つのモダリティを整列させる。
これにより、大きな言語モデル(例えばGPT-3)による少数ショット画像の分類や、BERTテキストの特徴に基づく画像の線形分類が可能になる。
論文 参考訳(メタデータ) (2023-02-02T06:38:44Z) - On Advances in Text Generation from Images Beyond Captioning: A Case
Study in Self-Rationalization [89.94078728495423]
近年のモダリティ,CLIP画像表現,言語モデルの拡張は,マルチモーダル入力によるタスクのマルチモーダル自己調整を一貫して改善していないことを示す。
画像キャプションを超えて画像やテキストからテキストを生成するために構築可能なバックボーンモデリング手法が提案されている。
論文 参考訳(メタデータ) (2022-05-24T00:52:40Z) - VisualMRC: Machine Reading Comprehension on Document Images [4.057968826847943]
質問と文書画像が与えられたとき、機械は自然言語で質問に答えるために画像中のテキストを読み、理解する。
VisualMRCは、自然言語の理解と生成能力の開発に重点を置いている。
これには3万以上の質問と、Webページの複数のドメインから得られた1万以上のドキュメントイメージの抽象的な回答が含まれている。
論文 参考訳(メタデータ) (2021-01-27T09:03:06Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。