Fugu-MT 論文翻訳(概要): EvalMuse-40K: A Reliable and Fine-Grained Benchmark with Comprehensive Human Annotations for Text-to-Image Generation Model Evaluation

論文の概要: EvalMuse-40K: A Reliable and Fine-Grained Benchmark with Comprehensive Human Annotations for Text-to-Image Generation Model Evaluation

arxiv url: http://arxiv.org/abs/2412.18150v1
Date: Tue, 24 Dec 2024 04:08:25 GMT
ステータス: 翻訳完了
システム内更新日: 2024-12-25 19:23:17.658389
Title: EvalMuse-40K: A Reliable and Fine-Grained Benchmark with Comprehensive Human Annotations for Text-to-Image Generation Model Evaluation
Title（参考訳）: EvalMuse-40K:テキスト・画像生成モデル評価のための人間アノテーションを用いた信頼性と微粒化ベンチマーク
Authors: Shuhao Han, Haotian Fan, Jiachen Fu, Liang Li, Tao Li, Junhui Cui, Yunqiu Wang, Yang Tai, Jingwei Sun, Chunle Guo, Chongyi Li,
Abstract要約: 本研究では,EvalMuse-40Kベンチマークにコントリビュートし,画像テキストアライメントに関連するタスクに対して,微粒な人間のアノテーションを用いた40K画像テキストペアを収集する。本稿では,T2Iモデルの画像テキストアライメント機能を評価するための2つの新しい手法を提案する。
参考スコア（独自算出の注目度）: 29.176750442205325
License: http://creativecommons.org/licenses/by/4.0/
Abstract: Recently, Text-to-Image (T2I) generation models have achieved significant advancements. Correspondingly, many automated metrics have emerged to evaluate the image-text alignment capabilities of generative models. However, the performance comparison among these automated metrics is limited by existing small datasets. Additionally, these datasets lack the capacity to assess the performance of automated metrics at a fine-grained level. In this study, we contribute an EvalMuse-40K benchmark, gathering 40K image-text pairs with fine-grained human annotations for image-text alignment-related tasks. In the construction process, we employ various strategies such as balanced prompt sampling and data re-annotation to ensure the diversity and reliability of our benchmark. This allows us to comprehensively evaluate the effectiveness of image-text alignment metrics for T2I models. Meanwhile, we introduce two new methods to evaluate the image-text alignment capabilities of T2I models: FGA-BLIP2 which involves end-to-end fine-tuning of a vision-language model to produce fine-grained image-text alignment scores and PN-VQA which adopts a novel positive-negative VQA manner in VQA models for zero-shot fine-grained evaluation. Both methods achieve impressive performance in image-text alignment evaluations. We also use our methods to rank current AIGC models, in which the results can serve as a reference source for future study and promote the development of T2I generation. The data and code will be made publicly available.
Abstract（参考訳）: 近年,テキスト・ツー・イメージ(T2I)生成モデルは大きな進歩を遂げている。それに対応して、生成モデルの画像テキストアライメント機能を評価するために、多くの自動メトリクスが出現している。しかしながら、これらの自動メトリクスのパフォーマンス比較は、既存の小さなデータセットによって制限されている。さらに、これらのデータセットには、詳細なレベルで自動メトリクスのパフォーマンスを評価する能力がない。本研究では,EvalMuse-40Kベンチマークにコントリビュートし,画像テキストアライメントに関連するタスクに対して,微粒な人間のアノテーションを用いた40K画像テキストペアを収集する。構築プロセスでは,ベンチマークの多様性と信頼性を確保するために,バランスの取れたプロンプトサンプリングやデータ再アノテーションなど,さまざまな戦略を採用している。これにより、T2Iモデルにおける画像テキストアライメントメトリクスの有効性を総合的に評価できる。一方、我々はT2Iモデルの画像テキストアライメント機能を評価するための2つの新しい手法を紹介した: 視覚言語モデルのエンドツーエンドの微調整を含むFGA-BLIP2と、ゼロショットの微細評価のためにVQAモデルに新しい正負のVQA方式を採用するPN-VQAである。両手法は画像テキストアライメント評価において顕著な性能を達成する。また,本手法を用いて現在のAIGCモデルのランク付けを行い,その結果が今後の研究の参考資料となり,T2I世代の発展を促進する。データとコードは公開されます。

関連論文リスト

TIT-Score: Evaluating Long-Prompt Based Text-to-Image Alignment via Text-to-Image-to-Text Consistency [81.17906057429329]
LPG-Benchは、ロングプロンプトベースのテキスト・ツー・イメージ・ジェネレーションを評価するための包括的なベンチマークである。 13の最先端モデルから2,600の画像を生成し、包括的なヒューマンランクアノテーションを実行します。本稿では,TITと呼ばれるテキスト・画像・画像間の整合性に基づくゼロショット計測手法を提案する。
論文参考訳（メタデータ） (2025-10-03T13:25:16Z)
OneIG-Bench: Omni-dimensional Nuanced Evaluation for Image Generation [23.05106664412349]
テキスト・ツー・イメージ(T2I)モデルは、テキスト・プロンプトに整合した高品質な画像を生成する上で大きな注目を集めている。 OneIG-Benchは、T2Iモデルを複数の次元で評価するためのベンチマークフレームワークである。
論文参考訳（メタデータ） (2025-06-09T17:50:21Z)
EvalGIM: A Library for Evaluating Generative Image Models [26.631349186382664]
テキストから画像への生成モデルを評価するためのライブラリであるEvalGIMを紹介する。 EvalGIMは、品質、多様性、一貫性を測定するために使用されるデータセットとメトリクスを幅広くサポートする。 EvalGIMには、テキストから画像への生成モデルのための2つの新しい分析手法を導入する評価演習も含まれている。
論文参考訳（メタデータ） (2024-12-13T23:15:35Z)
Interleaved Scene Graph for Interleaved Text-and-Image Generation Assessment [53.45813302866466]
我々は、インターリーブされたテキスト・画像生成のための総合的な評価フレームワークISGを提案する。 ISGは、全体性、構造性、ブロックレベル、画像固有性の4つのレベルで反応を評価する。 ISGと組み合わせて、ISG-Benchというベンチマークを導入し、8つのカテゴリと21のサブカテゴリにわたる1,150のサンプルを網羅した。
論文参考訳（メタデータ） (2024-11-26T07:55:57Z)
Image Regeneration: Evaluating Text-to-Image Model via Generating Identical Image with Multimodal Large Language Models [54.052963634384945]
画像再生タスクを導入し,テキスト・ツー・イメージ・モデルの評価を行う。我々はGPT4Vを用いて参照画像とT2Iモデルのテキスト入力のギャップを埋める。また、生成した画像の品質を高めるために、ImageRepainterフレームワークを提案する。
論文参考訳（メタデータ） (2024-11-14T13:52:43Z)
Image2Text2Image: A Novel Framework for Label-Free Evaluation of Image-to-Text Generation with Text-to-Image Diffusion Models [16.00576040281808]
本稿では,画像キャプションモデルを評価するための新しいフレームワークであるImage2Text2Imageを提案する。高い類似度スコアは、このモデルが忠実なテキスト記述を生み出し、低いスコアは相違点を強調していることを示唆している。本フレームワークは人手によるキャプション参照に依存しないので,画像キャプションモデルを評価する上で貴重なツールである。
論文参考訳（メタデータ） (2024-11-08T17:07:01Z)
TypeScore: A Text Fidelity Metric for Text-to-Image Generative Models [39.06617653124486]
我々はTypeScoreと呼ばれる新しい評価フレームワークを導入し、モデルが高忠実な埋め込みテキストで画像を生成する能力を評価する。提案手法は、CLIPScoreよりも高解像度で、一般的な画像生成モデルを区別する。
論文参考訳（メタデータ） (2024-11-02T07:56:54Z)
VLEU: a Method for Automatic Evaluation for Generalizability of Text-to-Image Models [18.259733507395634]
VLEU(Visual Language Evaluation Understudy)と呼ばれる新しい指標を導入する。 VLEUは、視覚テキストの限界分布とモデルが生成した画像の条件分布との間のクルバック・リーバーの偏差を計算することにより、モデルの一般化可能性を定量化する。本実験は,様々なT2Iモデルの一般化能力を評価する上で,VLEUの有効性を示す。
論文参考訳（メタデータ） (2024-09-23T04:50:36Z)
Information Theoretic Text-to-Image Alignment [49.396917351264655]
相互情報(MI)は、モデルアライメントのガイドに使用される。本手法は,自己教師型微調整を用いて,プロンプトと画像間のポイントワイド(MI)推定に依存する。解析の結果,本手法は最先端の手法よりも優れているが,MIを推定するにはT2Iモデル自体の事前学習されたデノナイジングネットワークが必要であることが示唆された。
論文参考訳（メタデータ） (2024-05-31T12:20:02Z)
FINEMATCH: Aspect-based Fine-grained Image and Text Mismatch Detection and Correction [66.98008357232428]
我々は新しいアスペクトベースのきめ細かいテキストと画像マッチングベンチマークであるFineMatchを提案する。 FineMatchはテキストと画像のミスマッチの検出と修正に焦点を当てている。 FineMatchで訓練されたモデルは、きめ細かいテキストや画像のミスマッチを検出する能力の向上を示す。
論文参考訳（メタデータ） (2024-04-23T03:42:14Z)
Exploring Precision and Recall to assess the quality and diversity of LLMs [82.21278402856079]
我々はtextscLlama-2 や textscMistral のような大規模言語モデル (LLM) のための新しい評価フレームワークを提案する。このアプローチにより、コーパスの整合を必要とせず、生成したテキストの品質と多様性を微妙に評価できる。
論文参考訳（メタデータ） (2024-02-16T13:53:26Z)
OpenLEAF: Open-Domain Interleaved Image-Text Generation and Evaluation [151.57313182844936]
本稿では,大規模言語モデル(LLM)と事前学習されたテキスト・ツー・イメージ(T2I)モデル,すなわちOpenLEAFに基づく新たなインターリーブ生成フレームワークを提案する。まず,大規模マルチモーダルモデル(LMM)を用いて,オープンドメインのインターリーブ画像-テキストシーケンスのエンティティとスタイルのコンピテンシーを評価することを提案する。
論文参考訳（メタデータ） (2023-10-11T17:58:33Z)
T2I-CompBench: A Comprehensive Benchmark for Open-world Compositional Text-to-image Generation [62.71574695256264]
T2I-CompBenchは、オープンワールドのコンポジションテキスト・ツー・イメージ生成のための包括的なベンチマークである。合成テキスト・画像生成の評価に特化して設計されたいくつかの評価指標を提案する。本稿では,ジェネレーティブmOdelファインタニングとReward-driven Sample selection (GORS)を導入することで,合成テキスト・画像生成能力を向上する手法を提案する。
論文参考訳（メタデータ） (2023-07-12T17:59:42Z)
Improving Generation and Evaluation of Visual Stories via Semantic Consistency [72.00815192668193]
一連の自然言語キャプションが与えられた場合、エージェントはキャプションに対応する一連の画像を生成する必要がある。それまでの作業では、このタスクで合成テキスト・画像モデルより優れた繰り返し生成モデルを導入してきた。従来のモデリング手法には、デュアルラーニングフレームワークの追加など、いくつかの改善点を提示する。
論文参考訳（メタデータ） (2021-05-20T20:42:42Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。