論文の概要: Multi-Modal Language Models as Text-to-Image Model Evaluators
- arxiv url: http://arxiv.org/abs/2505.00759v1
- Date: Thu, 01 May 2025 17:47:55 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-05-05 17:21:19.778146
- Title: Multi-Modal Language Models as Text-to-Image Model Evaluators
- Title(参考訳): テキスト・画像・モデル評価器としてのマルチモーダル言語モデル
- Authors: Jiahui Chen, Candace Ross, Reyhane Askari-Hemmat, Koustuv Sinha, Melissa Hall, Michal Drozdzal, Adriana Romero-Soriano,
- Abstract要約: MT2IE(Multimodal Text-to-Image Eval)は、評価のためのプロンプトを反復的に生成する評価フレームワークである。
MT2IEの即時一貫性スコアは,従来文献に紹介されていたスコアよりも高い相関性を示した。
- 参考スコア(独自算出の注目度): 16.675735328424786
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: The steady improvements of text-to-image (T2I) generative models lead to slow deprecation of automatic evaluation benchmarks that rely on static datasets, motivating researchers to seek alternative ways to evaluate the T2I progress. In this paper, we explore the potential of multi-modal large language models (MLLMs) as evaluator agents that interact with a T2I model, with the objective of assessing prompt-generation consistency and image aesthetics. We present Multimodal Text-to-Image Eval (MT2IE), an evaluation framework that iteratively generates prompts for evaluation, scores generated images and matches T2I evaluation of existing benchmarks with a fraction of the prompts used in existing static benchmarks. Moreover, we show that MT2IE's prompt-generation consistency scores have higher correlation with human judgment than scores previously introduced in the literature. MT2IE generates prompts that are efficient at probing T2I model performance, producing the same relative T2I model rankings as existing benchmarks while using only 1/80th the number of prompts for evaluation.
- Abstract(参考訳): T2I(text-to-image)生成モデルの安定した改善により、静的データセットに依存する自動評価ベンチマークの非推奨が遅くなり、研究者がT2Iの進捗を評価する代替方法を模索する動機となった。
本稿では,T2Iモデルと相互作用する評価エージェントとしてのマルチモーダル大言語モデル(MLLM)の可能性を検討する。
我々は,既存の静的ベンチマークで使用されるプロンプトのごく一部と,評価用プロンプトを反復的に生成し,生成した画像をスコアし,既存のベンチマークのT2I評価と一致させる評価フレームワークMT2IEを提案する。
さらに,MT2IEの即時一貫性スコアは,従来文献に紹介されていたスコアよりも高い相関性を示した。
MT2IEはT2Iモデル性能の探索に効率的なプロンプトを生成し、既存のベンチマークと同じ相対的なT2Iモデルランキングを生成し、評価のためのプロンプトの1/80だけを使用する。
関連論文リスト
- EvalMuse-40K: A Reliable and Fine-Grained Benchmark with Comprehensive Human Annotations for Text-to-Image Generation Model Evaluation [29.176750442205325]
本研究では,EvalMuse-40Kベンチマークにコントリビュートし,画像テキストアライメントに関連するタスクに対して,微粒な人間のアノテーションを用いた40K画像テキストペアを収集する。
本稿では,T2Iモデルの画像テキストアライメント機能を評価するための2つの新しい手法を提案する。
論文 参考訳(メタデータ) (2024-12-24T04:08:25Z) - Image Regeneration: Evaluating Text-to-Image Model via Generating Identical Image with Multimodal Large Language Models [54.052963634384945]
画像再生タスクを導入し,テキスト・ツー・イメージ・モデルの評価を行う。
我々はGPT4Vを用いて参照画像とT2Iモデルのテキスト入力のギャップを埋める。
また、生成した画像の品質を高めるために、ImageRepainterフレームワークを提案する。
論文 参考訳(メタデータ) (2024-11-14T13:52:43Z) - VLEU: a Method for Automatic Evaluation for Generalizability of Text-to-Image Models [18.259733507395634]
VLEU(Visual Language Evaluation Understudy)と呼ばれる新しい指標を導入する。
VLEUは、視覚テキストの限界分布とモデルが生成した画像の条件分布との間のクルバック・リーバーの偏差を計算することにより、モデルの一般化可能性を定量化する。
本実験は,様々なT2Iモデルの一般化能力を評価する上で,VLEUの有効性を示す。
論文 参考訳(メタデータ) (2024-09-23T04:50:36Z) - Who Evaluates the Evaluations? Objectively Scoring Text-to-Image Prompt Coherence Metrics with T2IScoreScore (TS2) [62.44395685571094]
T2IScoreScoreはプロンプトを含むセマンティックエラーグラフのキュレートされたセットであり,誤画像の集合である。
これにより、与えられた迅速な忠実度測定値が、客観的な誤差数に対して正しく画像を順序付けできるかどうかを厳格に判断することができる。
最先端のVLMベースのメトリクスは、CLIPScoreのような単純な(そしておそらく悪い)機能ベースのメトリクスを著しく上回りません。
論文 参考訳(メタデータ) (2024-04-05T17:57:16Z) - A Contrastive Compositional Benchmark for Text-to-Image Synthesis: A
Study with Unified Text-to-Image Fidelity Metrics [58.83242220266935]
我々は,T2Iモデルの構成性を評価するためのベンチマークであるWinoground-T2Iを紹介する。
このベンチマークには、20のカテゴリにまたがる11Kの複雑で高品質なコントラスト文ペアが含まれている。
我々は、Winoground-T2Iモデルの性能評価と、その評価に使用される指標の2つの目的を兼ね備えたWinoground-T2Iを用いている。
論文 参考訳(メタデータ) (2023-12-04T20:47:48Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。