論文の概要: MMIG-Bench: Towards Comprehensive and Explainable Evaluation of Multi-Modal Image Generation Models
- arxiv url: http://arxiv.org/abs/2505.19415v2
- Date: Tue, 27 May 2025 20:10:09 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-05-29 12:33:41.743568
- Title: MMIG-Bench: Towards Comprehensive and Explainable Evaluation of Multi-Modal Image Generation Models
- Title(参考訳): MMIG-Bench:マルチモーダル画像生成モデルの包括的・説明可能な評価を目指して
- Authors: Hang Hua, Ziyun Zeng, Yizhi Song, Yunlong Tang, Liu He, Daniel Aliaga, Wei Xiong, Jiebo Luo,
- Abstract要約: MMIG-Benchは総合的なマルチモーダル画像生成ベンチマークである。
4,850件の注釈付きテキストプロンプトと380件の被験者に1,750件のマルチビュー参照イメージをペアリングする。
MMIG-Benchを用いて、Gemini 2.5 Pro、FLUX、DreamBooth、IP-Adapterを含む17の最先端モデルをベンチマークする。
- 参考スコア(独自算出の注目度): 42.91502354577658
- License: http://creativecommons.org/licenses/by-nc-nd/4.0/
- Abstract: Recent multimodal image generators such as GPT-4o, Gemini 2.0 Flash, and Gemini 2.5 Pro excel at following complex instructions, editing images and maintaining concept consistency. However, they are still evaluated by disjoint toolkits: text-to-image (T2I) benchmarks that lacks multi-modal conditioning, and customized image generation benchmarks that overlook compositional semantics and common knowledge. We propose MMIG-Bench, a comprehensive Multi-Modal Image Generation Benchmark that unifies these tasks by pairing 4,850 richly annotated text prompts with 1,750 multi-view reference images across 380 subjects, spanning humans, animals, objects, and artistic styles. MMIG-Bench is equipped with a three-level evaluation framework: (1) low-level metrics for visual artifacts and identity preservation of objects; (2) novel Aspect Matching Score (AMS): a VQA-based mid-level metric that delivers fine-grained prompt-image alignment and shows strong correlation with human judgments; and (3) high-level metrics for aesthetics and human preference. Using MMIG-Bench, we benchmark 17 state-of-the-art models, including Gemini 2.5 Pro, FLUX, DreamBooth, and IP-Adapter, and validate our metrics with 32k human ratings, yielding in-depth insights into architecture and data design.
- Abstract(参考訳): GPT-4o、Gemini 2.0 Flash、Gemini 2.5 Proといった最近のマルチモーダル画像生成装置は、複雑な命令に従うこと、画像の編集、概念整合性の維持に優れている。
テキスト・トゥ・イメージ(T2I)ベンチマークはマルチモーダル・コンディショニングに欠けており、コンストラクショナル・セマンティクスや共通知識を無視する独自の画像生成ベンチマークである。
MMIG-Benchは,4,850個のリッチな注釈付きテキストプロンプトと380の被験者を対象とした1,750個のマルチビュー参照画像とをペアリングすることにより,これらのタスクを統一する総合的マルチモーダル画像生成ベンチマークである。
MMIG-Benchは,(1)視覚的アーティファクトとオブジェクトのアイデンティティ保存のための低レベル指標,(2)新しいアスペクトマッチングスコア(AMS:Aspect Matching Score),2)微細なプロンプトイメージアライメントを提供し,人間の判断と強い相関を示すVQAベースの中間レベル指標,(3)美学と人間の嗜好のための高レベル指標の3レベル評価フレームワークを備えている。
MMIG-Benchを使用して、Gemini 2.5 Pro、FLUX、DreamBooth、IP-Adapterを含む17の最先端モデルをベンチマークし、32k人の評価でメトリクスを検証することで、アーキテクチャとデータ設計に関する詳細な洞察を得る。
関連論文リスト
- GenAI-Bench: Evaluating and Improving Compositional Text-to-Visual Generation [103.3465421081531]
VQAScoreは、VQAモデルが画像がプロンプトを正確に描写しているとみなす可能性を測定するメトリクスである。
VQAScoreによるランク付けは、PickScore、HPSv2、ImageRewardなどの他のスコアリング方法よりも2倍から3倍効果的である。
我々は、同じプロンプトから生成されたランキング画像のスコアを評価するために、4万以上の人間格付けを備えたGenAI-Rankベンチマークを新たにリリースした。
論文 参考訳(メタデータ) (2024-06-19T18:00:07Z) - ImagenHub: Standardizing the evaluation of conditional image generation
models [48.51117156168]
本稿では,条件付き画像生成モデルの推論と評価を標準化するワンストップライブラリであるImagenHubを提案する。
本研究では,感性一貫性と知覚品質という2つの評価スコアと,生成した画像を評価するための包括的なガイドラインを設計する。
人間の評価は,0.4以上の値を持つ76%のモデル上で,クリッペンドルフのαに対する高い労働者間合意を達成する。
論文 参考訳(メタデータ) (2023-10-02T19:41:42Z) - T2I-CompBench++: An Enhanced and Comprehensive Benchmark for Compositional Text-to-image Generation [55.16845189272573]
T2I-CompBench++は、合成テキスト・画像生成のための拡張ベンチマークである。
8000のコンポジションテキストプロンプトは、属性バインディング、オブジェクト関係、生成数、複雑なコンポジションの4つのグループに分類される。
論文 参考訳(メタデータ) (2023-07-12T17:59:42Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。