論文の概要: MMIG-Bench: Towards Comprehensive and Explainable Evaluation of Multi-Modal Image Generation Models
- arxiv url: http://arxiv.org/abs/2505.19415v2
- Date: Tue, 27 May 2025 20:10:09 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-05-29 12:33:41.743568
- Title: MMIG-Bench: Towards Comprehensive and Explainable Evaluation of Multi-Modal Image Generation Models
- Title(参考訳): MMIG-Bench:マルチモーダル画像生成モデルの包括的・説明可能な評価を目指して
- Authors: Hang Hua, Ziyun Zeng, Yizhi Song, Yunlong Tang, Liu He, Daniel Aliaga, Wei Xiong, Jiebo Luo,
- Abstract要約: MMIG-Benchは総合的なマルチモーダル画像生成ベンチマークである。
4,850件の注釈付きテキストプロンプトと380件の被験者に1,750件のマルチビュー参照イメージをペアリングする。
MMIG-Benchを用いて、Gemini 2.5 Pro、FLUX、DreamBooth、IP-Adapterを含む17の最先端モデルをベンチマークする。
- 参考スコア(独自算出の注目度): 42.91502354577658
- License: http://creativecommons.org/licenses/by-nc-nd/4.0/
- Abstract: Recent multimodal image generators such as GPT-4o, Gemini 2.0 Flash, and Gemini 2.5 Pro excel at following complex instructions, editing images and maintaining concept consistency. However, they are still evaluated by disjoint toolkits: text-to-image (T2I) benchmarks that lacks multi-modal conditioning, and customized image generation benchmarks that overlook compositional semantics and common knowledge. We propose MMIG-Bench, a comprehensive Multi-Modal Image Generation Benchmark that unifies these tasks by pairing 4,850 richly annotated text prompts with 1,750 multi-view reference images across 380 subjects, spanning humans, animals, objects, and artistic styles. MMIG-Bench is equipped with a three-level evaluation framework: (1) low-level metrics for visual artifacts and identity preservation of objects; (2) novel Aspect Matching Score (AMS): a VQA-based mid-level metric that delivers fine-grained prompt-image alignment and shows strong correlation with human judgments; and (3) high-level metrics for aesthetics and human preference. Using MMIG-Bench, we benchmark 17 state-of-the-art models, including Gemini 2.5 Pro, FLUX, DreamBooth, and IP-Adapter, and validate our metrics with 32k human ratings, yielding in-depth insights into architecture and data design.
- Abstract(参考訳): GPT-4o、Gemini 2.0 Flash、Gemini 2.5 Proといった最近のマルチモーダル画像生成装置は、複雑な命令に従うこと、画像の編集、概念整合性の維持に優れている。
テキスト・トゥ・イメージ(T2I)ベンチマークはマルチモーダル・コンディショニングに欠けており、コンストラクショナル・セマンティクスや共通知識を無視する独自の画像生成ベンチマークである。
MMIG-Benchは,4,850個のリッチな注釈付きテキストプロンプトと380の被験者を対象とした1,750個のマルチビュー参照画像とをペアリングすることにより,これらのタスクを統一する総合的マルチモーダル画像生成ベンチマークである。
MMIG-Benchは,(1)視覚的アーティファクトとオブジェクトのアイデンティティ保存のための低レベル指標,(2)新しいアスペクトマッチングスコア(AMS:Aspect Matching Score),2)微細なプロンプトイメージアライメントを提供し,人間の判断と強い相関を示すVQAベースの中間レベル指標,(3)美学と人間の嗜好のための高レベル指標の3レベル評価フレームワークを備えている。
MMIG-Benchを使用して、Gemini 2.5 Pro、FLUX、DreamBooth、IP-Adapterを含む17の最先端モデルをベンチマークし、32k人の評価でメトリクスを検証することで、アーキテクチャとデータ設計に関する詳細な洞察を得る。
関連論文リスト
- MMMG: A Massive, Multidisciplinary, Multi-Tier Generation Benchmark for Text-to-Image Reasoning [20.382087716921003]
我々は、MMMG(Massive Multi-Discipline Multi-Tier Knowledge- Image Generation Benchmark)とともに、知識画像生成を新しいタスクとして導入する。
MMMGは10の分野、6の教育レベル、チャート、図、マインドマップといった多様な知識形式にまたがる4,456のエキスパート公認(知識)イメージプロンプトペアを提供している。
そこで本稿では,KG間のグラフ編集距離と視覚的明瞭度とを組み合わせ,実感的忠実度を評価するためのMMMGスコアを提案する。
論文 参考訳(メタデータ) (2025-06-12T17:58:09Z) - OneIG-Bench: Omni-dimensional Nuanced Evaluation for Image Generation [23.05106664412349]
テキスト・ツー・イメージ(T2I)モデルは、テキスト・プロンプトに整合した高品質な画像を生成する上で大きな注目を集めている。
OneIG-Benchは、T2Iモデルを複数の次元で評価するためのベンチマークフレームワークである。
論文 参考訳(メタデータ) (2025-06-09T17:50:21Z) - Draw ALL Your Imagine: A Holistic Benchmark and Agent Framework for Complex Instruction-based Image Generation [9.978181430065987]
LongBench-T2Iは、複雑な命令の下でテキスト・トゥ・イメージ(T2I)モデルを評価するためのベンチマークである。
LongBench-T2Iは9つの視覚的評価次元にまたがる500の複雑なプロンプトで構成されている。
Plan2Genは複雑な命令駆動の画像生成を容易にするフレームワークで、追加のモデルトレーニングを必要としない。
論文 参考訳(メタデータ) (2025-05-30T16:48:14Z) - OmniGenBench: A Benchmark for Omnipotent Multimodal Generation across 50+ Tasks [77.19223035769248]
大規模マルチモーダルモデル(LMM)の最近のブレークスルーは、画像生成のための汎用的な指示に従うのに顕著な熟練性を示している。
OmniGenBenchは、最先端のLMMの指示追従能力を評価するために、精密に設計された新しいベンチマークである。
我々のOmniGenBenchには57の多様なサブタスクが含まれており、それらが要求する特定のモデル能力に応じて体系的に分類されている。
論文 参考訳(メタデータ) (2025-05-24T16:29:34Z) - M3-AGIQA: Multimodal, Multi-Round, Multi-Aspect AI-Generated Image Quality Assessment [65.3860007085689]
M3-AGIQAは、AI生成画像のより人間らしく総合的な評価を可能にする包括的なフレームワークである。
モデル出力を人間の判断とより密接に整合させることで、M3-AGIQAは堅牢で解釈可能な品質スコアを提供する。
論文 参考訳(メタデータ) (2025-02-21T03:05:45Z) - Interleaved Scene Graphs for Interleaved Text-and-Image Generation Assessment [53.45813302866466]
我々は、インターリーブされたテキスト・画像生成のための総合的な評価フレームワークISGを提案する。
ISGは、全体性、構造性、ブロックレベル、画像固有性の4つのレベルで反応を評価する。
ISGと組み合わせて、ISG-Benchというベンチマークを導入し、8つのカテゴリと21のサブカテゴリにわたる1,150のサンプルを網羅した。
論文 参考訳(メタデータ) (2024-11-26T07:55:57Z) - GenAI-Bench: Evaluating and Improving Compositional Text-to-Visual Generation [103.3465421081531]
VQAScoreは、VQAモデルが画像がプロンプトを正確に描写しているとみなす可能性を測定するメトリクスである。
VQAScoreによるランク付けは、PickScore、HPSv2、ImageRewardなどの他のスコアリング方法よりも2倍から3倍効果的である。
我々は、同じプロンプトから生成されたランキング画像のスコアを評価するために、4万以上の人間格付けを備えたGenAI-Rankベンチマークを新たにリリースした。
論文 参考訳(メタデータ) (2024-06-19T18:00:07Z) - ImagenHub: Standardizing the evaluation of conditional image generation
models [48.51117156168]
本稿では,条件付き画像生成モデルの推論と評価を標準化するワンストップライブラリであるImagenHubを提案する。
本研究では,感性一貫性と知覚品質という2つの評価スコアと,生成した画像を評価するための包括的なガイドラインを設計する。
人間の評価は,0.4以上の値を持つ76%のモデル上で,クリッペンドルフのαに対する高い労働者間合意を達成する。
論文 参考訳(メタデータ) (2023-10-02T19:41:42Z) - T2I-CompBench++: An Enhanced and Comprehensive Benchmark for Compositional Text-to-image Generation [55.16845189272573]
T2I-CompBench++は、合成テキスト・画像生成のための拡張ベンチマークである。
8000のコンポジションテキストプロンプトは、属性バインディング、オブジェクト関係、生成数、複雑なコンポジションの4つのグループに分類される。
論文 参考訳(メタデータ) (2023-07-12T17:59:42Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。