論文の概要: MMMG: A Massive, Multidisciplinary, Multi-Tier Generation Benchmark for Text-to-Image Reasoning
- arxiv url: http://arxiv.org/abs/2506.10963v1
- Date: Thu, 12 Jun 2025 17:58:09 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-06-13 15:37:22.897263
- Title: MMMG: A Massive, Multidisciplinary, Multi-Tier Generation Benchmark for Text-to-Image Reasoning
- Title(参考訳): MMMG:テキスト・ツー・イメージ推論のための大規模・多分野・マルチティア生成ベンチマーク
- Authors: Yuxuan Luo, Yuhui Yuan, Junwen Chen, Haonan Cai, Ziyi Yue, Yuwei Yang, Fatima Zohra Daha, Ji Li, Zhouhui Lian,
- Abstract要約: 我々は、MMMG(Massive Multi-Discipline Multi-Tier Knowledge- Image Generation Benchmark)とともに、知識画像生成を新しいタスクとして導入する。
MMMGは10の分野、6の教育レベル、チャート、図、マインドマップといった多様な知識形式にまたがる4,456のエキスパート公認(知識)イメージプロンプトペアを提供している。
そこで本稿では,KG間のグラフ編集距離と視覚的明瞭度とを組み合わせ,実感的忠実度を評価するためのMMMGスコアを提案する。
- 参考スコア(独自算出の注目度): 20.382087716921003
- License: http://creativecommons.org/licenses/by-sa/4.0/
- Abstract: In this paper, we introduce knowledge image generation as a new task, alongside the Massive Multi-Discipline Multi-Tier Knowledge-Image Generation Benchmark (MMMG) to probe the reasoning capability of image generation models. Knowledge images have been central to human civilization and to the mechanisms of human learning--a fact underscored by dual-coding theory and the picture-superiority effect. Generating such images is challenging, demanding multimodal reasoning that fuses world knowledge with pixel-level grounding into clear explanatory visuals. To enable comprehensive evaluation, MMMG offers 4,456 expert-validated (knowledge) image-prompt pairs spanning 10 disciplines, 6 educational levels, and diverse knowledge formats such as charts, diagrams, and mind maps. To eliminate confounding complexity during evaluation, we adopt a unified Knowledge Graph (KG) representation. Each KG explicitly delineates a target image's core entities and their dependencies. We further introduce MMMG-Score to evaluate generated knowledge images. This metric combines factual fidelity, measured by graph-edit distance between KGs, with visual clarity assessment. Comprehensive evaluations of 16 state-of-the-art text-to-image generation models expose serious reasoning deficits--low entity fidelity, weak relations, and clutter--with GPT-4o achieving an MMMG-Score of only 50.20, underscoring the benchmark's difficulty. To spur further progress, we release FLUX-Reason (MMMG-Score of 34.45), an effective and open baseline that combines a reasoning LLM with diffusion models and is trained on 16,000 curated knowledge image-prompt pairs.
- Abstract(参考訳): 本稿では,MMMG(Massive Multi-Discipline Multi-Tier Knowledge- Image Generation Benchmark)とともに,知識画像生成を新たなタスクとして導入し,画像生成モデルの推論能力について検討する。
知識イメージは、人間の文明と人間の学習のメカニズムの中心であり、二重符号化理論と絵の優越効果によって説明される事実である。
このような画像の生成は困難であり、世界知識とピクセルレベルの接地を明確な説明的視覚に融合させるマルチモーダル推論を必要としている。
総合的な評価を可能にするため、MMMGは10の分野、6の教育レベル、チャート、図、マインドマップといった多様な知識形式にまたがる4,456のエキスパート公認(知識)イメージプロンプトペアを提供している。
評価中に生じる複雑さを解消するために、統一知識グラフ(KG)表現を採用する。
各KGは、ターゲット画像のコアエンティティとその依存関係を明示的に記述する。
さらに,生成した知識画像を評価するためにMMMG-Scoreを導入する。
この計量は、KG間のグラフ編集距離によって測定される事実の忠実度と、視覚的明瞭度評価を組み合わせたものである。
GPT-4oはMMMGスコアをわずか50.20で達成し、ベンチマークの難しさを浮き彫りにした。
FLUX-Reason (MMMG-Score of 34.45) は,LLMを拡散モデルと組み合わせた効果的でオープンなベースラインであり,16,000のキュレートされた知識画像とプロンプトのペアで訓練される。
関連論文リスト
- UniWorld-V1: High-Resolution Semantic Encoders for Unified Visual Understanding and Generation [14.95468978198402]
OpenAIは強力なGPT-4oイメージモデルを導入した。
この知見にインスパイアされたUniWorld-V1は、強力な大言語モデルから抽出された意味的特徴に基づいて構築された統合生成フレームワークである。
論文 参考訳(メタデータ) (2025-06-03T17:59:33Z) - SridBench: Benchmark of Scientific Research Illustration Drawing of Image Generation Model [21.81341169834812]
SridBenchは、科学フィギュア生成のための最初のベンチマークである。
これは13の自然科学とコンピュータ科学の分野にわたる主要な科学論文から1,120の事例で構成されている。
その結果、GPT-4o画像のような最上位モデルでさえ、人間のパフォーマンスに遅れがあることが判明した。
論文 参考訳(メタデータ) (2025-05-28T08:51:01Z) - MMIG-Bench: Towards Comprehensive and Explainable Evaluation of Multi-Modal Image Generation Models [42.91502354577658]
MMIG-Benchは総合的なマルチモーダル画像生成ベンチマークである。
4,850件の注釈付きテキストプロンプトと380件の被験者に1,750件のマルチビュー参照イメージをペアリングする。
MMIG-Benchを用いて、Gemini 2.5 Pro、FLUX、DreamBooth、IP-Adapterを含む17の最先端モデルをベンチマークする。
論文 参考訳(メタデータ) (2025-05-26T02:07:24Z) - Harmonizing Visual Representations for Unified Multimodal Understanding and Generation [53.01486796503091]
我々は,共有MARエンコーダによる理解と生成タスクを調和させる統合自己回帰フレームワークであるemphHarmonを提案する。
HarmonはGenEval、MJHQ30K、WISEベンチマークで最先端の画像生成結果を達成する。
論文 参考訳(メタデータ) (2025-03-27T20:50:38Z) - Unforgettable Lessons from Forgettable Images: Intra-Class Memorability Matters in Computer Vision [8.210681499876216]
クラス内の特定の画像が他のクラスよりも記憶可能なクラス内記憶性を導入する。
画像提示の時間間隔を計算に組み込んだ新しい指標であるICMscore(Intra-Class Memorability score)を提案する。
Intra-Class Memorability dataset (ICMD) をキュレートし、2000人の参加者の回答から得られたICMスコアを用いて10のオブジェクトクラスに5,000以上の画像を含む。
論文 参考訳(メタデータ) (2024-12-30T07:09:28Z) - MRAG-Bench: Vision-Centric Evaluation for Retrieval-Augmented Multimodal Models [115.16022378880376]
MRAG-Benchというマルチモーダル検索拡張生成ベンチマークを導入する。
MRAG-Benchは16,130枚の画像と1,353個の人間による複数の質問からなる。
その結果,すべての大規模視覚言語モデル (LVLM) は,テキスト知識と比較して画像で拡張すると改善が見られた。
論文 参考訳(メタデータ) (2024-10-10T17:55:02Z) - Polymath: A Challenging Multi-modal Mathematical Reasoning Benchmark [53.61633384281524]
PolyMATHはMLLMの認知的推論能力を評価するためのベンチマークである。
PolyMATHで最高のスコアは41%、36%、27%で、それぞれClaude-3.5 Sonnet、GPT-4o、Gemini-1.5 Proが獲得した。
さらにきめ細かい誤差解析により、これらのモデルは空間関係を理解し、引き出された高レベルの推論を行うのに苦労していることが明らかとなった。
論文 参考訳(メタデータ) (2024-10-06T20:35:41Z) - MMIU: Multimodal Multi-image Understanding for Evaluating Large Vision-Language Models [76.1999277491816]
MMIU(Multimodal Multi-image Understanding)は、LVLM(Large Vision-Language Models)を評価するための総合的な評価スイートである。
MMIUには7種類のマルチイメージ関係、52のタスク、77Kのイメージ、1Kの微調整された複数選択質問が含まれている。
オープンソースモデルとプロプライエタリモデルの両方を含む24種類のLVLMを評価した結果,マルチイメージ理解における大きな課題が明らかになった。
論文 参考訳(メタデータ) (2024-08-05T17:56:41Z) - Categorical Knowledge Fused Recognition: Fusing Hierarchical Knowledge with Image Classification through Aligning and Deep Metric Learning [18.534970504136254]
本稿では,画像カテゴリに関する事前知識を主流のバックボーン画像分類モデルに融合させる,新しい深度学習手法を提案する。
提案手法は,弱教師付きオブジェクトローカライゼーション性能の観点から,画像認識の推論的側面を向上させるのに有効である。
論文 参考訳(メタデータ) (2024-07-30T07:24:33Z) - Visual Haystacks: A Vision-Centric Needle-In-A-Haystack Benchmark [63.296342841358815]
大規模マルチモーダルモデル(LMM)は、単一画像に対する視覚的質問応答において大きな進歩を遂げている。
多数の視覚トークンを処理する能力は、複数画像の質問応答に対する効果的な検索と推論を保証するものではない。
オープンソースで軽量なビジュアルRAGフレームワークであるMIRAGEを導入し、単一の40G A100 GPU上で最大10Kイメージを処理する。
論文 参考訳(メタデータ) (2024-07-18T17:59:30Z) - TIGeR: Unifying Text-to-Image Generation and Retrieval with Large Multimodal Models [96.72318842152148]
1つのLMM(Large Multimodal Model)を用いたテキスト・画像生成と検索のための統合フレームワークを提案する。
具体的には,LMMの本質的な識別能力について検討し,テキスト・画像検索のための効率的な生成的検索手法を提案する。
次に、テキストプロンプトに対する応答として、生成画像と検索画像の間で最適なマッチング画像を選択するための自律決定機構を提案する。
論文 参考訳(メタデータ) (2024-06-09T15:00:28Z) - Finer: Investigating and Enhancing Fine-Grained Visual Concept Recognition in Large Vision Language Models [57.95366341738857]
詳細な分析では、命令調整されたLVLMはモダリティギャップを示し、同じ概念に対応するテキスト入力と視覚入力の相違を示す。
我々は,LVLMの細粒度視覚理解能力を評価するために,複数の属性中心評価ベンチマークであるFinerを提案し,説明可能性を大幅に改善した。
論文 参考訳(メタデータ) (2024-02-26T05:43:51Z) - MuMIC -- Multimodal Embedding for Multi-label Image Classification with
Tempered Sigmoid [1.1452732046200158]
マルチモーダル・ラーニング・アプローチは画像表現とシングルラベル画像分類において,近年顕著な成果を上げている。
硬度認識型シグモノイドをベースとしたバイナリクロスエントロピー損失関数を用いたマルチモーダルマルチラベル画像分類(MuMIC)フレームワークを提案する。
MuMICは高い分類性能を提供し、現実世界のノイズデータを処理し、ゼロショット予測をサポートし、ドメイン固有の画像埋め込みを生成する。
論文 参考訳(メタデータ) (2022-11-02T17:29:35Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。