論文の概要: MMMG: a Comprehensive and Reliable Evaluation Suite for Multitask Multimodal Generation
- arxiv url: http://arxiv.org/abs/2505.17613v1
- Date: Fri, 23 May 2025 08:21:28 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-05-26 18:08:33.923527
- Title: MMMG: a Comprehensive and Reliable Evaluation Suite for Multitask Multimodal Generation
- Title(参考訳): マルチタスクマルチモーダル生成のための総合的信頼性評価スイートMMMG
- Authors: Jihan Yao, Yushi Hu, Yujie Yi, Bin Han, Shangbin Feng, Guang Yang, Bingbing Wen, Ranjay Krishna, Lucy Lu Wang, Yulia Tsvetkov, Noah A. Smith, Banghua Zhu,
- Abstract要約: MMMGは、4つのモダリティの組み合わせにまたがるマルチモーダル生成の包括的なベンチマークである。
人間の評価と高度に一致し、平均94.3%の合意を達成している。
GPTイメージは画像生成の精度は78.3%であるが、マルチモーダル推論とインターリーブ生成では不足している。
- 参考スコア(独自算出の注目度): 81.26818054877658
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Automatically evaluating multimodal generation presents a significant challenge, as automated metrics often struggle to align reliably with human evaluation, especially for complex tasks that involve multiple modalities. To address this, we present MMMG, a comprehensive and human-aligned benchmark for multimodal generation across 4 modality combinations (image, audio, interleaved text and image, interleaved text and audio), with a focus on tasks that present significant challenges for generation models, while still enabling reliable automatic evaluation through a combination of models and programs. MMMG encompasses 49 tasks (including 29 newly developed ones), each with a carefully designed evaluation pipeline, and 937 instructions to systematically assess reasoning, controllability, and other key capabilities of multimodal generation models. Extensive validation demonstrates that MMMG is highly aligned with human evaluation, achieving an average agreement of 94.3%. Benchmarking results on 24 multimodal generation models reveal that even though the state-of-the-art model, GPT Image, achieves 78.3% accuracy for image generation, it falls short on multimodal reasoning and interleaved generation. Furthermore, results suggest considerable headroom for improvement in audio generation, highlighting an important direction for future research.
- Abstract(参考訳): 自動的なメトリクスは、特に複数のモダリティを含む複雑なタスクにおいて、人間の評価と確実に整合するのに苦労することが多いため、自動的なマルチモーダル生成を評価することは大きな課題となる。
これを解決するために、MMMGは4つのモードの組み合わせ(画像、音声、インターリーブされたテキストと画像、インターリーブされたテキストと音声)にまたがるマルチモーダル生成のための総合的・人為的なベンチマークであり、モデルとプログラムの組み合わせによる信頼性の高い自動評価を実現しつつ、生成モデルに重要な課題を提示するタスクに焦点を当てている。
MMMGには49のタスク(新たに開発された29のタスクを含む)が含まれており、それぞれが慎重に設計された評価パイプラインと、推論、制御性、およびマルチモーダル生成モデルの他の重要な機能を体系的に評価するための937の命令がある。
広範囲な検証は、MMMGが人間の評価と高度に一致していることを示し、平均94.3%の合意を達成している。
24個のマルチモーダル生成モデルのベンチマーク結果によると、最先端モデルであるGPTイメージは78.3%の精度で画像を生成するが、マルチモーダル推論とインターリーブ生成では不足している。
さらに,この結果から,音声生成の大幅な改善が示唆され,今後の研究における重要な方向性が浮かび上がっている。
関連論文リスト
- MAMM-Refine: A Recipe for Improving Faithfulness in Generation with Multi-Agent Collaboration [63.31211701741323]
我々はマルチエージェント・マルチモデル推論を生成にまで拡張し、特に改良による忠実度の向上を図っている。
我々は,各サブタスクに対して固有の評価を設計し,マルチエージェント(複数インスタンス)とマルチモデル(多変数LPMタイプ)の両方がエラー検出やクオリティクスに有効であることを示す。
我々はこれらの知見を、マルチエージェント・マルチモデル・リファインメント(MAMM-Refinement)と呼ばれる最終的な"レシピ"に統合し、マルチエージェント・マルチモデルコラボレーションがパフォーマンスを大幅に向上させる。
論文 参考訳(メタデータ) (2025-03-19T14:46:53Z) - M3-AGIQA: Multimodal, Multi-Round, Multi-Aspect AI-Generated Image Quality Assessment [65.3860007085689]
M3-AGIQAは、AGIの品質評価のための包括的なフレームワークである。
中間画像記述を生成する構造付きマルチラウンド評価機構を含む。
複数のベンチマークデータセットで実施された実験は、M3-AGIQAが最先端のパフォーマンスを達成することを示した。
論文 参考訳(メタデータ) (2025-02-21T03:05:45Z) - OpenING: A Comprehensive Benchmark for Judging Open-ended Interleaved Image-Text Generation [59.53678957969471]
MLLM(Multimodal Large Language Models)は視覚的理解と生成に大きく貢献している。
インターリーブされた画像テキストコンテンツを生成することは、依然として課題である。
Openingは56の現実世界のタスクにわたる5,400の高品質なヒューマンアノテートインスタンスからなるベンチマークである。
IntJudgeはオープンなマルチモーダル生成手法を評価するための判断モデルである。
論文 参考訳(メタデータ) (2024-11-27T16:39:04Z) - MMIE: Massive Multimodal Interleaved Comprehension Benchmark for Large Vision-Language Models [71.36392373876505]
我々は、LVLM(Large Vision-Language Models)において、インターリーブされたマルチモーダル理解と生成を評価するための大規模ベンチマークであるMMIEを紹介する。
MMIEは、数学、コーディング、物理学、文学、健康、芸術を含む3つのカテゴリ、12のフィールド、102のサブフィールドにまたがる20Kの厳密にキュレートされたマルチモーダルクエリで構成されている。
インターリーブされたインプットとアウトプットの両方をサポートし、多様な能力を評価するために、複数選択とオープンな質問フォーマットの混合を提供する。
論文 参考訳(メタデータ) (2024-10-14T04:15:00Z) - REBUS: A Robust Evaluation Benchmark of Understanding Symbols [1.90463290938268]
GPT-4oは他の全てのモデルよりも大幅に優れ、続いてプロプライエタリなモデルも他の評価モデルよりも優れていた。
最高のモデルでさえ、最終的な精度はわずか42%で、ハードパズルでは7%に低下する。
したがって、我々のベンチマークは、マルチモーダルな大言語モデルの知識と推論における大きな欠点を特定するのに利用できる。
論文 参考訳(メタデータ) (2024-01-11T00:30:28Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。