論文の概要: MME-SCI: A Comprehensive and Challenging Science Benchmark for Multimodal Large Language Models
- arxiv url: http://arxiv.org/abs/2508.13938v1
- Date: Tue, 19 Aug 2025 15:27:55 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-08-20 15:36:31.988905
- Title: MME-SCI: A Comprehensive and Challenging Science Benchmark for Multimodal Large Language Models
- Title(参考訳): MME-SCI: マルチモーダル大規模言語モデルのための包括的・複雑化科学ベンチマーク
- Authors: Jiacheng Ruan, Dan Jiang, Xian Gao, Ting Liu, Yuzhuo Fu, Yangyang Kang,
- Abstract要約: MLLM(Multimodal large language model)は、様々な領域において大きな進歩を遂げている。
科学分野のベンチマークはMLLMの推論能力を評価する上で重要な役割を果たしてきた。
1)多言語シナリオにおけるモデルの推論能力の不十分な評価、2)MLLMの包括的なモダリティカバレッジの不十分な評価、3)科学的知識ポイントの詳細なアノテーションの欠如。
- 参考スコア(独自算出の注目度): 27.425377320206444
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Recently, multimodal large language models (MLLMs) have achieved significant advancements across various domains, and corresponding evaluation benchmarks have been continuously refined and improved. In this process, benchmarks in the scientific domain have played an important role in assessing the reasoning capabilities of MLLMs. However, existing benchmarks still face three key challenges: 1) Insufficient evaluation of models' reasoning abilities in multilingual scenarios; 2) Inadequate assessment of MLLMs' comprehensive modality coverage; 3) Lack of fine-grained annotation of scientific knowledge points. To address these gaps, we propose MME-SCI, a comprehensive and challenging benchmark. We carefully collected 1,019 high-quality question-answer pairs, which involve 3 distinct evaluation modes. These pairs cover four subjects, namely mathematics, physics, chemistry, and biology, and support five languages: Chinese, English, French, Spanish, and Japanese. We conducted extensive experiments on 16 open-source models and 4 closed-source models, and the results demonstrate that MME-SCI is widely challenging for existing MLLMs. For instance, under the Image-only evaluation mode, o4-mini achieved accuracy of only 52.11%, 24.73%, 36.57%, and 29.80% in mathematics, physics, chemistry, and biology, respectively, indicating a significantly higher difficulty level compared to existing benchmarks. More importantly, using MME-SCI's multilingual and fine-grained knowledge attributes, we analyzed existing models' performance in depth and identified their weaknesses in specific domains. The Data and Evaluation Code are available at https://github.com/JCruan519/MME-SCI.
- Abstract(参考訳): 近年,マルチモーダル・大規模言語モデル (MLLM) は様々な領域で大きな進歩を遂げており,それに対応する評価ベンチマークが継続的に改良され,改良されている。
この過程で、科学分野のベンチマークはMLLMの推論能力を評価する上で重要な役割を果たしてきた。
しかし、既存のベンチマークは3つの大きな課題に直面している。
1)多言語シナリオにおけるモデルの推論能力の不十分な評価
2)MLLMの包括的モダリティ範囲の不十分な評価
3) 科学的知識点の微粒な注釈の欠如。
これらのギャップに対処するため、包括的で挑戦的なベンチマークであるMME-SCIを提案する。
我々は,3つの異なる評価モードを含む1,019個の高品質質問応答ペアを慎重に収集した。
これらのペアは数学、物理学、化学、生物学の4つの科目を含み、中国語、英語、フランス語、スペイン語、日本語の5つの言語をサポートしている。
我々は16のオープンソースモデルと4つのクローズドソースモデルについて広範な実験を行い、その結果、MME-SCIは既存のMLLMにおいて広く困難であることを示した。
例えば、画像のみの評価モードでは、o4-miniは52.11%、24.73%、36.57%、29.80%の精度しか達成していない。
さらに,MME-SCIの多言語的・きめ細かい知識属性を用いて,既存のモデルの性能を深く分析し,その弱点を特定できた。
Data and Evaluation Codeはhttps://github.com/JCruan519/MME-SCIで公開されている。
関連論文リスト
- MDK12-Bench: A Comprehensive Evaluation of Multimodal Large Language Models on Multidisciplinary Exams [50.293164501645975]
MLLM(Multimodal large language model)は、言語と視覚を統合して問題解決を行う。
MLLMのインテリジェンスを測定するための現在のベンチマークは、限られた規模、狭い範囲、構造化されていない知識に悩まされている。
MDK12-Benchは、6つの分野にまたがる実世界のK-12試験から構築された大規模マルチディシプリナベンチマークである。
論文 参考訳(メタデータ) (2025-08-09T06:21:10Z) - VisuLogic: A Benchmark for Evaluating Visual Reasoning in Multi-modal Large Language Models [121.03333569013148]
VisuLogicは、6つのカテゴリにまたがる1,000の人間認証された問題のベンチマークです。
これらの質問は、複数の視点からMLLMの視覚的推論能力を評価するために評価することができる。
ほとんどのモデルは精度が30%以下で、25%のランダムベースラインよりわずかに高く、人間によって達成された51.4%よりはるかに低い。
論文 参考訳(メタデータ) (2025-04-21T17:59:53Z) - EmbodiedBench: Comprehensive Benchmarking Multi-modal Large Language Models for Vision-Driven Embodied Agents [63.43699771428243]
EmbodiedBenchは、視覚駆動型エンボディエージェントを評価するために設計された広範囲なベンチマークである。
我々はEmbodiedBench内のプロプライエタリおよびオープンソースMLLMを24件評価した。
MLLMは高いレベルのタスクで優れるが、低レベルの操作に苦戦し、最高のモデルであるGPT-4oは平均28.9%のスコアしか獲得できなかった。
論文 参考訳(メタデータ) (2025-02-13T18:11:34Z) - MMIE: Massive Multimodal Interleaved Comprehension Benchmark for Large Vision-Language Models [71.36392373876505]
我々は、LVLM(Large Vision-Language Models)において、インターリーブされたマルチモーダル理解と生成を評価するための大規模ベンチマークであるMMIEを紹介する。
MMIEは、数学、コーディング、物理学、文学、健康、芸術を含む3つのカテゴリ、12のフィールド、102のサブフィールドにまたがる20Kの厳密にキュレートされたマルチモーダルクエリで構成されている。
インターリーブされたインプットとアウトプットの両方をサポートし、多様な能力を評価するために、複数選択とオープンな質問フォーマットの混合を提供する。
論文 参考訳(メタデータ) (2024-10-14T04:15:00Z) - VisScience: An Extensive Benchmark for Evaluating K12 Educational Multi-modal Scientific Reasoning [20.56989082014445]
MLLM(Multi-modal large language model)は、様々なタスクにまたがる有望な機能を示す。
本稿では,25種の代表的MLLMの科学的推論における性能について詳細に評価する。
最も優れた性能は、クロード3.5-ソネットによる数学の53.4%の精度、GPT-4oによる物理学の38.2%、ジェミニ1.5-Proによる化学の47.0%である。
論文 参考訳(メタデータ) (2024-09-10T01:20:26Z) - MULTI: Multimodal Understanding Leaderboard with Text and Images [24.04211732343361]
そこで本研究では,中国のマルチモーダルデータセットであるMultiについて述べる。
マルチモデルは、画像テキスト理解、複雑な推論、知識リコールを含む実世界の検査基準を用いてモデルを評価する。
Qwen2-VL-72BはMulti-Eliteで76.9%,Multi-Eliteで53.1%の精度で評価された。
論文 参考訳(メタデータ) (2024-02-05T16:41:02Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。