論文の概要: MMSciBench: Benchmarking Language Models on Multimodal Scientific Problems
- arxiv url: http://arxiv.org/abs/2503.01891v1
- Date: Thu, 27 Feb 2025 15:38:43 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-03-05 18:50:38.293963
- Title: MMSciBench: Benchmarking Language Models on Multimodal Scientific Problems
- Title(参考訳): MMSciBench:マルチモーダル科学問題における言語モデルのベンチマーク
- Authors: Xinwu Ye, Chengfan Li, Siming Chen, Xiangru Tang, Wei Wei,
- Abstract要約: MMSciBenchは,テキストのみおよびテキストイメージ形式を用いて数学的および物理的推論を評価するためのベンチマークである。
MMSciBenchを厳密な標準として確立し、複雑な推論と視覚的テキストの統合において重要なギャップを明らかにする。
- 参考スコア(独自算出の注目度): 12.931916288612483
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Recent advances in large language models (LLMs) and vision-language models (LVLMs) have shown promise across many tasks, yet their scientific reasoning capabilities remain untested, particularly in multimodal settings. We present MMSciBench, a benchmark for evaluating mathematical and physical reasoning through text-only and text-image formats, with human-annotated difficulty levels, solutions with detailed explanations, and taxonomic mappings. Evaluation of state-of-the-art models reveals significant limitations, with even the best model achieving only \textbf{63.77\%} accuracy and particularly struggling with visual reasoning tasks. Our analysis exposes critical gaps in complex reasoning and visual-textual integration, establishing MMSciBench as a rigorous standard for measuring progress in multimodal scientific understanding. The code for MMSciBench is open-sourced at GitHub, and the dataset is available at Hugging Face.
- Abstract(参考訳): 大規模言語モデル (LLMs) や視覚言語モデル (LVLMs) の最近の進歩は、多くのタスクにおいて約束されているが、その科学的推論能力は、特にマルチモーダルな設定において未検証のままである。
MMSciBenchは、テキストのみおよびテキスト画像形式を用いて数学的および物理的推論を評価するためのベンチマークであり、人間の注釈付き難易度、詳細な説明を伴う解、分類学的マッピングを提供する。
最先端モデルの評価は、最も優れたモデルでさえ、精度が textbf{63.77\%} にしか達せず、特に視覚的推論タスクに苦慮しているため、重大な制限が示される。
MMSciBenchをマルチモーダルな科学的理解の進歩を測定するための厳密な基準として確立した。
MMSciBenchのコードはGitHubでオープンソース化されており、データセットはHugging Faceで入手できる。
関連論文リスト
- VisuLogic: A Benchmark for Evaluating Visual Reasoning in Multi-modal Large Language Models [121.03333569013148]
VisuLogicは、6つのカテゴリにまたがる1,000の人間認証された問題のベンチマークです。
これらの質問は、複数の視点からMLLMの視覚的推論能力を評価するために評価することができる。
ほとんどのモデルは精度が30%以下で、25%のランダムベースラインよりわずかに高く、人間によって達成された51.4%よりはるかに低い。
論文 参考訳(メタデータ) (2025-04-21T17:59:53Z) - MDK12-Bench: A Multi-Discipline Benchmark for Evaluating Reasoning in Multimodal Large Language Models [50.43793764203352]
実世界のK-12試験を通してMLLMの推論能力を評価する多分野ベンチマークであるMDK12-Benchを紹介する。
本ベンチマークは,小学校から12年生までの様々な難易度にまたがる140Kの推論事例からなる。
6,827のインスタンスレベルの知識ポイントアノテーションが,十分に整理された知識構造,詳細な回答説明,難易度ラベル,年次分割に基づいている。
論文 参考訳(メタデータ) (2025-04-08T08:06:53Z) - PEBench: A Fictitious Dataset to Benchmark Machine Unlearning for Multimodal Large Language Models [30.909294336713845]
MLLM(Multimodal Large Language Models)は、視覚的質問応答、視覚的理解、推論などのタスクにおいて顕著な進歩を見せている。
しかし、この驚くべき進歩は、インターネットから収集された膨大な量のデータに依存し、プライバシーとセキュリティに関する重大な懸念を引き起こしている。
機械学習(MU)は有望なソリューションとして登場し、スクラッチからトレーニングを必要とせずに、すでにトレーニング済みのモデルから特定の知識を取り除くことができる。
論文 参考訳(メタデータ) (2025-03-16T15:26:20Z) - VERIFY: A Benchmark of Visual Explanation and Reasoning for Investigating Multimodal Reasoning Fidelity [34.29409506366145]
VERIFYは最先端MLLMの視覚的推論能力を分離し、厳格に評価するために設計されたベンチマークである。
それぞれの問題には人手による推論パスが伴い、モデル決定プロセスの詳細な評価を初めて提供する。
本稿では,従来のモデル推論パターンにおける重要な不均衡を浮き彫りにして,単なる精度を超える視覚的推論の忠実さを評価する新しい指標を提案する。
論文 参考訳(メタデータ) (2025-03-14T16:26:11Z) - MciteBench: A Benchmark for Multimodal Citation Text Generation in MLLMs [31.793037002996257]
MLLM(Multimodal Large Language Models)は多様なモダリティを統合するために進歩しているが、幻覚に悩まされることが多い。
既存の作業は、主にテキストのみのコンテンツのための引用を生成することに焦点を当て、マルチモーダルコンテキストの課題と機会を見下ろしている。
MLLMのマルチモーダル引用テキスト生成能力の評価と解析を目的とした,最初のベンチマークであるMCiteBenchを紹介する。
論文 参考訳(メタデータ) (2025-03-04T13:12:39Z) - VOILA: Evaluation of MLLMs For Perceptual Understanding and Analogical Reasoning [63.0285363282581]
MLLM(Multimodal Large Language Models)は、視覚情報とテキスト情報を統合するための強力なツールとなっている。
本稿では,MLLMの知覚的理解と抽象的関係推論を評価するためのベンチマークVOILAを紹介する。
我々は,現在のMLLMが画像間関係の理解に苦慮し,高レベルの関係推論において限られた能力を示すことを明らかにした。
論文 参考訳(メタデータ) (2025-02-25T23:36:19Z) - Can MLLMs Reason in Multimodality? EMMA: An Enhanced MultiModal ReAsoning Benchmark [73.27104042215207]
EMMAは,数学,物理,化学,コーディングにまたがる有機マルチモーダル推論を対象とするベンチマークである。
EMMAタスクは、各モードで独立に推論することで対処できない高度なクロスモーダル推論を要求する。
EMMA上での最先端MLLMの評価は、複雑なマルチモーダルおよびマルチステップ推論タスクの処理において、重大な制限を生じさせる。
論文 参考訳(メタデータ) (2025-01-09T18:55:52Z) - GePBench: Evaluating Fundamental Geometric Perception for Multimodal Large Language Models [34.647839550142834]
本稿では,MLLMの幾何学的知覚能力を評価するための新しいベンチマークであるGePBenchを紹介する。
評価の結果,現在最先端のMLLMは幾何学的知覚タスクに重大な欠陥があることが明らかとなった。
GePBenchデータを用いてトレーニングしたモデルは、幅広いベンチマークタスクにおいて大幅に改善されていることを示す。
論文 参考訳(メタデータ) (2024-12-30T16:01:43Z) - MMSci: A Dataset for Graduate-Level Multi-Discipline Multimodal Scientific Understanding [59.41495657570397]
本稿では,72の科学分野をカバーするNature Communicationsの記事からまとめられた包括的データセットについて述べる。
2つのベンチマークタスク(図のキャプションと複数選択)で19のプロプライエタリモデルとオープンソースモデルを評価し,人手による注釈を行った。
タスク固有データを用いた細調整Qwen2-VL-7Bは、GPT-4oや人間の専門家でさえも、マルチチョイス評価において優れた性能を示した。
論文 参考訳(メタデータ) (2024-07-06T00:40:53Z) - CODIS: Benchmarking Context-Dependent Visual Comprehension for Multimodal Large Language Models [58.95889895912716]
我々は、自由形式のテキストで提供されるコンテキストを用いて視覚的理解を高めるモデルの有効性を評価するために、CODISと名付けられた新しいベンチマークを導入する。
以上の結果から,MLLMは必ずしも人体性能に劣っていることが示唆された。
このことは、MLLMが視覚を文脈依存的に理解する能力を高めることの必要性を浮き彫りにする。
論文 参考訳(メタデータ) (2024-02-21T08:21:12Z) - MMToM-QA: Multimodal Theory of Mind Question Answering [80.87550820953236]
心の理論 (ToM) は人間レベルの社会知能を持つ機械を開発する上で不可欠な要素である。
最近の機械学習モデル、特に大きな言語モデルは、ToM理解のいくつかの側面を示しているようだ。
一方、ヒューマンToMはビデオやテキストの理解以上のものです。
人は、利用可能なデータから抽出された概念的表現に基づいて、他人の心について柔軟に推論することができる。
論文 参考訳(メタデータ) (2024-01-16T18:59:24Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。