論文の概要: Decoding Scientific Experimental Images: The SPUR Benchmark for Perception, Understanding, and Reasoning
- arxiv url: http://arxiv.org/abs/2604.27604v1
- Date: Thu, 30 Apr 2026 08:57:18 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-05-01 16:31:54.006793
- Title: Decoding Scientific Experimental Images: The SPUR Benchmark for Perception, Understanding, and Reasoning
- Title(参考訳): 科学的実験画像の復号化: 知覚・理解・推論のためのSPURベンチマーク
- Authors: Junpeng Ding, Zichen Tang, Haihong E, Mengyuan Ji, Yang Liu, Haolin Tian, Haiyang Sun, Pengqi Sun, Yang Xu, Yichen Liu, Haocheng Gao, Zijie Xi, Ruomeng Jiang, Peizhi Zhao, Rongjin Li, Yuanze Li, Jiacheng Liu, Zhongjun Yang, Jintong Chen, Siying Lin,
- Abstract要約: SPURは科学実験画像認識、理解、推論のためのベンチマークである。
1,084人の専門家による画像から得られた4,264の質問回答(QA)ペアで構成されている。
- 参考スコア(独自算出の注目度): 14.42604392176429
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: We introduce SPUR, a comprehensive benchmark for scientific experimental image perception, understanding, and reasoning, comprising 4,264 question-answering (QA) pairs derived from 1,084 expert-curated images. SPUR features three key innovations: (1) Panel-Level Fine-Grained Perception: evaluating the visual perception of multimodal large language models (MLLMs) across three dimensions (numerical, morphological, and information localization) on six fine-grained panel types; (2) Cross-Panel Relation Understanding: utilizing complex images with an average of 14.3 panels per sample to evaluate MLLMs' ability to decipher intricate cross-panel relations; (3) Expert-Level Reasoning: assessment of qualitative and quantitative reasoning across five experimental paradigms to determine if models can infer conclusions from evidence as human experts do. Comprehensive evaluation of 20 MLLMs and four multimodal Chain-of-Thought (MCoT) methods reveals that current models fall significantly short of the expert-level requirements for scientific image interpretation, underscoring a critical bottleneck in AI for Science (AI4S) research.
- Abstract(参考訳): 本研究では,4,264個の質問回答(QA)ペアを1,084個の専門家による画像から抽出した,科学実験画像認識,理解,推論のための総合的なベンチマークであるSPURを紹介する。
パネル・レベル・ファイン・グラインド・パーセプション(Panel-Level Fine-Grained Perception): パネル・レベル・ファイン・パーセプション(Panel-Level Fine-Grained Perception): パネル・レベル・ファイン・パーセプション(Panel-Level Fine-Grained Perception): パネル・レベル・ファイン・パーセプション(Panel-Level Fine-Grained Perception): マルチモーダル・大規模言語モデル(MLLM)の3次元(数値・形態・情報ローカライゼーション)における視覚的知覚の評価(数値・形態・情報ローカライゼーション)。
20のMLLMと4つのマルチモーダル・チェーン・オブ・ソート(MCoT)手法の総合的な評価は、現在のモデルが科学画像解釈のエキスパートレベルの要件を大きく下回っており、AI4S研究において重要なボトルネックとなっていることを示している。
関連論文リスト
- THEMIS: Towards Holistic Evaluation of MLLMs for Scientific Paper Fraud Forensics [25.815983678332973]
TheMISは、マルチモーダルな大規模言語モデル(MLLM)を現実のシナリオにおける視覚的不正推論で包括的に評価するために設計された新しいベンチマークである。
60.47%の複雑なテクスチャ画像により、TheMISは既存のベンチマークと現実世界の学術的詐欺の複雑さの間に重要なギャップを埋める。
論文 参考訳(メタデータ) (2026-03-26T06:49:25Z) - Beyond Description: Cognitively Benchmarking Fine-Grained Action for Embodied Agents [52.14392337070763]
CFG-Benchは、きめ細かな動作インテリジェンスを体系的に評価する新しいベンチマークである。
CFG-Benchは、1,368のキュレートされたビデオと19,562の3つのモダリティからなる質問応答ペアからなる。
CFG-Benchに関する包括的評価から,MLLMの先導者は,物理的相互作用の詳細な指示を生成するのに苦慮していることが明らかとなった。
論文 参考訳(メタデータ) (2025-11-24T02:02:29Z) - MME-CC: A Challenging Multi-Modal Evaluation Benchmark of Cognitive Capacity [28.797461492275488]
MME-CCは、11の代表的な推論タスクを3つの基本的な視覚情報カテゴリにまとめるビジョングラウンドのベンチマークである。
MME-CCに基づいて16種類のMLLMに対して広範囲な実験を行った。
我々は、方向の誤り、脆弱なクロスビュー・アイデンティティの永続性、および非現実的命令への従順性の欠如など、一般的なエラーパターンを識別する。
論文 参考訳(メタデータ) (2025-11-05T03:09:16Z) - SciVer: Evaluating Foundation Models for Multimodal Scientific Claim Verification [29.63899315962693]
SciVerは1,113件の科学論文に3000件の専門家による注釈付き例からなり、4つのサブセットをカバーし、それぞれがマルチモーダルな科学的クレーム検証において共通の推論タイプを表している。
我々は、o4-mini、Gemini-2.5-Flash、Llama-3.2-Vision、Qwen2.5-VLを含む21の最先端マルチモーダル基盤モデルの性能を評価する。
実験の結果,これらのモデルとSciVerの人間専門家の間には,かなりの性能差があることが判明した。
論文 参考訳(メタデータ) (2025-06-18T15:43:26Z) - VisuLogic: A Benchmark for Evaluating Visual Reasoning in Multi-modal Large Language Models [121.03333569013148]
VisuLogicは、6つのカテゴリにまたがる1,000の人間認証された問題のベンチマークです。
これらの質問は、複数の視点からMLLMの視覚的推論能力を評価するために評価することができる。
ほとんどのモデルは精度が30%以下で、25%のランダムベースラインよりわずかに高く、人間によって達成された51.4%よりはるかに低い。
論文 参考訳(メタデータ) (2025-04-21T17:59:53Z) - VOILA: Evaluation of MLLMs For Perceptual Understanding and Analogical Reasoning [63.0285363282581]
MLLM(Multimodal Large Language Models)は、視覚情報とテキスト情報を統合するための強力なツールとなっている。
本稿では,MLLMの知覚的理解と抽象的関係推論を評価するためのベンチマークVOILAを紹介する。
我々は,現在のMLLMが画像間関係の理解に苦慮し,高レベルの関係推論において限られた能力を示すことを明らかにした。
論文 参考訳(メタデータ) (2025-02-25T23:36:19Z) - Polymath: A Challenging Multi-modal Mathematical Reasoning Benchmark [53.61633384281524]
PolyMATHはMLLMの認知的推論能力を評価するためのベンチマークである。
PolyMATHで最高のスコアは41%、36%、27%で、それぞれClaude-3.5 Sonnet、GPT-4o、Gemini-1.5 Proが獲得した。
さらにきめ細かい誤差解析により、これらのモデルは空間関係を理解し、引き出された高レベルの推論を行うのに苦労していることが明らかとなった。
論文 参考訳(メタデータ) (2024-10-06T20:35:41Z) - MULTI: Multimodal Understanding Leaderboard with Text and Images [27.81157601147561]
そこで本研究では,中国のマルチモーダルデータセットであるMultiについて述べる。
マルチモデルは、画像テキスト理解、複雑な推論、知識リコールを含む実世界の検査基準を用いてモデルを評価する。
Qwen2-VL-72BはMulti-Eliteで76.9%,Multi-Eliteで53.1%の精度で評価された。
論文 参考訳(メタデータ) (2024-02-05T16:41:02Z) - A Comprehensive Evaluation of GPT-4V on Knowledge-Intensive Visual Question Answering [53.70661720114377]
マルチモーダル・大型モデル(MLM)は視覚的理解の分野を著しく進歩させ、視覚的質問応答(VQA)の領域で顕著な能力を提供している
しかし、真の課題は知識集約型VQAタスクの領域にある。
1) モデルが視覚的手がかりを理解し、一般的な知識にどのように結びつくかを評価するコモンセンス知識、2) 画像から特定の知識を推論し、提示する際のモデルのスキルをテストする微粒な世界知識。
論文 参考訳(メタデータ) (2023-11-13T18:22:32Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。