論文の概要: Scientists' First Exam: Probing Cognitive Abilities of MLLM via Perception, Understanding, and Reasoning
- arxiv url: http://arxiv.org/abs/2506.10521v1
- Date: Thu, 12 Jun 2025 09:29:16 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-06-13 15:37:22.672205
- Title: Scientists' First Exam: Probing Cognitive Abilities of MLLM via Perception, Understanding, and Reasoning
- Title(参考訳): MLLMの認知能力の認知・理解・推論
- Authors: Yuhao Zhou, Yiheng Wang, Xuming He, Ruoyao Xiao, Zhiwei Li, Qiantai Feng, Zijie Guo, Yuejin Yang, Hao Wu, Wenxuan Huang, Jiaqi Wei, Dan Si, Xiuqi Yao, Jia Bu, Haiwen Huang, Tianfan Fu, Shixiang Tang, Ben Fei, Dongzhan Zhou, Fenghua Ling, Yan Lu, Siqi Sun, Chenhui Li, Guanjie Zheng, Jiancheng Lv, Wenlong Zhang, Lei Bai,
- Abstract要約: 我々は,Multimodal Large Language Models (MLLM) の科学的認知能力を評価するために設計された,Scientists' First Exam (SFE) ベンチマークを提示する。
SFEは3つの質問タイプにまたがる830のエキスパート検証VQAペアで構成され、5つの高価値分野にまたがる66のマルチモーダルタスクにまたがる。
実験の結果、現在最先端のGPT-o3とInternVL-3はSFEでわずか34.08%と26.52%しか達成できず、MLLMが科学領域で改善する余地があることが明らかになった。
- 参考スコア(独自算出の注目度): 59.518397361341556
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Scientific discoveries increasingly rely on complex multimodal reasoning based on information-intensive scientific data and domain-specific expertise. Empowered by expert-level scientific benchmarks, scientific Multimodal Large Language Models (MLLMs) hold the potential to significantly enhance this discovery process in realistic workflows. However, current scientific benchmarks mostly focus on evaluating the knowledge understanding capabilities of MLLMs, leading to an inadequate assessment of their perception and reasoning abilities. To address this gap, we present the Scientists' First Exam (SFE) benchmark, designed to evaluate the scientific cognitive capacities of MLLMs through three interconnected levels: scientific signal perception, scientific attribute understanding, scientific comparative reasoning. Specifically, SFE comprises 830 expert-verified VQA pairs across three question types, spanning 66 multimodal tasks across five high-value disciplines. Extensive experiments reveal that current state-of-the-art GPT-o3 and InternVL-3 achieve only 34.08% and 26.52% on SFE, highlighting significant room for MLLMs to improve in scientific realms. We hope the insights obtained in SFE will facilitate further developments in AI-enhanced scientific discoveries.
- Abstract(参考訳): 科学的発見は、情報集約的な科学データとドメイン固有の専門知識に基づく複雑なマルチモーダル推論にますます依存している。
専門家レベルの科学ベンチマークを取り入れた科学マルチモーダル大規模言語モデル(MLLM)は、現実的なワークフローにおいてこの発見プロセスを大幅に強化する可能性を秘めている。
しかしながら、現在の科学的ベンチマークは主にMLLMの知識理解能力の評価に重点を置いており、その知覚と推論能力の不十分な評価につながっている。
このギャップに対処するために、科学信号認識、科学的属性理解、科学的比較推論の3段階を通じてMLLMの科学的認知能力を評価するために設計されたScientists' First Exam(SFE)ベンチマークを提示する。
具体的には、SFEは3つの質問タイプにまたがる830のエキスパート検証VQAペアで構成され、5つの高価値分野にまたがる66のマルチモーダルタスクにまたがる。
大規模な実験により、現在の最先端のGPT-o3とInternVL-3はSFEでわずか34.08%と26.52%しか達成せず、MLLMが科学領域で改善する余地があることが明らかになった。
SFEで得られた知見が、AIによる科学的発見のさらなる発展を促進することを願っている。
関連論文リスト
- Advancing the Scientific Method with Large Language Models: From Hypothesis to Discovery [35.888956949646]
大規模言語モデル (LLM) は科学的方法を変えて科学的研究を変革している。
LLMは、特に化学や生物学において、実験的な設計、データ分析、生産性の向上に関与している。
AI駆動科学への移行は、創造性、監視、責任に関する倫理的な疑問を提起する。
論文 参考訳(メタデータ) (2025-05-22T10:05:48Z) - Position: Multimodal Large Language Models Can Significantly Advance Scientific Reasoning [51.11965014462375]
MLLM(Multimodal Large Language Models)は、テキスト、画像、その他のモダリティを統合する。
本稿では,MLLMが数学,物理,化学,生物学などの分野にまたがる科学的推論を著しく前進させることができることを論じる。
論文 参考訳(メタデータ) (2025-02-05T04:05:27Z) - A Comprehensive Survey of Scientific Large Language Models and Their Applications in Scientific Discovery [68.48094108571432]
大規模言語モデル(LLM)は、テキストやその他のデータ処理方法に革命をもたらした。
我々は,科学LLM間のクロスフィールドおよびクロスモーダル接続を明らかにすることで,研究ランドスケープのより総合的なビューを提供することを目指している。
論文 参考訳(メタデータ) (2024-06-16T08:03:24Z) - SciKnowEval: Evaluating Multi-level Scientific Knowledge of Large Language Models [35.98892300665275]
SciKnowEvalベンチマーク(SciKnowEval benchmark)は,5つの科学的知識の段階にわたる大規模言語モデル(LLM)を評価するフレームワークである。
これらのレベルは、記憶、理解、推論、識別、応用を含むLLMにおける科学知識の幅と深さを評価することを目的としている。
ゼロショットと少数ショットのプロンプト戦略を用いて、26の高度なオープンソースおよびプロプライエタリなLCMをベンチマークした。
論文 参考訳(メタデータ) (2024-06-13T13:27:52Z) - LLM and Simulation as Bilevel Optimizers: A New Paradigm to Advance Physical Scientific Discovery [141.39722070734737]
本稿では,大規模言語モデルの知識駆動型抽象推論能力をシミュレーションの計算力で強化することを提案する。
本稿では,2段階最適化フレームワークであるSGA(Scientific Generative Agent)を紹介する。
法発見と分子設計における枠組みの有効性を実証するための実験を行った。
論文 参考訳(メタデータ) (2024-05-16T03:04:10Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。