Fugu-MT 論文翻訳(概要): Scientists' First Exam: Probing Cognitive Abilities of MLLM via Perception, Understanding, and Reasoning

論文の概要: Scientists' First Exam: Probing Cognitive Abilities of MLLM via Perception, Understanding, and Reasoning

arxiv url: http://arxiv.org/abs/2506.10521v1
Date: Thu, 12 Jun 2025 09:29:16 GMT
ステータス: 翻訳完了
システム内更新日: 2025-06-13 15:37:22.672205
Title: Scientists' First Exam: Probing Cognitive Abilities of MLLM via Perception, Understanding, and Reasoning
Title（参考訳）: MLLMの認知能力の認知・理解・推論
Authors: Yuhao Zhou, Yiheng Wang, Xuming He, Ruoyao Xiao, Zhiwei Li, Qiantai Feng, Zijie Guo, Yuejin Yang, Hao Wu, Wenxuan Huang, Jiaqi Wei, Dan Si, Xiuqi Yao, Jia Bu, Haiwen Huang, Tianfan Fu, Shixiang Tang, Ben Fei, Dongzhan Zhou, Fenghua Ling, Yan Lu, Siqi Sun, Chenhui Li, Guanjie Zheng, Jiancheng Lv, Wenlong Zhang, Lei Bai,
Abstract要約: 我々は,Multimodal Large Language Models (MLLM) の科学的認知能力を評価するために設計された,Scientists' First Exam (SFE) ベンチマークを提示する。 SFEは3つの質問タイプにまたがる830のエキスパート検証VQAペアで構成され、5つの高価値分野にまたがる66のマルチモーダルタスクにまたがる。実験の結果、現在最先端のGPT-o3とInternVL-3はSFEでわずか34.08%と26.52%しか達成できず、MLLMが科学領域で改善する余地があることが明らかになった。
参考スコア（独自算出の注目度）: 59.518397361341556
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: Scientific discoveries increasingly rely on complex multimodal reasoning based on information-intensive scientific data and domain-specific expertise. Empowered by expert-level scientific benchmarks, scientific Multimodal Large Language Models (MLLMs) hold the potential to significantly enhance this discovery process in realistic workflows. However, current scientific benchmarks mostly focus on evaluating the knowledge understanding capabilities of MLLMs, leading to an inadequate assessment of their perception and reasoning abilities. To address this gap, we present the Scientists' First Exam (SFE) benchmark, designed to evaluate the scientific cognitive capacities of MLLMs through three interconnected levels: scientific signal perception, scientific attribute understanding, scientific comparative reasoning. Specifically, SFE comprises 830 expert-verified VQA pairs across three question types, spanning 66 multimodal tasks across five high-value disciplines. Extensive experiments reveal that current state-of-the-art GPT-o3 and InternVL-3 achieve only 34.08% and 26.52% on SFE, highlighting significant room for MLLMs to improve in scientific realms. We hope the insights obtained in SFE will facilitate further developments in AI-enhanced scientific discoveries.
Abstract（参考訳）: 科学的発見は、情報集約的な科学データとドメイン固有の専門知識に基づく複雑なマルチモーダル推論にますます依存している。専門家レベルの科学ベンチマークを取り入れた科学マルチモーダル大規模言語モデル(MLLM)は、現実的なワークフローにおいてこの発見プロセスを大幅に強化する可能性を秘めている。しかしながら、現在の科学的ベンチマークは主にMLLMの知識理解能力の評価に重点を置いており、その知覚と推論能力の不十分な評価につながっている。このギャップに対処するために、科学信号認識、科学的属性理解、科学的比較推論の3段階を通じてMLLMの科学的認知能力を評価するために設計されたScientists' First Exam(SFE)ベンチマークを提示する。具体的には、SFEは3つの質問タイプにまたがる830のエキスパート検証VQAペアで構成され、5つの高価値分野にまたがる66のマルチモーダルタスクにまたがる。大規模な実験により、現在の最先端のGPT-o3とInternVL-3はSFEでわずか34.08%と26.52%しか達成せず、MLLMが科学領域で改善する余地があることが明らかになった。 SFEで得られた知見が、AIによる科学的発見のさらなる発展を促進することを願っている。

関連論文リスト

Dynamic Knowledge Exchange and Dual-diversity Review: Concisely Unleashing the Potential of a Multi-Agent Research Team [53.38438460574943]
IDVSCIは、大規模言語モデル(LLM)上に構築されたマルチエージェントフレームワークである。動的知識交換機構とデュアルダイバーシティ・レビュー・パラダイムという2つの重要なイノベーションが組み込まれている。結果は、IDVSCIが2つのデータセットで常に最高のパフォーマンスを達成していることを示している。
論文参考訳（メタデータ） (2025-06-23T07:12:08Z)
Advancing the Scientific Method with Large Language Models: From Hypothesis to Discovery [35.888956949646]
大規模言語モデル (LLM) は科学的方法を変えて科学的研究を変革している。 LLMは、特に化学や生物学において、実験的な設計、データ分析、生産性の向上に関与している。 AI駆動科学への移行は、創造性、監視、責任に関する倫理的な疑問を提起する。
論文参考訳（メタデータ） (2025-05-22T10:05:48Z)
SciVerse: Unveiling the Knowledge Comprehension and Visual Reasoning of LMMs on Multi-modal Scientific Problems [41.69093932236271]
我々は、LMM(Large Multi-modal Models)を徹底的に評価するマルチモーダル科学評価ベンチマークであるSciVerseを紹介する。我々は,LMMの3つの重要な側面として,科学的知識理解,マルチモーダルコンテンツ解釈,CoT(Chain-of-Thought)推論について検討することを目的とする。 SciVerse上での異なるLMMの広範な評価は、その科学的習熟度における限界を明らかにし、今後の発展に対する新たな洞察を提供する。
論文参考訳（メタデータ） (2025-03-13T17:59:32Z)
Position: Multimodal Large Language Models Can Significantly Advance Scientific Reasoning [51.11965014462375]
MLLM(Multimodal Large Language Models)は、テキスト、画像、その他のモダリティを統合する。本稿では,MLLMが数学,物理,化学,生物学などの分野にまたがる科学的推論を著しく前進させることができることを論じる。
論文参考訳（メタデータ） (2025-02-05T04:05:27Z)
VisScience: An Extensive Benchmark for Evaluating K12 Educational Multi-modal Scientific Reasoning [20.56989082014445]
MLLM(Multi-modal large language model)は、様々なタスクにまたがる有望な機能を示す。本稿では,25種の代表的MLLMの科学的推論における性能について詳細に評価する。最も優れた性能は、クロード3.5-ソネットによる数学の53.4%の精度、GPT-4oによる物理学の38.2%、ジェミニ1.5-Proによる化学の47.0%である。
論文参考訳（メタデータ） (2024-09-10T01:20:26Z)
A Comprehensive Survey of Scientific Large Language Models and Their Applications in Scientific Discovery [68.48094108571432]
大規模言語モデル(LLM)は、テキストやその他のデータ処理方法に革命をもたらした。我々は,科学LLM間のクロスフィールドおよびクロスモーダル接続を明らかにすることで,研究ランドスケープのより総合的なビューを提供することを目指している。
論文参考訳（メタデータ） (2024-06-16T08:03:24Z)
SciKnowEval: Evaluating Multi-level Scientific Knowledge of Large Language Models [35.98892300665275]
SciKnowEvalベンチマーク(SciKnowEval benchmark)は,5つの科学的知識の段階にわたる大規模言語モデル(LLM)を評価するフレームワークである。これらのレベルは、記憶、理解、推論、識別、応用を含むLLMにおける科学知識の幅と深さを評価することを目的としている。ゼロショットと少数ショットのプロンプト戦略を用いて、26の高度なオープンソースおよびプロプライエタリなLCMをベンチマークした。
論文参考訳（メタデータ） (2024-06-13T13:27:52Z)
LLM and Simulation as Bilevel Optimizers: A New Paradigm to Advance Physical Scientific Discovery [141.39722070734737]
本稿では,大規模言語モデルの知識駆動型抽象推論能力をシミュレーションの計算力で強化することを提案する。本稿では,2段階最適化フレームワークであるSGA(Scientific Generative Agent)を紹介する。法発見と分子設計における枠組みの有効性を実証するための実験を行った。
論文参考訳（メタデータ） (2024-05-16T03:04:10Z)
Scientific Large Language Models: A Survey on Biological & Chemical Domains [47.97810890521825]
大規模言語モデル(LLM)は、自然言語理解の強化において、変革的な力として現れてきた。 LLMの応用は従来の言語境界を超えて、様々な科学分野で開発された専門的な言語システムを含んでいる。 AI for Science(AI for Science)のコミュニティで急成長している分野として、科学LLMは包括的な探査を義務付けている。
論文参考訳（メタデータ） (2024-01-26T05:33:34Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。