論文の概要: Evaluating Large Language Models on Multimodal Chemistry Olympiad Exams
- arxiv url: http://arxiv.org/abs/2512.14989v1
- Date: Wed, 17 Dec 2025 00:49:00 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-12-18 17:06:26.812908
- Title: Evaluating Large Language Models on Multimodal Chemistry Olympiad Exams
- Title(参考訳): マルチモーダル化学オリンピックにおける大規模言語モデルの評価
- Authors: Yiming Cui, Xin Yao, Yuxuan Qin, Xin Li, Shijin Wang, Guoping Hu,
- Abstract要約: 大規模言語モデル(LLM)におけるマルチモーダルな科学的推論は依然として重要な課題である
我々は,オリンピアド式化学質問のキュレートされたベンチマークを用いて,40のプロプライエタリかつオープンソースのマルチモーダルLCMを体系的に評価した。
その結果,現在のMLLMの科学的推論能力に限界があることが判明した。
- 参考スコア(独自算出の注目度): 20.432924845981255
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Multimodal scientific reasoning remains a significant challenge for large language models (LLMs), particularly in chemistry, where problem-solving relies on symbolic diagrams, molecular structures, and structured visual data. Here, we systematically evaluate 40 proprietary and open-source multimodal LLMs, including GPT-5, o3, Gemini-2.5-Pro, and Qwen2.5-VL, on a curated benchmark of Olympiad-style chemistry questions drawn from over two decades of U.S. National Chemistry Olympiad (USNCO) exams. These questions require integrated visual and textual reasoning across diverse modalities. We find that many models struggle with modality fusion, where in some cases, removing the image even improves accuracy, indicating misalignment in vision-language integration. Chain-of-Thought prompting consistently enhances both accuracy and visual grounding, as demonstrated through ablation studies and occlusion-based interpretability. Our results reveal critical limitations in the scientific reasoning abilities of current MLLMs, providing actionable strategies for developing more robust and interpretable multimodal systems in chemistry. This work provides a timely benchmark for measuring progress in domain-specific multimodal AI and underscores the need for further advances at the intersection of artificial intelligence and scientific reasoning.
- Abstract(参考訳): マルチモーダルな科学推論は、特に化学において、記号図、分子構造、構造化された視覚データに依存する大きな言語モデル(LLM)にとって重要な課題である。
GPT-5, o3, Gemini-2.5-Pro, Qwen2.5-VLを含む40のプロプライエタリかつオープンソースのマルチモーダルLCMを, 20年以上にわたる米国化学オリンピック(USNCO)試験から得られたオリンピアド式化学質問のキュレートされたベンチマークで, 体系的に評価した。
これらの質問は様々なモダリティにまたがって視覚的およびテキスト的推論を必要とする。
多くのモデルはモダリティ融合に苦しむが、場合によっては画像を削除することで精度が向上し、視覚言語統合のミスアライメントが示される。
Chain-of-Thoughtの促進は、アブレーション研究やオクルージョンに基づく解釈可能性を通じて示されるように、正確性と視覚的接地の両方を一貫して強化する。
以上の結果から,現在のMLLMの科学的推論能力の限界が明らかとなり,より堅牢で解釈可能なマルチモーダル系を化学で開発するための実用的な戦略が得られた。
この研究は、ドメイン固有のマルチモーダルAIの進捗を測定するためのタイムリーなベンチマークを提供し、人工知能と科学的推論の交差点におけるさらなる進歩の必要性を浮き彫りにしている。
関連論文リスト
- ChemVTS-Bench: Evaluating Visual-Textual-Symbolic Reasoning of Multimodal Large Language Models in Chemistry [14.083820970280668]
ChemVTS-Benchは、マルチモーダル大言語モデル(MLLM)の視覚的テキスト・シンボリック(VTS)推論能力を評価するために設計されたドメイン認証ベンチマークである。
ChemVTS-Benchは、有機分子、無機物質、および3D結晶構造にまたがる多様で困難な化学問題を含んでいる。
我々は、推論を標準化し、回答を検証し、障害モードを診断する自動エージェントベースのワークフローを開発する。
論文 参考訳(メタデータ) (2025-11-22T04:24:24Z) - Multi-Physics: A Comprehensive Benchmark for Multimodal LLMs Reasoning on Chinese Multi-Subject Physics Problems [15.023749693065406]
我々は,5つの難易度を含む総合的なベンチマークである,中国の物理推論のためのマルチ物理について紹介する。
我々は20種類のMLLMの評価に2つの評価フレームワークを使用し、最終回答精度とステップ・バイ・ステップの整合性の両方を分析した。
論文 参考訳(メタデータ) (2025-09-19T10:18:48Z) - $\text{M}^{2}$LLM: Multi-view Molecular Representation Learning with Large Language Models [59.125833618091846]
分子構造ビュー,分子タスクビュー,分子規則ビューの3つの視点を統合した多視点フレームワークを提案する。
実験によると、$textM2$LLMは、分類タスクと回帰タスクをまたいだ複数のベンチマークで最先端のパフォーマンスを達成する。
論文 参考訳(メタデータ) (2025-08-12T05:46:47Z) - MDK12-Bench: A Comprehensive Evaluation of Multimodal Large Language Models on Multidisciplinary Exams [50.293164501645975]
MLLM(Multimodal large language model)は、言語と視覚を統合して問題解決を行う。
MLLMのインテリジェンスを測定するための現在のベンチマークは、限られた規模、狭い範囲、構造化されていない知識に悩まされている。
MDK12-Benchは、6つの分野にまたがる実世界のK-12試験から構築された大規模マルチディシプリナベンチマークである。
論文 参考訳(メタデータ) (2025-08-09T06:21:10Z) - From Generalist to Specialist: A Survey of Large Language Models for Chemistry [14.317448405387195]
大言語モデル(LLM)は我々の日常生活を大きく変え、自然言語処理(NLP)の新しいパラダイムを確立した。
LLMの大規模なWebベースのテキストへの事前学習は、特に化学において先進的な科学的発見には不十分である。
化学におけるプレトレインド言語モデル(PLM)について、いくつかの研究がレビューされているが、化学指向のLSMに特に焦点を絞った系統的な調査は、顕著に行われていない。
論文 参考訳(メタデータ) (2024-12-28T03:40:25Z) - VisScience: An Extensive Benchmark for Evaluating K12 Educational Multi-modal Scientific Reasoning [20.56989082014445]
MLLM(Multi-modal large language model)は、様々なタスクにまたがる有望な機能を示す。
本稿では,25種の代表的MLLMの科学的推論における性能について詳細に評価する。
最も優れた性能は、クロード3.5-ソネットによる数学の53.4%の精度、GPT-4oによる物理学の38.2%、ジェミニ1.5-Proによる化学の47.0%である。
論文 参考訳(メタデータ) (2024-09-10T01:20:26Z) - ChemVLM: Exploring the Power of Multimodal Large Language Models in Chemistry Area [70.66610054938052]
textbfChemVLMは、化学応用のためのオープンソースの化学マルチモーダル大規模言語モデルである。
ChemVLMは、テキストと視覚の化学情報の両方を理解する能力を高めるために、慎重にキュレートされたバイリンガルデータセットで訓練されている。
我々はChemVLMを、様々なタスクにおいて、オープンソースおよびプロプライエタリな多モーダルな大規模言語モデルに対してベンチマークする。
論文 参考訳(メタデータ) (2024-08-14T01:16:40Z) - MMSci: A Dataset for Graduate-Level Multi-Discipline Multimodal Scientific Understanding [59.41495657570397]
本稿では,72の科学分野をカバーするNature Communicationsの記事からまとめられた包括的データセットについて述べる。
2つのベンチマークタスク(図のキャプションと複数選択)で19のプロプライエタリモデルとオープンソースモデルを評価し,人手による注釈を行った。
タスク固有データを用いた細調整Qwen2-VL-7Bは、GPT-4oや人間の専門家でさえも、マルチチョイス評価において優れた性能を示した。
論文 参考訳(メタデータ) (2024-07-06T00:40:53Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。