論文の概要: MatSciBench: Benchmarking the Reasoning Ability of Large Language Models in Materials Science
- arxiv url: http://arxiv.org/abs/2510.12171v1
- Date: Tue, 14 Oct 2025 05:59:40 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-10-15 19:02:32.19996
- Title: MatSciBench: Benchmarking the Reasoning Ability of Large Language Models in Materials Science
- Title(参考訳): MatSciBench: 材料科学における大規模言語モデルの推論能力のベンチマーク
- Authors: Junkai Zhang, Jingru Gan, Xiaoxuan Wang, Zian Jia, Changquan Gu, Jianpeng Chen, Yanqiao Zhu, Mingyu Derek Ma, Dawei Zhou, Ling Li, Wei Wang,
- Abstract要約: MatSciBenchは1,340の問題からなる総合的な大学レベルのベンチマークである。
MatSciBenchは、物質科学の質問を6つの主要分野と31の亜分野に分類する構造的できめ細かな分類を特徴としている。
先行モデルの評価によると、最高のパフォーマンスモデルであるGemini-2.5-Proでさえ、大学レベルの材料科学の質問に対して80%未満の精度で達成されている。
- 参考スコア(独自算出の注目度): 28.11660982198711
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Large Language Models (LLMs) have demonstrated remarkable abilities in scientific reasoning, yet their reasoning capabilities in materials science remain underexplored. To fill this gap, we introduce MatSciBench, a comprehensive college-level benchmark comprising 1,340 problems that span the essential subdisciplines of materials science. MatSciBench features a structured and fine-grained taxonomy that categorizes materials science questions into 6 primary fields and 31 sub-fields, and includes a three-tier difficulty classification based on the reasoning length required to solve each question. MatSciBench provides detailed reference solutions enabling precise error analysis and incorporates multimodal reasoning through visual contexts in numerous questions. Evaluations of leading models reveal that even the highest-performing model, Gemini-2.5-Pro, achieves under 80% accuracy on college-level materials science questions, highlighting the complexity of MatSciBench. Our systematic analysis of different reasoning strategie--basic chain-of-thought, tool augmentation, and self-correction--demonstrates that no single method consistently excels across all scenarios. We further analyze performance by difficulty level, examine trade-offs between efficiency and accuracy, highlight the challenges inherent in multimodal reasoning tasks, analyze failure modes across LLMs and reasoning methods, and evaluate the influence of retrieval-augmented generation. MatSciBench thus establishes a comprehensive and solid benchmark for assessing and driving improvements in the scientific reasoning capabilities of LLMs within the materials science domain.
- Abstract(参考訳): 大規模言語モデル(LLM)は、科学的推論において顕著な能力を示してきたが、材料科学における推論能力は未解明のままである。
このギャップを埋めるために、材料科学の必須分野にまたがる1,340の問題を総合的な大学レベルのベンチマークであるMatSciBenchを紹介する。
MatSciBenchは、物質科学の問題を6つの一次分野と31の亜分野に分類する構造的できめ細かな分類を特徴としている。
MatSciBenchは、正確なエラー解析を可能にする詳細な参照ソリューションを提供し、多くの質問における視覚的コンテキストによるマルチモーダル推論を取り入れている。
最も優れたモデルであるGemini-2.5-Proでさえ、大学レベルの材料科学の疑問に対して80%以下の精度で達成し、MatSciBenchの複雑さを強調している。
我々の体系的な分析では、異なる推論戦略、基本的連鎖、ツール強化、自己補正--は、すべてのシナリオで一貫した1つの方法が排他的ではないことを証明している。
さらに、難易度による性能解析、効率と精度のトレードオフの検証、マルチモーダル推論タスクに固有の課題の強調、LCM間の障害モードの分析、および検索強化生成の影響の評価を行う。
そこで、MatSciBenchは、材料科学領域内のLLMの科学的推論能力の改善を評価し、推進するための包括的で堅固なベンチマークを確立した。
関連論文リスト
- HiSciBench: A Hierarchical Multi-disciplinary Benchmark for Scientific Intelligence from Reading to Discovery [50.8841471967624]
HiSciBenchは、完全な科学的ワークフローを反映した5つのレベルにわたる基礎モデルを評価するために設計された階層的なベンチマークである。
HiSciBenchには、6つの主要な科学分野にまたがる8,735件の慎重に管理された事例が含まれている。
論文 参考訳(メタデータ) (2025-12-28T12:08:05Z) - Multi-Physics: A Comprehensive Benchmark for Multimodal LLMs Reasoning on Chinese Multi-Subject Physics Problems [15.023749693065406]
我々は,5つの難易度を含む総合的なベンチマークである,中国の物理推論のためのマルチ物理について紹介する。
我々は20種類のMLLMの評価に2つの評価フレームワークを使用し、最終回答精度とステップ・バイ・ステップの整合性の両方を分析した。
論文 参考訳(メタデータ) (2025-09-19T10:18:48Z) - MDK12-Bench: A Comprehensive Evaluation of Multimodal Large Language Models on Multidisciplinary Exams [50.293164501645975]
MLLM(Multimodal large language model)は、言語と視覚を統合して問題解決を行う。
MLLMのインテリジェンスを測定するための現在のベンチマークは、限られた規模、狭い範囲、構造化されていない知識に悩まされている。
MDK12-Benchは、6つの分野にまたがる実世界のK-12試験から構築された大規模マルチディシプリナベンチマークである。
論文 参考訳(メタデータ) (2025-08-09T06:21:10Z) - PhysUniBench: An Undergraduate-Level Physics Reasoning Benchmark for Multimodal Models [69.73115077227969]
大規模言語モデル(MLLM)の推論能力の評価と改善を目的とした大規模ベンチマークであるPhysUniBenchを提案する。
PhysUniBenchは、3,304の物理問題から成っている。
ベンチマークの構成には、複数のロールアウト、専門家レベルの評価、解決が容易な問題の自動フィルタリング、そして5段階の難易度グレーディングシステムを含む、厳格な多段階プロセスが含まれていた。
論文 参考訳(メタデータ) (2025-06-21T09:55:42Z) - R-Bench: Graduate-level Multi-disciplinary Benchmarks for LLM & MLLM Complex Reasoning Evaluation [75.33671166231096]
我々は、Reasoning Bench(R-Bench)と呼ばれる、大学院レベルの多学派、英語の中国語ベンチマークを導入する。
RBenchは108の被験者に1,094の質問を、83の被験者に665の質問を、マルチモーダルなモデルテストに当てはめている。
我々は,OpenAI o1,GPT-4o,DeepSeek-R1など,広く使用されているモデルを評価した。
論文 参考訳(メタデータ) (2025-05-04T07:48:36Z) - Challenging the Boundaries of Reasoning: An Olympiad-Level Math Benchmark for Large Language Models [86.45058529521258]
OlymMATHは、LLMの複雑な推論能力を厳格にテストするために設計された、Olympiadレベルの新しい数学ベンチマークである。
OlymMATHは200の厳密にキュレートされた問題があり、それぞれが手動で検証され、英語と中国語の並行バージョンで利用可能である。
論文 参考訳(メタデータ) (2025-03-27T11:20:17Z) - Evaluating the Performance and Robustness of LLMs in Materials Science Q&A and Property Predictions [1.2696732407979383]
大規模言語モデル(LLM)は科学的研究に革命をもたらす可能性があるが、ドメイン固有のアプリケーションにおける堅牢性と信頼性はいまだ不十分である。
本研究は, ドメイン固有の質問応答と, 多様な実世界および敵対的状況における材料特性の予測に焦点を当てた。
論文 参考訳(メタデータ) (2024-09-22T19:31:16Z) - VisScience: An Extensive Benchmark for Evaluating K12 Educational Multi-modal Scientific Reasoning [20.56989082014445]
MLLM(Multi-modal large language model)は、様々なタスクにまたがる有望な機能を示す。
本稿では,25種の代表的MLLMの科学的推論における性能について詳細に評価する。
最も優れた性能は、クロード3.5-ソネットによる数学の53.4%の精度、GPT-4oによる物理学の38.2%、ジェミニ1.5-Proによる化学の47.0%である。
論文 参考訳(メタデータ) (2024-09-10T01:20:26Z) - MaScQA: A Question Answering Dataset for Investigating Materials Science
Knowledge of Large Language Models [29.70397245624547]
この研究は、材料学生の知識とスキルを必要とする材料領域から、650の挑戦的な質問のデータセットをキュレートする。
GPT-4はGPT-3.5と比較して最高の性能(62%の精度)を示した。
論文 参考訳(メタデータ) (2023-08-17T17:51:05Z) - SciBench: Evaluating College-Level Scientific Problem-Solving Abilities of Large Language Models [70.5763210869525]
拡張ベンチマークスイートSciBench for Large Language Model (LLM)を導入する。
SciBenchには、数学、化学、物理学の分野から、さまざまな大学レベルの科学的問題を含むデータセットが含まれている。
その結果、現在のLLMは満足のいく性能を達成できないことが判明し、全体のスコアは43.22%に過ぎなかった。
論文 参考訳(メタデータ) (2023-07-20T07:01:57Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。