論文の概要: MSQA: Benchmarking LLMs on Graduate-Level Materials Science Reasoning and Knowledge
- arxiv url: http://arxiv.org/abs/2505.23982v1
- Date: Thu, 29 May 2025 20:22:57 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-06-02 19:47:52.653785
- Title: MSQA: Benchmarking LLMs on Graduate-Level Materials Science Reasoning and Knowledge
- Title(参考訳): MSQA:LLMs on Graduate-Level Materials Science Reasoning and Knowledge
- Authors: Jerry Junyang Cheung, Shiyao Shen, Yuchen Zhuang, Yinghao Li, Rampi Ramprasad, Chao Zhang,
- Abstract要約: 我々は1,757人の大学院レベルの材料科学質問に対する総合的な評価ベンチマークであるMSQAを紹介する。
MSQAは、正確な事実知識と多段階推論の両方を必要とすることで、大きな言語モデル(LLM)に挑戦する。
- 参考スコア(独自算出の注目度): 11.472720421988184
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Despite recent advances in large language models (LLMs) for materials science, there is a lack of benchmarks for evaluating their domain-specific knowledge and complex reasoning abilities. To bridge this gap, we introduce MSQA, a comprehensive evaluation benchmark of 1,757 graduate-level materials science questions in two formats: detailed explanatory responses and binary True/False assessments. MSQA distinctively challenges LLMs by requiring both precise factual knowledge and multi-step reasoning across seven materials science sub-fields, such as structure-property relationships, synthesis processes, and computational modeling. Through experiments with 10 state-of-the-art LLMs, we identify significant gaps in current LLM performance. While API-based proprietary LLMs achieve up to 84.5% accuracy, open-source (OSS) LLMs peak around 60.5%, and domain-specific LLMs often underperform significantly due to overfitting and distributional shifts. MSQA represents the first benchmark to jointly evaluate the factual and reasoning capabilities of LLMs crucial for LLMs in advanced materials science.
- Abstract(参考訳): 材料科学における大規模言語モデル(LLM)の最近の進歩にもかかわらず、それらのドメイン固有の知識と複雑な推論能力を評価するためのベンチマークが不足している。
このギャップを埋めるために、我々は1,757人の大学院レベルの材料科学の質問に対する総合的な評価ベンチマークであるMSQAを紹介した。
MSQAは、構造-プロパティ関係、合成プロセス、計算モデリングなど、7つの科学分野にまたがる、正確な事実知識と多段階推論の両方を必要とすることで、LCMに挑戦する。
現状の10個のLLMを用いた実験により,現在のLLM性能に有意な差が認められた。
APIベースのプロプライエタリなLLMは84.5%の精度で達成されているが、オープンソース(OSS)のLLMは60.5%のピークに達し、ドメイン固有のLLMは過度な適合と分散シフトのために著しく性能が低下することが多い。
MSQAは、先進的な材料科学においてLLMに不可欠なLCMの事実と推論能力を共同で評価する最初のベンチマークである。
関連論文リスト
- An Empirical Study of Many-to-Many Summarization with Large Language Models [82.10000188179168]
大規模言語モデル(LLM)は強い多言語能力を示しており、実アプリケーションでM2MS(Multi-to-Many summarization)を実行する可能性を秘めている。
本研究は,LLMのM2MS能力に関する系統的研究である。
論文 参考訳(メタデータ) (2025-05-19T11:18:54Z) - Understanding the Role of LLMs in Multimodal Evaluation Benchmarks [77.59035801244278]
本稿では,MLLM評価におけるLarge Language Model (LLM)バックボーンの役割について検討する。
本研究は4つのMLLMベンチマークと8つの最先端MLLMベンチマークを含む。
鍵となる発見は、いくつかのベンチマークでは視覚的な入力がなくても高いパフォーマンスを実現しており、最大50%のエラーレートは、LLMバックボーンにおける不十分な世界的知識に起因していることを示している。
論文 参考訳(メタデータ) (2024-10-16T07:49:13Z) - Benchmarking LLMs via Uncertainty Quantification [91.72588235407379]
オープンソースのLarge Language Models(LLM)の普及は、包括的な評価方法の緊急の必要性を強調している。
我々は不確実性定量化を統合した LLM のための新しいベンチマーク手法を提案する。
以上の結果より, 精度の高いLSMでは, 精度が低下する可能性があり, II) より大規模なLSMでは, より小型のLSMに比べて不確実性が高いこと, III) 命令ファインタニングではLCMの不確実性が高くなる傾向が示唆された。
論文 参考訳(メタデータ) (2024-01-23T14:29:17Z) - ArcMMLU: A Library and Information Science Benchmark for Large Language
Models [25.36473762494066]
本稿では,中国語のライブラリ・アンド・インフォメーション・サイエンス(LIS)ドメインに適したベンチマークであるArcMMLUを紹介する。
このベンチマークは、考古学、データ科学、図書館科学、情報科学の4つの重要なサブドメインにおいて、LLMの知識と推論能力を測定することを目的としている。
総合評価の結果,ほとんどのLLMはArcMMLUで50%以上の精度を達成するが,性能差は顕著であることがわかった。
論文 参考訳(メタデータ) (2023-11-30T16:08:04Z) - Survey on Factuality in Large Language Models: Knowledge, Retrieval and
Domain-Specificity [61.54815512469125]
本調査は,大規模言語モデル(LLM)における事実性の重要課題に対処する。
LLMが様々な領域にまたがる応用を見出すにつれ、その出力の信頼性と正確性は重要となる。
論文 参考訳(メタデータ) (2023-10-11T14:18:03Z) - Through the Lens of Core Competency: Survey on Evaluation of Large
Language Models [27.271533306818732]
大規模言語モデル(LLM)は優れた性能と幅広い実用性を持っている。
既存の評価タスクは、現実世界のシナリオにおける幅広いアプリケーションに追いつくのは難しい。
LLMの4つのコア能力は、推論、知識、信頼性、安全性などである。
この能力アーキテクチャの下では、類似したタスクを組み合わせて対応する能力を反映し、新しいタスクをシステムに簡単に追加することができる。
論文 参考訳(メタデータ) (2023-08-15T17:40:34Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。