論文の概要: MatTools: Benchmarking Large Language Models for Materials Science Tools
- arxiv url: http://arxiv.org/abs/2505.10852v1
- Date: Fri, 16 May 2025 04:43:05 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-05-19 14:36:14.073084
- Title: MatTools: Benchmarking Large Language Models for Materials Science Tools
- Title(参考訳): MatTools: 材料科学ツールのための大規模言語モデルのベンチマーク
- Authors: Siyu Liu, Jiamin Xu, Beilin Ye, Bo Hu, David J. Srolovitz, Tongqi Wen,
- Abstract要約: MatToolsは2つの補完的なコンポーネントの上に構築されている。材料シミュレーションツールのQAベンチマークと、現実世界のツール使用ベンチマークだ。
QAベンチマークは69, QA225ペアで構成され、LLMが材料科学ツールを理解する能力を評価する。
実世界のベンチマークには49のタスク(138のサブタスク)が含まれており、材料プロパティの計算に機能的なPythonコードを生成する必要がある。
- 参考スコア(独自算出の注目度): 5.876786336423598
- License: http://creativecommons.org/licenses/by-nc-sa/4.0/
- Abstract: Large language models (LLMs) are increasingly applied to materials science questions, including literature comprehension, property prediction, materials discovery and alloy design. At the same time, a wide range of physics-based computational approaches have been developed in which materials properties can be calculated. Here, we propose a benchmark application to evaluate the proficiency of LLMs to answer materials science questions through the generation and safe execution of codes based on such physics-based computational materials science packages. MatTools is built on two complementary components: a materials simulation tool question-answer (QA) benchmark and a real-world tool-usage benchmark. We designed an automated methodology to efficiently collect real-world materials science tool-use examples. The QA benchmark, derived from the pymatgen (Python Materials Genomics) codebase and documentation, comprises 69,225 QA pairs that assess the ability of an LLM to understand materials science tools. The real-world benchmark contains 49 tasks (138 subtasks) requiring the generation of functional Python code for materials property calculations. Our evaluation of diverse LLMs yields three key insights: (1)Generalists outshine specialists;(2)AI knows AI; and (3)Simpler is better. MatTools provides a standardized framework for assessing and improving LLM capabilities for materials science tool applications, facilitating the development of more effective AI systems for materials science and general scientific research.
- Abstract(参考訳): 大規模言語モデル(LLM)は、文献理解、資産予測、材料発見、合金設計など、材料科学の課題にますます応用されている。
同時に、材料特性を計算できる物理学に基づく幅広い計算手法が開発されている。
本稿では,このような物理計算材料科学パッケージをベースとしたコードの生成と安全な実行を通じて,LLMの正確性を評価するためのベンチマークアプリケーションを提案する。
MatToolsは、材料シミュレーションツールQA(QA)ベンチマークと現実世界のツール使用ベンチマークという、2つの補完的なコンポーネント上に構築されている。
我々は,現実の材料科学ツールの例を効率的に収集する自動化手法を考案した。
pymatgen(Python Materials Genomics)のコードベースとドキュメントから派生したQAベンチマークは69,225のQAペアで構成されており、LCMが材料科学ツールを理解する能力を評価する。
実世界のベンチマークには49のタスク(138のサブタスク)が含まれており、材料プロパティの計算に機能的なPythonコードを生成する必要がある。
多様なLSMを評価した結果,(1)一般学者の卓越したスペシャリスト,(2)AIはAIを知っており,(3)Simplerの方が優れている,という3つの重要な知見が得られた。
MatToolsは、材料科学ツールアプリケーションのためのLCM機能の評価と改善のための標準化されたフレームワークを提供し、材料科学と一般的な科学研究のためのより効果的なAIシステムの開発を容易にする。
関連論文リスト
- DARWIN 1.5: Large Language Models as Materials Science Adapted Learners [46.7259033847682]
DARWIN 1.5は,材料科学に適したオープンソースの大規模言語モデルである。
DARWINはタスク固有の記述子の必要性を排除し、材料特性の予測と発見に対する柔軟な統一的なアプローチを可能にする。
提案手法は,6Mの物質ドメイン論文と49,256の物質から得られた21の実験データセットを統合し,タスク間の知識伝達を可能にする。
論文 参考訳(メタデータ) (2024-12-16T16:51:27Z) - HoneyComb: A Flexible LLM-Based Agent System for Materials Science [31.173615509567885]
HoneyCombは材料科学に特化した最初の大規模言語モデルシステムである。
MatSciKBは、信頼できる文献に基づいた、キュレートされた構造化された知識収集である。
ToolHubはインダクティブツール構築法を使用して、材料科学のためのAPIツールを生成し、分解し、洗練する。
論文 参考訳(メタデータ) (2024-08-29T15:38:40Z) - MMSci: A Dataset for Graduate-Level Multi-Discipline Multimodal Scientific Understanding [59.41495657570397]
本稿では,72の科学分野をカバーするNature Communicationsの記事からまとめられた包括的データセットについて述べる。
2つのベンチマークタスク(図のキャプションと複数選択)で19のプロプライエタリモデルとオープンソースモデルを評価し,人手による注釈を行った。
タスク固有データを用いた細調整Qwen2-VL-7Bは、GPT-4oや人間の専門家でさえも、マルチチョイス評価において優れた性能を示した。
論文 参考訳(メタデータ) (2024-07-06T00:40:53Z) - LLMatDesign: Autonomous Materials Discovery with Large Language Models [5.481299708562135]
新しい材料は科学的、技術的に重要な意味を持つ。
機械学習の最近の進歩により、データ駆動の手法により、有望な材料を素早くスクリーニングしたり、生成したりすることが可能になった。
LLMatDesignは,大規模言語モデルを用いた材料設計のための新しいフレームワークである。
論文 参考訳(メタデータ) (2024-06-19T02:35:02Z) - What Are Tools Anyway? A Survey from the Language Model Perspective [67.18843218893416]
言語モデル(LM)は強力だが、主にテキスト生成タスクに向いている。
LMが使用する外部プログラムとしてツールを統一的に定義する。
各種ツールの効率を実証的に検討した。
論文 参考訳(メタデータ) (2024-03-18T17:20:07Z) - Are LLMs Ready for Real-World Materials Discovery? [10.87312197950899]
大規模言語モデル(LLM)は、材料科学の研究を加速する強力な言語処理ツールのエキサイティングな可能性を生み出します。
LLMは、物質理解と発見を加速する大きな可能性を秘めているが、現在は実用的な材料科学ツールとして不足している。
材料科学におけるLLMの失敗事例として,複雑で相互接続された材料科学知識の理解と推論に関連するLCMの現在の限界を明らかにする。
論文 参考訳(メタデータ) (2024-02-07T19:10:36Z) - Agent-based Learning of Materials Datasets from Scientific Literature [0.0]
我々は,大規模言語モデル(LLM)を利用した化学AIエージェントを開発し,自然言語テキストから構造化データセットを作成する。
化学者のAIエージェントであるEunomiaは、何十年もの科学研究論文から既存の知識を活用して、行動を計画し実行することができる。
論文 参考訳(メタデータ) (2023-12-18T20:29:58Z) - CREATOR: Tool Creation for Disentangling Abstract and Concrete Reasoning of Large Language Models [74.22729793816451]
大規模言語モデル(LLM)はツールの利用において大きな進歩を遂げているが、その能力はAPIの可用性によって制限されている。
我々は、LCMがドキュメンテーションとコード実現を使って独自のツールを作成できる新しいフレームワークCREATORを提案する。
我々は,MATH と TabMWP のベンチマークで CREATOR を評価する。
論文 参考訳(メタデータ) (2023-05-23T17:51:52Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。