Fugu-MT 論文翻訳(概要): MaScQA: A Question Answering Dataset for Investigating Materials Science Knowledge of Large Language Models

論文の概要: MaScQA: A Question Answering Dataset for Investigating Materials Science Knowledge of Large Language Models

arxiv url: http://arxiv.org/abs/2308.09115v1
Date: Thu, 17 Aug 2023 17:51:05 GMT
ステータス: 翻訳完了
システム内更新日: 2023-08-21 15:46:08.557392
Title: MaScQA: A Question Answering Dataset for Investigating Materials Science Knowledge of Large Language Models
Title（参考訳）: MaScQA:大規模言語モデルの材料科学知識調査のための質問応答データセット
Authors: Mohd Zaki, Jayadeva, Mausam, N. M. Anoop Krishnan
Abstract要約: この研究は、材料学生の知識とスキルを必要とする材料領域から、650の挑戦的な質問のデータセットをキュレートする。 GPT-4はGPT-3.5と比較して最高の性能(62%の精度)を示した。
参考スコア（独自算出の注目度）: 29.70397245624547
License: http://creativecommons.org/licenses/by-nc-nd/4.0/
Abstract: Information extraction and textual comprehension from materials literature are vital for developing an exhaustive knowledge base that enables accelerated materials discovery. Language models have demonstrated their capability to answer domain-specific questions and retrieve information from knowledge bases. However, there are no benchmark datasets in the materials domain that can evaluate the understanding of the key concepts by these language models. In this work, we curate a dataset of 650 challenging questions from the materials domain that require the knowledge and skills of a materials student who has cleared their undergraduate degree. We classify these questions based on their structure and the materials science domain-based subcategories. Further, we evaluate the performance of GPT-3.5 and GPT-4 models on solving these questions via zero-shot and chain of thought prompting. It is observed that GPT-4 gives the best performance (~62% accuracy) as compared to GPT-3.5. Interestingly, in contrast to the general observation, no significant improvement in accuracy is observed with the chain of thought prompting. To evaluate the limitations, we performed an error analysis, which revealed conceptual errors (~64%) as the major contributor compared to computational errors (~36%) towards the reduced performance of LLMs. We hope that the dataset and analysis performed in this work will promote further research in developing better materials science domain-specific LLMs and strategies for information extraction.
Abstract（参考訳）: 資料発見を高速化する徹底的な知識基盤の構築には,資料文献からの情報抽出とテキスト理解が不可欠である。言語モデルは、ドメイン固有の質問に答え、知識ベースから情報を取得する能力を示した。しかし、これらの言語モデルによる重要な概念の理解を評価することのできるベンチマークデータセットは、材料領域には存在しない。そこで本研究では,材料領域からの課題650項目のデータセットを収集し,学部を修了した教材学生の知識と技能を必要とする。我々はこれらの質問を,その構造と材料科学領域に基づくサブカテゴリに基づいて分類する。さらに,gpt-3.5とgpt-4モデルの性能をゼロショットと思考プロンプトの連鎖によって評価した。 GPT-4はGPT-3.5と比較して最高の性能(約62%の精度)を示す。興味深いことに、一般的な観察とは対照的に、思考の連鎖によって精度が著しく向上することはない。この限界を評価するために,llmの性能低下に対する計算誤差 (~36%) に対して,概念的エラー (~64%) を主要な貢献者とした誤差解析を行った。本研究で行ったデータセットと分析により,より優れた材料科学分野固有のLCMと情報抽出戦略の開発が促進されることを期待する。

関連論文リスト

Evaluating Multi-Hop Reasoning in Large Language Models: A Chemistry-Centric Case Study [0.9424565541639368]
化学領域における大規模言語モデルの構成的推論能力を評価するために,キュレートされたデータセットと定義された評価プロセスからなる新しいベンチマークを導入する。我々の手法はOpenAI推論モデルと名前付きエンティティ認識(NER)システムを統合し、最近の文献から化学物質を抽出し、外部知識ベースで拡張して知識グラフを形成する。実験により, 最先端モデルでさえ, マルチホップ構成推論において重要な課題に直面していることが明らかとなった。
論文参考訳（メタデータ） (2025-04-23T04:36:19Z)
From Text to Insight: Large Language Models for Materials Science Data Extraction [4.08853418443192]
科学知識の大部分は、構造化されていない自然言語に存在する。構造化データは革新的で体系的な材料設計に不可欠である。大きな言語モデル(LLM)の出現は、大きな変化を示している。
論文参考訳（メタデータ） (2024-07-23T22:23:47Z)
MMSci: A Dataset for Graduate-Level Multi-Discipline Multimodal Scientific Understanding [59.41495657570397]
本稿では,72の科学分野をカバーするNature Communicationsの記事からまとめられた包括的データセットについて述べる。 2つのベンチマークタスク(図のキャプションと複数選択)で19のプロプライエタリモデルとオープンソースモデルを評価し,人手による注釈を行った。タスク固有データを用いた細調整Qwen2-VL-7Bは、GPT-4oや人間の専門家でさえも、マルチチョイス評価において優れた性能を示した。
論文参考訳（メタデータ） (2024-07-06T00:40:53Z)
SciRIFF: A Resource to Enhance Language Model Instruction-Following over Scientific Literature [80.49349719239584]
SciRIFF(Scientific Resource for Instruction-Following and Finetuning, SciRIFF)は、54のタスクに対して137Kの命令追従デモのデータセットである。 SciRIFFは、幅広い科学分野の研究文献から情報を抽出し、合成することに焦点を当てた最初のデータセットである。
論文参考訳（メタデータ） (2024-06-10T21:22:08Z)
Exploring the Potential of the Large Language Models (LLMs) in Identifying Misleading News Headlines [2.0330684186105805]
本研究では、誤解を招くニュースの見出しと誤解を招くニュースの見出しを識別する上で、LLM(Large Language Models)の有効性について検討する。解析の結果,ChatGPT-4の精度は良好であった。
論文参考訳（メタデータ） (2024-05-06T04:06:45Z)
Are LLMs Capable of Data-based Statistical and Causal Reasoning? Benchmarking Advanced Quantitative Reasoning with Data [89.2410799619405]
実世界のデータを用いた統計的および因果推論において,大規模言語モデルの能力を評価するために,データベンチマークを用いた定量的推論を導入する。このベンチマークは、教科書、オンライン学習教材、学術論文のデータシートを伴う411の質問のデータセットで構成されている。データとテキストに対するモデルの量的推論能力を比較するために、ベンチマークを290のテキストのみの質問、すなわちQRTextで強化する。
論文参考訳（メタデータ） (2024-02-27T16:15:03Z)
Mining experimental data from Materials Science literature with Large Language Models: an evaluation study [1.9849264945671101]
本研究は,大規模言語モデル (LLM) の教材科学における科学的資料から構造化情報を抽出する能力を評価することを目的としている。我々は,情報抽出における2つの重要な課題に焦点をあてる: (i) 研究材料と物性の名前を付けたエンティティ認識(NER) と, (ii) それらのエンティティ間の関係抽出(RE) である。これらのタスクの実行におけるLCMの性能は、BERTアーキテクチャとルールベースのアプローチ(ベースライン)に基づいて従来のモデルと比較される。
論文参考訳（メタデータ） (2024-01-19T23:00:31Z)
DIVKNOWQA: Assessing the Reasoning Ability of LLMs via Open-Domain Question Answering over Knowledge Base and Text [73.68051228972024]
大きな言語モデル(LLM)は印象的な生成能力を示すが、内部知識に依存すると幻覚に悩まされる。検索拡張LDMは、外部知識においてLLMを基盤とする潜在的な解決策として出現している。
論文参考訳（メタデータ） (2023-10-31T04:37:57Z)
Knowledge Graph Question Answering for Materials Science (KGQA4MAT): Developing Natural Language Interface for Metal-Organic Frameworks Knowledge Graph (MOF-KG) Using LLM [35.208135795371795]
材料科学における知識グラフ質問回答のためのベンチマークデータセット(KGQA4MAT)を提案する。構造データベースと文献から抽出した知識を統合することにより,金属-有機フレームワーク(MOF-KG)の知識グラフを構築した。我々は、比較、集約、複雑なグラフ構造を含む161の複雑な質問からなるベンチマークを開発した。
論文参考訳（メタデータ） (2023-09-20T14:43:43Z)
Knowledge-Augmented Reasoning Distillation for Small Language Models in Knowledge-Intensive Tasks [90.11273439036455]
大規模言語モデル(LLM)は知識集約推論タスクにおいて有望なパフォーマンスを示している。外部知識ベースから得られた知識を付加したLPMから理性を生成するための,小型LMを微調整する新しい手法であるKARDを提案する。我々は,KARDが知識集約型推論データセットにおいて,小さなT5モデルとGPTモデルの性能を著しく向上させることを示す。
論文参考訳（メタデータ） (2023-05-28T13:00:00Z)
LLMs for Knowledge Graph Construction and Reasoning: Recent Capabilities and Future Opportunities [66.36633042421387]
知識グラフ(KG)の構築と推論のための大規模言語モデル(LLM)の評価。我々は,LLMと外部ソースを用いたマルチエージェントベースのアプローチであるAutoKGを提案し,KGの構築と推論を行う。
論文参考訳（メタデータ） (2023-05-22T15:56:44Z)
An Empirical Investigation of Commonsense Self-Supervision with Knowledge Graphs [67.23285413610243]
大規模知識グラフから抽出した情報に基づく自己監督は、言語モデルの一般化を改善することが示されている。本研究では,言語モデルに適用可能な合成データを生成するための知識サンプリング戦略とサイズの影響について検討する。
論文参考訳（メタデータ） (2022-05-21T19:49:04Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。