論文の概要: Benchmarking large language models for materials synthesis: the case of atomic layer deposition
- arxiv url: http://arxiv.org/abs/2412.10477v1
- Date: Fri, 13 Dec 2024 05:10:29 GMT
- ステータス: 翻訳完了
- システム内更新日: 2024-12-17 13:59:23.393738
- Title: Benchmarking large language models for materials synthesis: the case of atomic layer deposition
- Title(参考訳): 材料合成のための大規模言語モデルのベンチマーク:原子層堆積の場合
- Authors: Angel Yanguas-Gil, Matthew T. Dearing, Jeffrey W. Elam, Jessica C. Jones, Sungjoon Kim, Adnan Mohammad, Chi Thang Nguyen, Bratin Sengupta,
- Abstract要約: 材料合成における大規模言語モデル(LLM)の性能を評価するために,オープンな質問ベンチマークであるALDbenchを導入する。
我々のベンチマークは、大学院レベルから分野の最先端のドメインエキスパートまで、難易度の高い質問で構成されています。
- 参考スコア(独自算出の注目度): 0.07528462379265576
- License:
- Abstract: In this work we introduce an open-ended question benchmark, ALDbench, to evaluate the performance of large language models (LLMs) in materials synthesis, and in particular in the field of atomic layer deposition, a thin film growth technique used in energy applications and microelectronics. Our benchmark comprises questions with a level of difficulty ranging from graduate level to domain expert current with the state of the art in the field. Human experts reviewed the questions along the criteria of difficulty and specificity, and the model responses along four different criteria: overall quality, specificity, relevance, and accuracy. We ran this benchmark on an instance of OpenAI's GPT-4o. The responses from the model received a composite quality score of 3.7 on a 1 to 5 scale, consistent with a passing grade. However, 36% of the questions received at least one below average score. An in-depth analysis of the responses identified at least five instances of suspected hallucination. Finally, we observed statistically significant correlations between the difficulty of the question and the quality of the response, the difficulty of the question and the relevance of the response, and the specificity of the question and the accuracy of the response as graded by the human experts. This emphasizes the need to evaluate LLMs across multiple criteria beyond difficulty or accuracy.
- Abstract(参考訳): 本研究では, 材料合成における大規模言語モデル (LLM) の性能を評価するために, ALDbench というオープンエンド質問ベンチマークを導入する。
我々のベンチマークは、大学院レベルから専門分野の最先端の領域エキスパートまで、難易度の高い質問から成り立っている。
人間の専門家は、難易度と特異性の基準に沿った質問と、全体的な品質、特異性、関連性、正確性という4つの異なる基準に沿ったモデル応答をレビューした。
私たちはこのベンチマークをOpenAIのGPT-4oのインスタンス上で実行しました。
モデルからの応答は1から5のスケールで3.7の複合品質スコアを受け取り、通過グレードと一致した。
しかし、質問の36%は、平均よりも少なくとも1つ低いスコアを受け取った。
反応の詳細な分析により、少なくとも5例の幻覚が疑われた。
最後に,質問の難易度と回答の質,質問の難易度と回答の関連度,質問の特異度と回答の正確度との間に有意な相関が認められた。
これは、難易度や精度を超えた複数の基準でLSMを評価する必要性を強調している。
関連論文リスト
- "Did my figure do justice to the answer?" : Towards Multimodal Short Answer Grading with Feedback (MMSAF) [36.74896284581596]
フィードバック問題を考慮したマルチモーダルショート・アンサー・グラディングと2197データポイントのデータセットを提案する。
このデータセットに対する既存のLarge Language Models (LLMs) の評価は, 精度を55%向上した。
人間の専門家によれば、ピクサールは人間の判断と生物学の価値観、物理学と化学のChatGPTにもっと順応していた。
論文 参考訳(メタデータ) (2024-12-27T17:33:39Z) - Compound-QA: A Benchmark for Evaluating LLMs on Compound Questions [10.783827859678892]
本稿では、複合質問合成(CQ-Syn)を導入し、複合QAベンチマークを作成する。
このベンチマークは、プロプライエタリな大規模言語モデルにアノテートされた既存のQAデータセットに由来する。
LLM能力は、理解、推論、知識を含む3次元の観点で評価する。
論文 参考訳(メタデータ) (2024-11-15T13:12:29Z) - AHP-Powered LLM Reasoning for Multi-Criteria Evaluation of Open-Ended Responses [26.850344968677582]
本研究では,大規模言語モデルを用いたオープンエンド質問に対する回答評価手法を提案する。
また,ChatGPT-3.5-turbo と GPT-4 の2つのデータセットについて実験を行った。
以上の結果から,本研究のアプローチは4つの基準線よりも人間の判断と密接に一致していることが示唆された。
論文 参考訳(メタデータ) (2024-10-02T05:22:07Z) - ScholarChemQA: Unveiling the Power of Language Models in Chemical Research Question Answering [54.80411755871931]
質問回答(QA)は、言語モデルの推論と知識の深さを効果的に評価する。
化学QAは、複雑な化学情報を理解しやすい形式に効果的に翻訳することで、教育と研究の両方において重要な役割を担っている。
このデータセットは、不均衡なデータ分散や、潜在的に有用である可能性のあるかなりの量の未ラベルデータを含む、典型的な現実世界の課題を反映している。
収集したデータを完全に活用して,化学的な問題に効果的に答えるQAMatchモデルを提案する。
論文 参考訳(メタデータ) (2024-07-24T01:46:55Z) - Analyzing Human Questioning Behavior and Causal Curiosity through Natural Queries [91.70689724416698]
NatQuest(ナットクエスト)は、3つの異なるソースから自然発生の質問13,500件のコレクションである。
分析の結果,データセット内には因果的疑問(最大42%)が有意な存在であることが判明した。
論文 参考訳(メタデータ) (2024-05-30T17:55:28Z) - Qsnail: A Questionnaire Dataset for Sequential Question Generation [76.616068047362]
質問紙作成作業に特化して構築された最初のデータセットについて述べる。
我々はQsnailの実験を行い、その結果、検索モデルと従来の生成モデルが与えられた研究トピックや意図と完全に一致していないことが明らかとなった。
チェーン・オブ・シークレット・プロンプトと微調整による改善にもかかわらず、言語モデルによるアンケートは、人間の手書きのアンケートには及ばない。
論文 参考訳(メタデータ) (2024-02-22T04:14:10Z) - SceMQA: A Scientific College Entrance Level Multimodal Question
Answering Benchmark [42.91902601376494]
本稿では,SceMQAについて紹介する。SceMQAは,大学入学レベルでの科学的マルチモーダル質問応答のための新しいベンチマークである。
SceMQAは数学、物理学、化学、生物学などの中核的な科学分野に焦点を当てている。
複数選択と自由応答の混在を特徴とし、AIモデルの能力を総合的に評価する。
論文 参考訳(メタデータ) (2024-02-06T19:16:55Z) - ExpertQA: Expert-Curated Questions and Attributed Answers [51.68314045809179]
我々は,様々な属性と事実の軸に沿って,いくつかの代表システムからの応答を人為的に評価する。
我々は32分野にわたる484人の被験者から専門家による質問を収集し、同じ専門家に自身の質問に対する反応を評価する。
分析の結果は,32分野にまたがる2177の質問と,回答の検証とクレームの属性を備えた高品質な長文QAデータセットであるExpertQAである。
論文 参考訳(メタデータ) (2023-09-14T16:54:34Z) - An Empirical Comparison of LM-based Question and Answer Generation
Methods [79.31199020420827]
質問と回答の生成(QAG)は、コンテキストが与えられた質問と回答のペアのセットを生成することで構成される。
本稿では,シーケンス・ツー・シーケンス言語モデル(LM)を微調整する3つの異なるQAG手法を用いて,ベースラインを確立する。
実験により、学習時間と推論時間の両方で計算的に軽量なエンドツーエンドQAGモデルが一般に堅牢であり、他のより複雑なアプローチよりも優れていることが示された。
論文 参考訳(メタデータ) (2023-05-26T14:59:53Z) - Improving Visual Question Answering Models through Robustness Analysis
and In-Context Learning with a Chain of Basic Questions [70.70725223310401]
本研究は,VQAモデルのロバスト性を評価するために,基本質問と呼ばれる意味的関連質問を利用する新しい手法を提案する。
実験により,提案手法はVQAモデルのロバスト性を効果的に解析することを示した。
論文 参考訳(メタデータ) (2023-04-06T15:32:35Z) - Challenges in Generalization in Open Domain Question Answering [16.63912089965166]
我々は,異なるレベルと種類の一般化を測る3つのカテゴリに従って,質問を導入し,注釈する。
主な課題は、検索コンポーネントからの誤りのカスケード、質問パターンの頻度、エンティティの頻度である。
論文 参考訳(メタデータ) (2021-09-02T18:04:10Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。