論文の概要: SciKnowEval: Evaluating Multi-level Scientific Knowledge of Large Language Models
- arxiv url: http://arxiv.org/abs/2406.09098v1
- Date: Thu, 13 Jun 2024 13:27:52 GMT
- ステータス: 処理完了
- システム内更新日: 2024-06-14 17:54:00.175148
- Title: SciKnowEval: Evaluating Multi-level Scientific Knowledge of Large Language Models
- Title(参考訳): SciKnowEval:大規模言語モデルの多段階科学的知識の評価
- Authors: Kehua Feng, Keyan Ding, Weijie Wang, Xiang Zhuang, Zeyuan Wang, Ming Qin, Yu Zhao, Jianhua Yao, Qiang Zhang, Huajun Chen,
- Abstract要約: SciKnowEvalは5つの進歩的な科学的知識のレベルにわたって大規模言語モデル(LLM)を評価するフレームワークである。
ゼロショットと少数ショットのプロンプト戦略を用いて、20のオープンソースおよびプロプライエタリなLCMをベンチマークする。
その結果、最先端性能を達成しているにもかかわらず、プロプライエタリなLLMには改善の余地があることが判明した。
- 参考スコア(独自算出の注目度): 35.98892300665275
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: The burgeoning utilization of Large Language Models (LLMs) in scientific research necessitates advanced benchmarks capable of evaluating their understanding and application of scientific knowledge comprehensively. To address this need, we introduce the SciKnowEval benchmark, a novel framework that systematically evaluates LLMs across five progressive levels of scientific knowledge: studying extensively, inquiring earnestly, thinking profoundly, discerning clearly, and practicing assiduously. These levels aim to assess the breadth and depth of scientific knowledge in LLMs, including knowledge coverage, inquiry and exploration capabilities, reflection and reasoning abilities, ethic and safety considerations, as well as practice proficiency. Specifically, we take biology and chemistry as the two instances of SciKnowEval and construct a dataset encompassing 50K multi-level scientific problems and solutions. By leveraging this dataset, we benchmark 20 leading open-source and proprietary LLMs using zero-shot and few-shot prompting strategies. The results reveal that despite achieving state-of-the-art performance, the proprietary LLMs still have considerable room for improvement, particularly in addressing scientific computations and applications. We anticipate that SciKnowEval will establish a comprehensive standard for benchmarking LLMs in science research and discovery, and promote the development of LLMs that integrate scientific knowledge with strong safety awareness. The dataset and code are publicly available at https://github.com/hicai-zju/sciknoweval .
- Abstract(参考訳): 科学研究におけるLarge Language Models (LLM) の利用は、科学的知識の理解と応用を包括的に評価できる高度なベンチマークを必要とする。
SciKnowEvalベンチマーク(SciKnowEval benchmark)は,5つの段階の科学的知識を体系的に評価する新しいフレームワークである。
これらのレベルは、LLMにおける科学知識の広さと深さを評価することを目的としており、知識カバレッジ、調査と探索能力、リフレクションと推論能力、倫理的および安全性の考慮、および練習の熟練度を含む。
具体的には、SciKnowEvalの2つの例として生物学と化学を取り上げ、50万の多段階の科学的問題と解を含むデータセットを構築した。
このデータセットを活用することで、ゼロショットと少数ショットのプロンプト戦略を使用して、20のオープンソースおよびプロプライエタリなLCMをベンチマークします。
その結果、最先端の性能を達成しているにもかかわらず、プロプライエタリなLLMには、特に科学計算や応用に対処するための十分な改善の余地があることが判明した。
我々はSciKnowEvalが科学研究と発見においてLLMをベンチマークするための包括的な標準を確立し、科学知識と強力な安全意識を統合するLLMの開発を促進することを期待する。
データセットとコードはhttps://github.com/hicai-zju/sciknoweval.comで公開されている。
関連論文リスト
- SciLitLLM: How to Adapt LLMs for Scientific Literature Understanding [22.131371019641417]
大言語モデルの成功にもかかわらず、科学文献理解の課題に直面している。
連続事前学習(CPT)と教師付き微調整(SFT)を統合したハイブリッド戦略を提案する。
我々は科学文献理解に特化したLLMスイートSciLitLLMを提案する。
論文 参考訳(メタデータ) (2024-08-28T05:41:52Z) - A Comprehensive Survey of Scientific Large Language Models and Their Applications in Scientific Discovery [68.48094108571432]
大規模言語モデル(LLM)は、テキストやその他のデータ処理方法に革命をもたらした。
我々は,科学LLM間のクロスフィールドおよびクロスモーダル接続を明らかにすることで,研究ランドスケープのより総合的なビューを提供することを目指している。
論文 参考訳(メタデータ) (2024-06-16T08:03:24Z) - Mapping the Increasing Use of LLMs in Scientific Papers [99.67983375899719]
2020年1月から2024年2月にかけて、arXiv、bioRxiv、Natureのポートフォリオジャーナルで950,965の論文をまとめて、体系的で大規模な分析を行った。
計算機科学の論文では, LLMの使用が着実に増加し, 最大, 最速の成長が観察された。
論文 参考訳(メタデータ) (2024-04-01T17:45:15Z) - SciAssess: Benchmarking LLM Proficiency in Scientific Literature Analysis [26.111514038691837]
SciAssessは、科学文献分析におけるLarge Language Models(LLM)の総合的な評価のためのベンチマークである。
記憶機能評価(L1)、記憶機能評価(L2)、分析・推論機能評価(L3)により,LLMの有効性を徹底的に評価することを目的とする。
それは、生物学、化学、材料、医学など、様々な科学分野から引き出された様々なタスクを含んでいる。
論文 参考訳(メタデータ) (2024-03-04T12:19:28Z) - Scientific Large Language Models: A Survey on Biological & Chemical Domains [47.97810890521825]
大規模言語モデル(LLM)は、自然言語理解の強化において、変革的な力として現れてきた。
LLMの応用は従来の言語境界を超えて、様々な科学分野で開発された専門的な言語システムを含んでいる。
AI for Science(AI for Science)のコミュニティで急成長している分野として、科学LLMは包括的な探査を義務付けている。
論文 参考訳(メタデータ) (2024-01-26T05:33:34Z) - Exploring the Cognitive Knowledge Structure of Large Language Models: An
Educational Diagnostic Assessment Approach [50.125704610228254]
大規模言語モデル(LLM)は、様々なタスクにまたがる例外的なパフォーマンスを示すだけでなく、知性の火花も示している。
近年の研究では、人間の試験における能力の評価に焦点が当てられ、異なる領域における彼らの印象的な能力を明らかにしている。
ブルーム分類に基づく人体検査データセットであるMoocRadarを用いて評価を行った。
論文 参考訳(メタデータ) (2023-10-12T09:55:45Z) - SciEval: A Multi-Level Large Language Model Evaluation Benchmark for Scientific Research [11.816426823341134]
これらの問題に対処するための総合的・多分野評価ベンチマークSciEvalを提案する。
ブルームの分類に基づいて、SciEvalは科学的研究能力を体系的に評価する4つの次元をカバーしている。
主観的質問も主観的質問もSciEvalに含まれる。
論文 参考訳(メタデータ) (2023-08-25T03:05:33Z) - SciBench: Evaluating College-Level Scientific Problem-Solving Abilities of Large Language Models [70.5763210869525]
拡張ベンチマークスイートSciBench for Large Language Model (LLM)を導入する。
SciBenchには、数学、化学、物理学の分野から、さまざまな大学レベルの科学的問題を含むデータセットが含まれている。
その結果、現在のLLMは満足のいく性能を達成できないことが判明し、全体のスコアは43.22%に過ぎなかった。
論文 参考訳(メタデータ) (2023-07-20T07:01:57Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。