論文の概要: SciKnowEval: Evaluating Multi-level Scientific Knowledge of Large Language Models
- arxiv url: http://arxiv.org/abs/2406.09098v1
- Date: Thu, 13 Jun 2024 13:27:52 GMT
- ステータス: 処理完了
- システム内更新日: 2024-06-14 17:54:00.175148
- Title: SciKnowEval: Evaluating Multi-level Scientific Knowledge of Large Language Models
- Title(参考訳): SciKnowEval:大規模言語モデルの多段階科学的知識の評価
- Authors: Kehua Feng, Keyan Ding, Weijie Wang, Xiang Zhuang, Zeyuan Wang, Ming Qin, Yu Zhao, Jianhua Yao, Qiang Zhang, Huajun Chen,
- Abstract要約: SciKnowEvalは5つの進歩的な科学的知識のレベルにわたって大規模言語モデル(LLM)を評価するフレームワークである。
ゼロショットと少数ショットのプロンプト戦略を用いて、20のオープンソースおよびプロプライエタリなLCMをベンチマークする。
その結果、最先端性能を達成しているにもかかわらず、プロプライエタリなLLMには改善の余地があることが判明した。
- 参考スコア(独自算出の注目度): 35.98892300665275
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: The burgeoning utilization of Large Language Models (LLMs) in scientific research necessitates advanced benchmarks capable of evaluating their understanding and application of scientific knowledge comprehensively. To address this need, we introduce the SciKnowEval benchmark, a novel framework that systematically evaluates LLMs across five progressive levels of scientific knowledge: studying extensively, inquiring earnestly, thinking profoundly, discerning clearly, and practicing assiduously. These levels aim to assess the breadth and depth of scientific knowledge in LLMs, including knowledge coverage, inquiry and exploration capabilities, reflection and reasoning abilities, ethic and safety considerations, as well as practice proficiency. Specifically, we take biology and chemistry as the two instances of SciKnowEval and construct a dataset encompassing 50K multi-level scientific problems and solutions. By leveraging this dataset, we benchmark 20 leading open-source and proprietary LLMs using zero-shot and few-shot prompting strategies. The results reveal that despite achieving state-of-the-art performance, the proprietary LLMs still have considerable room for improvement, particularly in addressing scientific computations and applications. We anticipate that SciKnowEval will establish a comprehensive standard for benchmarking LLMs in science research and discovery, and promote the development of LLMs that integrate scientific knowledge with strong safety awareness. The dataset and code are publicly available at https://github.com/hicai-zju/sciknoweval .
- Abstract(参考訳): 科学研究におけるLarge Language Models (LLM) の利用は、科学的知識の理解と応用を包括的に評価できる高度なベンチマークを必要とする。
SciKnowEvalベンチマーク(SciKnowEval benchmark)は,5つの段階の科学的知識を体系的に評価する新しいフレームワークである。
これらのレベルは、LLMにおける科学知識の広さと深さを評価することを目的としており、知識カバレッジ、調査と探索能力、リフレクションと推論能力、倫理的および安全性の考慮、および練習の熟練度を含む。
具体的には、SciKnowEvalの2つの例として生物学と化学を取り上げ、50万の多段階の科学的問題と解を含むデータセットを構築した。
このデータセットを活用することで、ゼロショットと少数ショットのプロンプト戦略を使用して、20のオープンソースおよびプロプライエタリなLCMをベンチマークします。
その結果、最先端の性能を達成しているにもかかわらず、プロプライエタリなLLMには、特に科学計算や応用に対処するための十分な改善の余地があることが判明した。
我々はSciKnowEvalが科学研究と発見においてLLMをベンチマークするための包括的な標準を確立し、科学知識と強力な安全意識を統合するLLMの開発を促進することを期待する。
データセットとコードはhttps://github.com/hicai-zju/sciknoweval.comで公開されている。
関連論文リスト
- Knowledge Mechanisms in Large Language Models: A Survey and Perspective [88.51320482620679]
本稿では,知識利用と進化を含む新しい分類法から知識メカニズムの解析をレビューする。
LLMが学んだ知識、パラメトリック知識の脆弱性の理由、そして解決が難しい潜在的な暗黒知識(仮説)について論じる。
論文 参考訳(メタデータ) (2024-07-22T06:15:59Z) - A Comprehensive Survey of Scientific Large Language Models and Their Applications in Scientific Discovery [68.48094108571432]
我々は,科学LLM間のクロスフィールドおよびクロスモーダル接続を明らかにすることで,研究ランドスケープのより総合的なビューを提供することを目指している。
本稿では,250以上の科学LLMを包括的に調査し,それらの共通点と相違点について考察するとともに,各分野とモダリティに関する事前学習データセットと評価タスクを要約する。
論文 参考訳(メタデータ) (2024-06-16T08:03:24Z) - Knowledge-guided Machine Learning: Current Trends and Future Prospects [14.783972088722193]
また、科学知識誘導機械学習(KGML)の新興分野の研究の現状についても紹介している。
我々は、KGML研究のさまざまな側面について、使用する科学知識の種類、知識-機械学習統合の形式、そして、科学知識をMLに組み込む方法について論じる。
論文 参考訳(メタデータ) (2024-03-24T02:54:46Z) - SciAssess: Benchmarking LLM Proficiency in Scientific Literature Analysis [25.18030943975122]
大規模言語モデル(LLM)は、自然言語の理解と生成に革命をもたらした。
既存のベンチマークでは、科学文献分析においてLLMの熟練度を適切に評価することができない。
SciAssessは科学文献分析におけるLLMの総合的な評価を目的としたベンチマークである。
論文 参考訳(メタデータ) (2024-03-04T12:19:28Z) - Scientific Large Language Models: A Survey on Biological & Chemical Domains [47.97810890521825]
大規模言語モデル(LLM)は、自然言語理解の強化において、変革的な力として現れてきた。
LLMの応用は従来の言語境界を超えて、様々な科学分野で開発された専門的な言語システムを含んでいる。
AI for Science(AI for Science)のコミュニティで急成長している分野として、科学LLMは包括的な探査を義務付けている。
論文 参考訳(メタデータ) (2024-01-26T05:33:34Z) - KGQuiz: Evaluating the Generalization of Encoded Knowledge in Large Language Models [39.554274096542244]
KGQuizは、大規模言語モデルの知識一般化能力を調べるための知識集約型ベンチマークである。
我々は,KGQuizベンチマークを用いて,5つの知識集約タスクと知識領域の10個のオープンソースおよびブラックボックスLCMを評価した。
我々は、KGQuizをテストベッドとして想定し、ドメインやタスクフォーマット間のパフォーマンスの微妙な変化を分析する。
論文 参考訳(メタデータ) (2023-10-15T04:00:36Z) - Exploring the Cognitive Knowledge Structure of Large Language Models: An
Educational Diagnostic Assessment Approach [50.125704610228254]
大規模言語モデル(LLM)は、様々なタスクにまたがる例外的なパフォーマンスを示すだけでなく、知性の火花も示している。
近年の研究では、人間の試験における能力の評価に焦点が当てられ、異なる領域における彼らの印象的な能力を明らかにしている。
ブルーム分類に基づく人体検査データセットであるMoocRadarを用いて評価を行った。
論文 参考訳(メタデータ) (2023-10-12T09:55:45Z) - SciBench: Evaluating College-Level Scientific Problem-Solving Abilities of Large Language Models [70.5763210869525]
拡張ベンチマークスイートSciBench for Large Language Model (LLM)を導入する。
SciBenchには、数学、化学、物理学の分野から、さまざまな大学レベルの科学的問題を含むデータセットが含まれている。
その結果、現在のLLMは満足のいく性能を達成できないことが判明し、全体のスコアは43.22%に過ぎなかった。
論文 参考訳(メタデータ) (2023-07-20T07:01:57Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。