論文の概要: SciKnowEval: Evaluating Multi-level Scientific Knowledge of Large Language Models
- arxiv url: http://arxiv.org/abs/2406.09098v4
- Date: Tue, 07 Oct 2025 11:13:56 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-10-08 17:57:07.790164
- Title: SciKnowEval: Evaluating Multi-level Scientific Knowledge of Large Language Models
- Title(参考訳): SciKnowEval:大規模言語モデルの多段階科学的知識の評価
- Authors: Kehua Feng, Xinyi Shen, Weijie Wang, Xiang Zhuang, Yuqi Tang, Qiang Zhang, Keyan Ding,
- Abstract要約: 大規模言語モデル(LLM)は、科学研究においてますます重要な役割を担っている。
これらのモデルに埋め込まれた科学的知識の広さと深さを評価するための包括的なベンチマークがまだ残っていない。
SciKnowEvalは,5段階の科学的理解の段階にわたってLSMを評価するために設計された大規模データセットである。
- 参考スコア(独自算出の注目度): 24.394320592613074
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Large language models (LLMs) are playing an increasingly important role in scientific research, yet there remains a lack of comprehensive benchmarks to evaluate the breadth and depth of scientific knowledge embedded in these models. To address this gap, we introduce SciKnowEval, a large-scale dataset designed to systematically assess LLMs across five progressive levels of scientific understanding: memory, comprehension, reasoning, discernment, and application. SciKnowEval comprises 28K multi-level questions and solutions spanning biology, chemistry, physics, and materials science. Using this benchmark, we evaluate 20 leading open-source and proprietary LLMs. The results show that while proprietary models often achieve state-of-the-art performance, substantial challenges remain -- particularly in scientific reasoning and real-world application. We envision SciKnowEval as a standard benchmark for evaluating scientific capabilities in LLMs and as a catalyst for advancing more capable and reliable scientific language models.
- Abstract(参考訳): 大規模言語モデル(LLM)は科学研究においてますます重要な役割を担っているが、これらのモデルに埋め込まれた科学的知識の広さと深さを評価するための包括的なベンチマークはいまだに存在しない。
SciKnowEvalは、記憶、理解、推論、識別、応用の5段階にわたる科学的理解を体系的に評価するために設計された大規模なデータセットである。
SciKnowEvalは、生物学、化学、物理学、材料科学にまたがる28万の多段階の質問と解決策で構成されている。
このベンチマークを用いて、20のオープンソースおよびプロプライエタリなLCMを評価した。
その結果、プロプライエタリなモデルは最先端のパフォーマンスを達成することが多いが、特に科学的推論や実世界の応用において、大きな課題が残っていることが示されている。
我々は、SciKnowEvalをLLMの科学的能力を評価するための標準ベンチマークとして、そしてより有能で信頼性の高い科学言語モデルを進化させる触媒として想定する。
関連論文リスト
- Scientists' First Exam: Probing Cognitive Abilities of MLLM via Perception, Understanding, and Reasoning [59.518397361341556]
我々は,Multimodal Large Language Models (MLLM) の科学的認知能力を評価するために設計された,Scientists' First Exam (SFE) ベンチマークを提示する。
SFEは3つの質問タイプにまたがる830のエキスパート検証VQAペアで構成され、5つの高価値分野にまたがる66のマルチモーダルタスクにまたがる。
実験の結果、現在最先端のGPT-o3とInternVL-3はSFEでわずか34.08%と26.52%しか達成できず、MLLMが科学領域で改善する余地があることが明らかになった。
論文 参考訳(メタデータ) (2025-06-12T09:29:16Z) - ScienceMeter: Tracking Scientific Knowledge Updates in Language Models [79.33626657942169]
大規模言語モデル(LLM)は、科学研究を支援するためにますます使われているが、科学的進歩に関する彼らの知識は急速に時代遅れになる。
我々は,過去,現在,未来にまたがる科学的知識の更新手法を評価するための新しいフレームワークであるScienceMeterを紹介する。
論文 参考訳(メタデータ) (2025-05-30T07:28:20Z) - EarthSE: A Benchmark for Evaluating Earth Scientific Exploration Capability of LLMs [36.72915099998998]
本研究では,大言語モデル(LLM)の科学的探索能力を評価するために,地球科学の専門的なベンチマークを示す。
10万件の研究論文のコーパスを活用して、まず2つのQAデータセット(アース・アイロンとアース・シルバー)を構築します。
これらのデータセットは、5つの地球圏、114の分野、11のタスクカテゴリを含み、科学的探索に不可欠な知識を評価する。
論文 参考訳(メタデータ) (2025-05-22T06:46:08Z) - SciCUEval: A Comprehensive Dataset for Evaluating Scientific Context Understanding in Large Language Models [35.839640555805374]
SciCUEvalは、大規模言語モデル(LLM)の科学的文脈理解能力を評価するためのベンチマークデータセットである。
生物学、化学、物理学、生物医学、材料科学にまたがる10のドメイン固有のサブデータセットで構成され、構造化テーブル、知識グラフ、構造化されていないテキストを含む多様なデータモダリティを統合する。
関連情報識別、情報理解検出、マルチソース情報統合、コンテキスト認識推論の4つのコア能力を、様々な質問形式を通じて体系的に評価する。
論文 参考訳(メタデータ) (2025-05-21T04:33:26Z) - Position: Multimodal Large Language Models Can Significantly Advance Scientific Reasoning [51.11965014462375]
MLLM(Multimodal Large Language Models)は、テキスト、画像、その他のモダリティを統合する。
本稿では,MLLMが数学,物理,化学,生物学などの分野にまたがる科学的推論を著しく前進させることができることを論じる。
論文 参考訳(メタデータ) (2025-02-05T04:05:27Z) - SciLitLLM: How to Adapt LLMs for Scientific Literature Understanding [22.131371019641417]
大言語モデルの成功にもかかわらず、科学文献理解の課題に直面している。
連続事前学習(CPT)と教師付き微調整(SFT)を統合したハイブリッド戦略を提案する。
我々は科学文献理解に特化したLLMスイートSciLitLLMを提案する。
論文 参考訳(メタデータ) (2024-08-28T05:41:52Z) - A Comprehensive Survey of Scientific Large Language Models and Their Applications in Scientific Discovery [68.48094108571432]
大規模言語モデル(LLM)は、テキストやその他のデータ処理方法に革命をもたらした。
我々は,科学LLM間のクロスフィールドおよびクロスモーダル接続を明らかにすることで,研究ランドスケープのより総合的なビューを提供することを目指している。
論文 参考訳(メタデータ) (2024-06-16T08:03:24Z) - Mapping the Increasing Use of LLMs in Scientific Papers [99.67983375899719]
2020年1月から2024年2月にかけて、arXiv、bioRxiv、Natureのポートフォリオジャーナルで950,965の論文をまとめて、体系的で大規模な分析を行った。
計算機科学の論文では, LLMの使用が着実に増加し, 最大, 最速の成長が観察された。
論文 参考訳(メタデータ) (2024-04-01T17:45:15Z) - SciAssess: Benchmarking LLM Proficiency in Scientific Literature Analysis [26.111514038691837]
SciAssessは、科学文献分析におけるLarge Language Models(LLM)の総合的な評価のためのベンチマークである。
記憶機能評価(L1)、記憶機能評価(L2)、分析・推論機能評価(L3)により,LLMの有効性を徹底的に評価することを目的とする。
それは、生物学、化学、材料、医学など、様々な科学分野から引き出された様々なタスクを含んでいる。
論文 参考訳(メタデータ) (2024-03-04T12:19:28Z) - Scientific Large Language Models: A Survey on Biological & Chemical Domains [47.97810890521825]
大規模言語モデル(LLM)は、自然言語理解の強化において、変革的な力として現れてきた。
LLMの応用は従来の言語境界を超えて、様々な科学分野で開発された専門的な言語システムを含んでいる。
AI for Science(AI for Science)のコミュニティで急成長している分野として、科学LLMは包括的な探査を義務付けている。
論文 参考訳(メタデータ) (2024-01-26T05:33:34Z) - Exploring the Cognitive Knowledge Structure of Large Language Models: An
Educational Diagnostic Assessment Approach [50.125704610228254]
大規模言語モデル(LLM)は、様々なタスクにまたがる例外的なパフォーマンスを示すだけでなく、知性の火花も示している。
近年の研究では、人間の試験における能力の評価に焦点が当てられ、異なる領域における彼らの印象的な能力を明らかにしている。
ブルーム分類に基づく人体検査データセットであるMoocRadarを用いて評価を行った。
論文 参考訳(メタデータ) (2023-10-12T09:55:45Z) - SciEval: A Multi-Level Large Language Model Evaluation Benchmark for Scientific Research [11.816426823341134]
これらの問題に対処するための総合的・多分野評価ベンチマークSciEvalを提案する。
ブルームの分類に基づいて、SciEvalは科学的研究能力を体系的に評価する4つの次元をカバーしている。
主観的質問も主観的質問もSciEvalに含まれる。
論文 参考訳(メタデータ) (2023-08-25T03:05:33Z) - SciBench: Evaluating College-Level Scientific Problem-Solving Abilities of Large Language Models [70.5763210869525]
拡張ベンチマークスイートSciBench for Large Language Model (LLM)を導入する。
SciBenchには、数学、化学、物理学の分野から、さまざまな大学レベルの科学的問題を含むデータセットが含まれている。
その結果、現在のLLMは満足のいく性能を達成できないことが判明し、全体のスコアは43.22%に過ぎなかった。
論文 参考訳(メタデータ) (2023-07-20T07:01:57Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。