論文の概要: SciEval: A Multi-Level Large Language Model Evaluation Benchmark for
Scientific Research
- arxiv url: http://arxiv.org/abs/2308.13149v1
- Date: Fri, 25 Aug 2023 03:05:33 GMT
- ステータス: 処理完了
- システム内更新日: 2023-08-28 15:22:05.158712
- Title: SciEval: A Multi-Level Large Language Model Evaluation Benchmark for
Scientific Research
- Title(参考訳): SciEval: 科学研究のための多層大規模言語モデル評価ベンチマーク
- Authors: Liangtai Sun, Yang Han, Zihan Zhao, Da Ma, Zhennan Shen, Baocai Chen,
Lu Chen and Kai Yu
- Abstract要約: これらの問題に対処するための総合的・多分野評価ベンチマークSciEvalを提案する。
ブルームの分類に基づいて、SciEvalは科学的研究能力を体系的に評価する4つの次元をカバーしている。
主観的質問も主観的質問もSciEvalに含まれる。
- 参考スコア(独自算出の注目度): 12.325362762629782
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Recently, there has been growing interest in using Large Language Models
(LLMs) for scientific research. Numerous benchmarks have been proposed to
evaluate the ability of LLMs for scientific research. However, current
benchmarks are mostly based on pre-collected objective questions. This design
suffers from data leakage problem and lacks the evaluation of subjective Q/A
ability. In this paper, we propose SciEval, a comprehensive and
multi-disciplinary evaluation benchmark to address these issues. Based on
Bloom's taxonomy, SciEval covers four dimensions to systematically evaluate
scientific research ability. In particular, we design a "dynamic" subset based
on scientific principles to prevent evaluation from potential data leakage.
Both objective and subjective questions are included in SciEval. These
characteristics make SciEval a more effective benchmark for scientific research
ability evaluation of LLMs. Comprehensive experiments on most advanced LLMs
show that, although GPT-4 achieves SOTA performance compared to other LLMs,
there is still substantial room for improvement, especially for dynamic
questions. The data and codes are now publicly available.
- Abstract(参考訳): 近年、科学研究にLarge Language Models(LLM)を使うことへの関心が高まっている。
科学研究のためのLSMの能力を評価するために多くのベンチマークが提案されている。
しかし、現在のベンチマークは、主に事前に収集された客観的な質問に基づいている。
この設計は、データ漏洩の問題に悩まされ、主観的Q/A能力の評価に欠ける。
本稿では,これらの問題に対処するための総合的・多分野評価ベンチマークSciEvalを提案する。
ブルームの分類に基づいて、サイヴァルは科学的研究能力を体系的に評価するために4次元をカバーする。
特に,データ漏洩の可能性評価を防止すべく,科学的原理に基づく「動的」サブセットを設計する。
主観的質問も主観的質問もSciEvalに含まれる。
これらの特徴により、SciEvalはLLMの科学的研究能力評価のためのより効果的なベンチマークとなる。
多くの先進LLMにおける総合的な実験により、GPT-4は他のLLMと比較してSOTA性能を達成しているが、特に動的問題には改善の余地がまだ残っていることが示されている。
データとコードは公開されています。
関連論文リスト
- Evaluating Large Language Models for Structured Science Summarization in the Open Research Knowledge Graph [18.41743815836192]
本稿では,構造化科学要約のプロパティを自動提案するために,Large Language Models (LLMs) を提案する。
本研究は,ORKGが手作業でキュレートした特性と,前述の最先端のLCMによって生成された特性とを総合的に比較した。
全体として、LLMは科学を構造化するためのレコメンデーションシステムとしての可能性を示しているが、科学的タスクや人間の専門知識の模倣との整合性を改善するために、さらなる微調整が推奨されている。
論文 参考訳(メタデータ) (2024-05-03T14:03:04Z) - SciAssess: Benchmarking LLM Proficiency in Scientific Literature Analysis [22.988742056084455]
SciAssessは科学文献の詳細な分析のためのベンチマークである。
記憶、理解、分析におけるLLMの能力を評価することに焦点を当てている。
一般的な化学、有機材料、合金材料などの様々な科学分野からの代表的タスクを含む。
論文 参考訳(メタデータ) (2024-03-04T12:19:28Z) - Rethinking Scientific Summarization Evaluation: Grounding Explainable
Metrics on Facet-aware Benchmark [43.94573037950725]
本稿では,科学的要約の概念的および実験的分析について述べる。
要約を評価するために,先進的なセマンティックマッチングにLLMを用いたFacet-Aware Metric (FM)を導入する。
以上の結果から,FMは科学的要約を評価するためのより論理的なアプローチであることが明らかとなった。
論文 参考訳(メタデータ) (2024-02-22T07:58:29Z) - F-Eval: Asssessing Fundamental Abilities with Refined Evaluation Methods [111.46455901113976]
F-Evalは、表現、常識、論理などの基本能力を評価するためのバイリンガル評価ベンチマークである。
参照不要な主観的タスクに対しては,APIモデルによるスコアの代替として,新たな評価手法を考案する。
論文 参考訳(メタデータ) (2024-01-26T13:55:32Z) - Don't Make Your LLM an Evaluation Benchmark Cheater [142.24553056600627]
大規模言語モデル(LLM)は人工知能のフロンティアを大幅に進歩させ、モデルキャパシティを著しく向上させた。
モデル性能を評価するために, LLMの能力レベルを測定するための評価ベンチマークを構築するのが典型的な方法である。
評価ベンチマークを用いて不適切なリスクと影響について検討し,評価結果を誤って解釈する。
論文 参考訳(メタデータ) (2023-11-03T14:59:54Z) - NuclearQA: A Human-Made Benchmark for Language Models for the Nuclear
Domain [0.0]
NuclearQAは、核領域における言語モデルを評価するための100の質問の人為的なベンチマークである。
さまざまな種類の質問が混ざり合わさって、我々のベンチマークが核領域のモデルを評価することをユニークなものにしていることを示す。
論文 参考訳(メタデータ) (2023-10-17T01:27:20Z) - SciBench: Evaluating College-Level Scientific Problem-Solving Abilities
of Large Language Models [72.92461995173201]
拡張ベンチマークスイートSciBench for Large Language Model (LLM)を導入する。
SciBenchには、数学、化学、物理学の分野から、さまざまな大学レベルの科学的問題を含むデータセットが含まれている。
その結果、現在のLLMは満足のいく性能を達成できないことが判明し、全体のスコアは43.22%に過ぎなかった。
論文 参考訳(メタデータ) (2023-07-20T07:01:57Z) - A Survey on Evaluation of Large Language Models [87.60417393701331]
大規模言語モデル(LLM)は、学術と産業の両方で人気が高まっている。
本稿では,評価方法,評価方法,評価方法の3つの重要な側面に焦点をあてる。
論文 参考訳(メタデータ) (2023-07-06T16:28:35Z) - Efficiently Measuring the Cognitive Ability of LLMs: An Adaptive Testing
Perspective [63.92197404447808]
大きな言語モデル(LLM)は、人間のような認知能力を示している。
LLM評価のための適応テストフレームワークを提案する。
このアプローチは、モデルの性能に基づいて、難易度などのテスト問題の特徴を動的に調整する。
論文 参考訳(メタデータ) (2023-06-18T09:54:33Z) - Evaluating the Performance of Large Language Models on GAOKAO Benchmark [53.663757126289795]
本稿では,中国のガオカオ検定の質問をサンプルとして用いた直感的なベンチマークであるガオカオベンチについて紹介する。
人間の評価により, GPT-4, ChatGPT, ERNIE-Botを含むLLMの変換総得点を得た。
また、LLMを用いて主観的質問を格付けし、モデルスコアが人間のスコアと適度な一貫性を達成することを確認する。
論文 参考訳(メタデータ) (2023-05-21T14:39:28Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。