論文の概要: SciAssess: Benchmarking LLM Proficiency in Scientific Literature Analysis
- arxiv url: http://arxiv.org/abs/2403.01976v2
- Date: Fri, 15 Mar 2024 13:27:31 GMT
- ステータス: 処理完了
- システム内更新日: 2024-03-18 22:04:23.887996
- Title: SciAssess: Benchmarking LLM Proficiency in Scientific Literature Analysis
- Title(参考訳): SciAssess:科学文献分析におけるLCM能力のベンチマーク
- Authors: Hengxing Cai, Xiaochen Cai, Junhan Chang, Sihang Li, Lin Yao, Changxin Wang, Zhifeng Gao, Hongshuai Wang, Yongge Li, Mujie Lin, Shuwen Yang, Jiankun Wang, Yuqi Yin, Yaqi Li, Linfeng Zhang, Guolin Ke,
- Abstract要約: SciAssessは科学文献の詳細な分析のためのベンチマークである。
記憶、理解、分析におけるLLMの能力を評価することに焦点を当てている。
一般的な化学、有機材料、合金材料などの様々な科学分野からの代表的タスクを含む。
- 参考スコア(独自算出の注目度): 22.988742056084455
- License: http://creativecommons.org/licenses/by-nc-sa/4.0/
- Abstract: Recent breakthroughs in Large Language Models (LLMs) have revolutionized natural language understanding and generation, igniting a surge of interest in leveraging these technologies in the field of scientific literature analysis. Existing benchmarks, however, inadequately evaluate the proficiency of LLMs in scientific literature analysis, especially in scenarios involving complex comprehension and multimodal data. In response, we introduced SciAssess, a benchmark tailored for the in-depth analysis of scientific literature, crafted to provide a thorough assessment of LLMs' efficacy. SciAssess focuses on evaluating LLMs' abilities in memorization, comprehension, and analysis within the context of scientific literature analysis. It includes representative tasks from diverse scientific fields, such as general chemistry, organic materials, and alloy materials. And rigorous quality control measures ensure its reliability in terms of correctness, anonymization, and copyright compliance. SciAssess evaluates leading LLMs, including GPT-4, GPT-3.5, and Gemini, identifying their strengths and aspects for improvement and supporting the ongoing development of LLM applications in scientific literature analysis. SciAssess and its resources are made available at https://sci-assess.github.io, offering a valuable tool for advancing LLM capabilities in scientific literature analysis.
- Abstract(参考訳): 近年のLarge Language Models (LLMs) のブレークスルーは自然言語の理解と生成に革命をもたらし、科学文献分析の分野でこれらの技術を活用することへの関心が高まっている。
しかし、既存のベンチマークでは、科学文献分析において、特に複雑な理解とマルチモーダルデータを含むシナリオにおいて、LLMの習熟度を不十分に評価している。
その結果,学術文献の詳細な分析に適したベンチマークであるSciAssessを導入し,LCMの有効性を徹底的に評価した。
SciAssessは、科学文献分析の文脈における記憶、理解、分析におけるLLMの能力の評価に焦点を当てている。
一般的な化学、有機材料、合金材料などの様々な科学分野からの代表的タスクを含む。
そして厳格な品質管理手段は、正確性、匿名化、および著作権コンプライアンスの観点から信頼性を確保します。
SciAssess は GPT-4, GPT-3.5, Gemini を含む主要な LLM の評価を行い、科学文献解析における LLM の応用の継続的な発展と改善の強みと側面を明らかにしている。
SciAssessとそのリソースはhttps://sci-assess.github.ioで公開されている。
関連論文リスト
- Mapping the Increasing Use of LLMs in Scientific Papers [99.67983375899719]
2020年1月から2024年2月にかけて、arXiv、bioRxiv、Natureのポートフォリオジャーナルで950,965の論文をまとめて、体系的で大規模な分析を行った。
計算機科学の論文では, LLMの使用が着実に増加し, 最大, 最速の成長が観察された。
論文 参考訳(メタデータ) (2024-04-01T17:45:15Z) - Uni-SMART: Universal Science Multimodal Analysis and Research Transformer [22.90687836544612]
科学的研究とその応用において、科学的文献分析は、研究者が他者の業績に基づいて構築できるため、不可欠である。
LLM(Large Language Models)の出現は、この課題に対処する新しい方法を提供する。
マルチモーダル科学文献の詳細な理解を目的とした革新的モデルUni-を提案する。
論文 参考訳(メタデータ) (2024-03-15T13:43:47Z) - Scientific Large Language Models: A Survey on Biological & Chemical
Domains [45.873156812250514]
大規模言語モデル(LLM)は、自然言語理解の強化において、変革的な力として現れてきた。
LLMの応用は従来の言語境界を超えて、様々な科学分野で開発された専門的な言語システムを含んでいる。
AI for Science(AI for Science)のコミュニティで急成長している分野として、科学LLMは包括的な探査を義務付けている。
論文 参考訳(メタデータ) (2024-01-26T05:33:34Z) - An Interdisciplinary Outlook on Large Language Models for Scientific
Research [3.4108358650013573]
本稿では,異なる学問分野におけるLarge Language Models(LLM)の機能と制約について述べる。
本稿では, LLM が学術調査の強化を図り, 大量の出版物を要約することで, 文献レビューの促進などの具体的な事例を提示する。
LLMが直面する課題には、広範囲で偏見のあるデータセットへの依存や、それらの使用から生じる潜在的な倫理的ジレンマが含まれる。
論文 参考訳(メタデータ) (2023-11-03T19:41:09Z) - SciBench: Evaluating College-Level Scientific Problem-Solving Abilities
of Large Language Models [72.92461995173201]
拡張ベンチマークスイートSciBench for Large Language Model (LLM)を導入する。
SciBenchには、数学、化学、物理学の分野から、さまざまな大学レベルの科学的問題を含むデータセットが含まれている。
その結果、現在のLLMは満足のいく性能を達成できないことが判明し、全体のスコアは43.22%に過ぎなかった。
論文 参考訳(メタデータ) (2023-07-20T07:01:57Z) - A Comprehensive Overview of Large Language Models [68.22178313875618]
大規模言語モデル(LLM)は、最近自然言語処理タスクにおいて顕著な機能を示した。
本稿では, LLM関連概念の幅広い範囲について, 既存の文献について概説する。
論文 参考訳(メタデータ) (2023-07-12T20:01:52Z) - A Survey on Evaluation of Large Language Models [87.60417393701331]
大規模言語モデル(LLM)は、学術と産業の両方で人気が高まっている。
本稿では,評価方法,評価方法,評価方法の3つの重要な側面に焦点をあてる。
論文 参考訳(メタデータ) (2023-07-06T16:28:35Z) - Sentiment Analysis in the Era of Large Language Models: A Reality Check [69.97942065617664]
本稿では,大規模言語モデル(LLM)の様々な感情分析タスクの実行能力について検討する。
26のデータセット上の13のタスクのパフォーマンスを評価し、ドメイン固有のデータセットに基づいて訓練された小言語モデル(SLM)と比較した。
論文 参考訳(メタデータ) (2023-05-24T10:45:25Z) - A Bibliometric Review of Large Language Models Research from 2017 to
2023 [1.4190701053683017]
LLM(Large Language Model)は、自然言語処理(NLP)タスクにおいて優れた性能を示す言語モデルである。
本稿は,LLM研究の現在の姿を知るための研究者,実践者,政策立案者のロードマップとして機能する。
論文 参考訳(メタデータ) (2023-04-03T21:46:41Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。