論文の概要: ChemEval: A Comprehensive Multi-Level Chemical Evaluation for Large Language Models
- arxiv url: http://arxiv.org/abs/2409.13989v1
- Date: Sat, 21 Sep 2024 02:50:43 GMT
- ステータス: 処理完了
- システム内更新日: 2024-11-07 04:17:38.592693
- Title: ChemEval: A Comprehensive Multi-Level Chemical Evaluation for Large Language Models
- Title(参考訳): ChemEval: 大規模言語モデルの総合的マルチレベル化学評価
- Authors: Yuqing Huang, Rongyang Zhang, Xuesong He, Xuyang Zhi, Hao Wang, Xin Li, Feiyang Xu, Deguang Liu, Huadong Liang, Yi Li, Jian Cui, Zimu Liu, Shijin Wang, Guoping Hu, Guiquan Liu, Qi Liu, Defu Lian, Enhong Chen,
- Abstract要約: この領域の既存のベンチマークは、化学研究専門家の特定の要求を適切に満たさない。
ChemEvalは化学の4つの重要な進歩レベルを特定し、42の異なる化学タスクで12次元のLCMを評価する。
その結果, LLMは文献の理解と指導に優れる一方で, 高度な化学知識を必要とするタスクでは不足していることがわかった。
- 参考スコア(独自算出の注目度): 62.37850540570268
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: There is a growing interest in the role that LLMs play in chemistry which lead to an increased focus on the development of LLMs benchmarks tailored to chemical domains to assess the performance of LLMs across a spectrum of chemical tasks varying in type and complexity. However, existing benchmarks in this domain fail to adequately meet the specific requirements of chemical research professionals. To this end, we propose \textbf{\textit{ChemEval}}, which provides a comprehensive assessment of the capabilities of LLMs across a wide range of chemical domain tasks. Specifically, ChemEval identified 4 crucial progressive levels in chemistry, assessing 12 dimensions of LLMs across 42 distinct chemical tasks which are informed by open-source data and the data meticulously crafted by chemical experts, ensuring that the tasks have practical value and can effectively evaluate the capabilities of LLMs. In the experiment, we evaluate 12 mainstream LLMs on ChemEval under zero-shot and few-shot learning contexts, which included carefully selected demonstration examples and carefully designed prompts. The results show that while general LLMs like GPT-4 and Claude-3.5 excel in literature understanding and instruction following, they fall short in tasks demanding advanced chemical knowledge. Conversely, specialized LLMs exhibit enhanced chemical competencies, albeit with reduced literary comprehension. This suggests that LLMs have significant potential for enhancement when tackling sophisticated tasks in the field of chemistry. We believe our work will facilitate the exploration of their potential to drive progress in chemistry. Our benchmark and analysis will be available at {\color{blue} \url{https://github.com/USTC-StarTeam/ChemEval}}.
- Abstract(参考訳): LLMが化学において果たす役割への関心が高まっており、タイプや複雑さの異なる化学タスクのスペクトルにわたってLLMの性能を評価するために、化学ドメインに適したLCMベンチマークの開発に焦点が当てられている。
しかし、この領域の既存のベンチマークは、化学研究専門家の特定の要求を適切に満たさない。
この目的のために, 幅広い化学領域のタスクにおいて LLM の能力を包括的に評価する \textbf{\textit{ChemEval}} を提案する。
具体的には、ChemEvalは4つの重要な化学の進歩レベルを特定し、42の異なる化学タスクにまたがる12次元のLCMを、オープンソースデータと、化学の専門家が慎重に構築したデータで評価し、それらのタスクが実用的価値を持ち、LLMの能力を評価することを確実にした。
実験では,ChemEval上の12のメインストリームLCMをゼロショットおよび少数ショットの学習コンテキスト下で評価し,慎重に選択された実演例と慎重に設計されたプロンプトを含む。
その結果, GPT-4 や Claude-3.5 のような一般 LLM は文献の理解と指導に優れるが, 高度な化学知識を必要とするタスクでは不足していることがわかった。
逆に、特殊なLDMは、文学的理解を減らしたにもかかわらず、化学能力の強化を示す。
このことは、LSMは化学の分野における高度なタスクに取り組む際に、大きな可能性を持っていることを示唆している。
我々は、我々の研究が化学の進歩を促進する可能性の探索を促進すると信じている。
私たちのベンチマークと分析は、 {\color{blue} \url{https://github.com/USTC-StarTeam/ChemEval}}で公開されます。
関連論文リスト
- ChemVLM: Exploring the Power of Multimodal Large Language Models in Chemistry Area [50.15254966969718]
textbfChemVLMは、化学応用のためのオープンソースの化学マルチモーダル大規模言語モデルである。
ChemVLMは、テキストと視覚の化学情報の両方を理解する能力を高めるために、慎重にキュレートされたバイリンガルデータセットで訓練されている。
我々はChemVLMを、様々なタスクにおいて、オープンソースおよびプロプライエタリな多モーダルな大規模言語モデルに対してベンチマークする。
論文 参考訳(メタデータ) (2024-08-14T01:16:40Z) - Are large language models superhuman chemists? [4.87961182129702]
大規模言語モデル(LLM)は、人間の言語を処理し、明示的に訓練されていないタスクを実行する能力によって、広く関心を集めている。
本稿では,最新のLCMの化学知識と推論能力を評価する自動化フレームワークであるChemBenchを紹介する。
我々は2700以上の質問応答ペアをキュレートし、主要なオープンソースとクローズドソースのLCMを評価し、最良のモデルが最高の化学者より優れていることを発見した。
論文 参考訳(メタデータ) (2024-04-01T20:56:25Z) - LlaSMol: Advancing Large Language Models for Chemistry with a Large-Scale, Comprehensive, High-Quality Instruction Tuning Dataset [13.063678216852473]
大規模言語モデル (LLMs) は, 包括的な化学タスクにおいて, 非常に強力な結果が得られることを示す。
命令チューニングのための大規模で包括的で高品質なデータセットであるSMolInstructを提案する。
SMolInstructを使ってオープンソースのLCMの集合を微調整し、その中のMistralが化学タスクの最良のベースモデルであることを示す。
論文 参考訳(メタデータ) (2024-02-14T18:42:25Z) - ChemLLM: A Chemical Large Language Model [49.308528569982805]
大規模言語モデル(LLM)は化学応用において顕著な進歩を遂げた。
しかし、コミュニティには化学に特化したLLMが欠落している。
本稿では,化学に特化した最初のLLMを特徴とする包括的フレームワークであるChemLLMを紹介する。
論文 参考訳(メタデータ) (2024-02-10T01:11:59Z) - From Words to Molecules: A Survey of Large Language Models in Chemistry [8.129759559674968]
本稿では,Large Language Models (LLM) を化学分野に組み込む際に用いられるニュアンスド方法論について考察する。
化学LLMを,その入力データのドメインとモダリティに基づいて3つの異なるグループに分類し,これらをLCMに組み込むアプローチについて議論する。
最後に,化学知識のさらなる統合,継続学習の進歩,モデル解釈可能性の向上など,有望な研究方向性を明らかにした。
論文 参考訳(メタデータ) (2024-02-02T14:30:48Z) - Structured Chemistry Reasoning with Large Language Models [70.13959639460015]
大規模言語モデル(LLMs)は様々な分野において優れているが、特に化学において複雑な科学的推論に苦慮している。
所望のガイダンスを提供し,LSMの化学的推論能力を大幅に向上させる,シンプルで効果的なプロンプト戦略であるStructChemを紹介した。
量子化学、力学、物理化学、運動学の4分野にわたる試験では、StructChemはGPT-4の性能を大幅に向上させ、最大30%のピーク改善を実現している。
論文 参考訳(メタデータ) (2023-11-16T08:20:36Z) - A Survey on Evaluation of Large Language Models [87.60417393701331]
大規模言語モデル(LLM)は、学術と産業の両方で人気が高まっている。
本稿では,評価方法,評価方法,評価方法の3つの重要な側面に焦点をあてる。
論文 参考訳(メタデータ) (2023-07-06T16:28:35Z) - What can Large Language Models do in chemistry? A comprehensive
benchmark on eight tasks [41.9830989458936]
自然言語処理タスクに強力な能力を持つ大規模言語モデル(LLM)が出現している。
化学領域全体にわたる幅広いタスクにおいてLLMの能力を評価することを目的としている。
論文 参考訳(メタデータ) (2023-05-27T14:17:33Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。