論文の概要: What can Large Language Models do in chemistry? A comprehensive
benchmark on eight tasks
- arxiv url: http://arxiv.org/abs/2305.18365v2
- Date: Sun, 10 Sep 2023 16:37:36 GMT
- ステータス: 処理完了
- システム内更新日: 2023-09-12 21:32:05.853423
- Title: What can Large Language Models do in chemistry? A comprehensive
benchmark on eight tasks
- Title(参考訳): 大規模言語モデルは化学で何ができるか?
8つのタスクに関する包括的なベンチマーク
- Authors: Taicheng Guo, Kehan Guo, Bozhao Nan, Zhenwen Liang, Zhichun Guo,
Nitesh V. Chawla, Olaf Wiest, Xiangliang Zhang
- Abstract要約: 自然言語処理タスクに強力な能力を持つ大規模言語モデル(LLM)が出現している。
化学領域全体にわたる幅広いタスクにおいてLLMの能力を評価することを目的としている。
- 参考スコア(独自算出の注目度): 41.9830989458936
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Large Language Models (LLMs) with strong abilities in natural language
processing tasks have emerged and have been applied in various kinds of areas
such as science, finance and software engineering. However, the capability of
LLMs to advance the field of chemistry remains unclear. In this paper, rather
than pursuing state-of-the-art performance, we aim to evaluate capabilities of
LLMs in a wide range of tasks across the chemistry domain. We identify three
key chemistry-related capabilities including understanding, reasoning and
explaining to explore in LLMs and establish a benchmark containing eight
chemistry tasks. Our analysis draws on widely recognized datasets facilitating
a broad exploration of the capacities of LLMs within the context of practical
chemistry. Five LLMs (GPT-4, GPT-3.5, Davinci-003, Llama and Galactica) are
evaluated for each chemistry task in zero-shot and few-shot in-context learning
settings with carefully selected demonstration examples and specially crafted
prompts. Our investigation found that GPT-4 outperformed other models and LLMs
exhibit different competitive levels in eight chemistry tasks. In addition to
the key findings from the comprehensive benchmark analysis, our work provides
insights into the limitation of current LLMs and the impact of in-context
learning settings on LLMs' performance across various chemistry tasks. The code
and datasets used in this study are available at
https://github.com/ChemFoundationModels/ChemLLMBench.
- Abstract(参考訳): 自然言語処理タスクにおいて強力な能力を持つ大規模言語モデル(LLM)が登場し、科学、金融、ソフトウェア工学など様々な分野に適用されてきた。
しかし、LSMが化学分野を前進させる能力は未だ不明である。
本稿では, 最先端性能を追求する代わりに, 化学領域にまたがる幅広いタスクにおいて, LLMの能力を評価することを目的とする。
LLMの理解、推論、説明を含む3つの重要な化学関連機能を同定し、8つの化学タスクを含むベンチマークを確立する。
本分析は, 実用化学の文脈におけるllmの容量の広範な探索を容易にする, 広く認識されたデータセットを取り上げている。
5つのLCM(GPT-4, GPT-3.5, Davinci-003, Llama, Galactica)をゼロショットおよび少数ショットのインコンテクスト学習環境において, 慎重に選択した実演例と特別なプロンプトを用いて評価した。
我々は, GPT-4が他のモデルより優れており, LLMは8つの化学タスクにおいて異なる競合レベルを示すことを示した。
総合的なベンチマーク分析から得られた重要な知見に加えて、我々の研究は、現在のLLMの制限と、様々な化学タスクにおけるLLMのパフォーマンスに対する文脈内学習設定の影響に関する洞察を提供する。
この研究で使用されたコードとデータセットはhttps://github.com/ChemFoundationModels/ChemLLMBench.comで公開されている。
関連論文リスト
- ChemEval: A Comprehensive Multi-Level Chemical Evaluation for Large Language Models [62.37850540570268]
この領域の既存のベンチマークは、化学研究専門家の特定の要求を適切に満たさない。
ChemEvalは化学の4つの重要な進歩レベルを特定し、42の異なる化学タスクで12次元のLCMを評価する。
その結果, LLMは文献の理解と指導に優れる一方で, 高度な化学知識を必要とするタスクでは不足していることがわかった。
論文 参考訳(メタデータ) (2024-09-21T02:50:43Z) - ChemVLM: Exploring the Power of Multimodal Large Language Models in Chemistry Area [50.15254966969718]
textbfChemVLMは、化学応用のためのオープンソースの化学マルチモーダル大規模言語モデルである。
ChemVLMは、テキストと視覚の化学情報の両方を理解する能力を高めるために、慎重にキュレートされたバイリンガルデータセットで訓練されている。
我々はChemVLMを、様々なタスクにおいて、オープンソースおよびプロプライエタリな多モーダルな大規模言語モデルに対してベンチマークする。
論文 参考訳(メタデータ) (2024-08-14T01:16:40Z) - Are large language models superhuman chemists? [4.87961182129702]
大規模言語モデル(LLM)は、人間の言語を処理し、明示的に訓練されていないタスクを実行する能力によって、広く関心を集めている。
本稿では,最新のLCMの化学知識と推論能力を評価する自動化フレームワークであるChemBenchを紹介する。
我々は2700以上の質問応答ペアをキュレートし、主要なオープンソースとクローズドソースのLCMを評価し、最良のモデルが最高の化学者より優れていることを発見した。
論文 参考訳(メタデータ) (2024-04-01T20:56:25Z) - Benchmarking Large Language Models for Molecule Prediction Tasks [7.067145619709089]
大規模言語モデル(LLM)は多くの自然言語処理(NLP)タスクの最前線にある。
LLMは分子予測タスクを効果的に扱えるのか?
6つの標準分子データセットの分類および回帰予測タスクを同定する。
テキストベースのモデルと、分子の幾何学的構造を分析するために特別に設計されたモデルを含む、既存の機械学習(ML)モデルと比較する。
論文 参考訳(メタデータ) (2024-03-08T05:59:56Z) - LlaSMol: Advancing Large Language Models for Chemistry with a Large-Scale, Comprehensive, High-Quality Instruction Tuning Dataset [13.063678216852473]
大規模言語モデル (LLMs) は, 包括的な化学タスクにおいて, 非常に強力な結果が得られることを示す。
命令チューニングのための大規模で包括的で高品質なデータセットであるSMolInstructを提案する。
SMolInstructを使ってオープンソースのLCMの集合を微調整し、その中のMistralが化学タスクの最良のベースモデルであることを示す。
論文 参考訳(メタデータ) (2024-02-14T18:42:25Z) - ChemLLM: A Chemical Large Language Model [49.308528569982805]
大規模言語モデル(LLM)は化学応用において顕著な進歩を遂げた。
しかし、コミュニティには化学に特化したLLMが欠落している。
本稿では,化学に特化した最初のLLMを特徴とする包括的フレームワークであるChemLLMを紹介する。
論文 参考訳(メタデータ) (2024-02-10T01:11:59Z) - From Words to Molecules: A Survey of Large Language Models in Chemistry [8.129759559674968]
本稿では,Large Language Models (LLM) を化学分野に組み込む際に用いられるニュアンスド方法論について考察する。
化学LLMを,その入力データのドメインとモダリティに基づいて3つの異なるグループに分類し,これらをLCMに組み込むアプローチについて議論する。
最後に,化学知識のさらなる統合,継続学習の進歩,モデル解釈可能性の向上など,有望な研究方向性を明らかにした。
論文 参考訳(メタデータ) (2024-02-02T14:30:48Z) - Structured Chemistry Reasoning with Large Language Models [70.13959639460015]
大規模言語モデル(LLMs)は様々な分野において優れているが、特に化学において複雑な科学的推論に苦慮している。
所望のガイダンスを提供し,LSMの化学的推論能力を大幅に向上させる,シンプルで効果的なプロンプト戦略であるStructChemを紹介した。
量子化学、力学、物理化学、運動学の4分野にわたる試験では、StructChemはGPT-4の性能を大幅に向上させ、最大30%のピーク改善を実現している。
論文 参考訳(メタデータ) (2023-11-16T08:20:36Z) - ElitePLM: An Empirical Study on General Language Ability Evaluation of
Pretrained Language Models [78.08792285698853]
本稿では,事前学習型言語モデル(ElitePLM)の汎用言語能力評価に関する大規模実証的研究について述べる。
実験の結果,(1)訓練対象の異なるPLMは異なる能力試験に適しており,(2)下流タスクの微調整PLMはデータサイズや分布に敏感であり,(3)PLMは類似タスク間の転送性に優れていた。
論文 参考訳(メタデータ) (2022-05-03T14:18:10Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。