論文の概要: What can Large Language Models do in chemistry? A comprehensive
benchmark on eight tasks
- arxiv url: http://arxiv.org/abs/2305.18365v3
- Date: Thu, 28 Dec 2023 04:29:36 GMT
- ステータス: 処理完了
- システム内更新日: 2023-12-29 23:01:08.209006
- Title: What can Large Language Models do in chemistry? A comprehensive
benchmark on eight tasks
- Title(参考訳): 大規模言語モデルは化学で何ができるか?
8つのタスクに関する包括的なベンチマーク
- Authors: Taicheng Guo, Kehan Guo, Bozhao Nan, Zhenwen Liang, Zhichun Guo,
Nitesh V. Chawla, Olaf Wiest, Xiangliang Zhang
- Abstract要約: 自然言語処理タスクに強力な能力を持つ大規模言語モデル(LLM)が出現している。
化学領域全体にわたる幅広いタスクにおいてLLMの能力を評価することを目的としている。
- 参考スコア(独自算出の注目度): 41.9830989458936
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Large Language Models (LLMs) with strong abilities in natural language
processing tasks have emerged and have been applied in various kinds of areas
such as science, finance and software engineering. However, the capability of
LLMs to advance the field of chemistry remains unclear. In this paper, rather
than pursuing state-of-the-art performance, we aim to evaluate capabilities of
LLMs in a wide range of tasks across the chemistry domain. We identify three
key chemistry-related capabilities including understanding, reasoning and
explaining to explore in LLMs and establish a benchmark containing eight
chemistry tasks. Our analysis draws on widely recognized datasets facilitating
a broad exploration of the capacities of LLMs within the context of practical
chemistry. Five LLMs (GPT-4, GPT-3.5, Davinci-003, Llama and Galactica) are
evaluated for each chemistry task in zero-shot and few-shot in-context learning
settings with carefully selected demonstration examples and specially crafted
prompts. Our investigation found that GPT-4 outperformed other models and LLMs
exhibit different competitive levels in eight chemistry tasks. In addition to
the key findings from the comprehensive benchmark analysis, our work provides
insights into the limitation of current LLMs and the impact of in-context
learning settings on LLMs' performance across various chemistry tasks. The code
and datasets used in this study are available at
https://github.com/ChemFoundationModels/ChemLLMBench.
- Abstract(参考訳): 自然言語処理タスクにおいて強力な能力を持つ大規模言語モデル(LLM)が登場し、科学、金融、ソフトウェア工学など様々な分野に適用されてきた。
しかし、LSMが化学分野を前進させる能力は未だ不明である。
本稿では, 最先端性能を追求する代わりに, 化学領域にまたがる幅広いタスクにおいて, LLMの能力を評価することを目的とする。
LLMの理解、推論、説明を含む3つの重要な化学関連機能を同定し、8つの化学タスクを含むベンチマークを確立する。
本分析は, 実用化学の文脈におけるllmの容量の広範な探索を容易にする, 広く認識されたデータセットを取り上げている。
5つのLCM(GPT-4, GPT-3.5, Davinci-003, Llama, Galactica)をゼロショットおよび少数ショットのインコンテクスト学習環境において, 慎重に選択した実演例と特別なプロンプトを用いて評価した。
我々は, GPT-4が他のモデルより優れており, LLMは8つの化学タスクにおいて異なる競合レベルを示すことを示した。
総合的なベンチマーク分析から得られた重要な知見に加えて、我々の研究は、現在のLLMの制限と、様々な化学タスクにおけるLLMのパフォーマンスに対する文脈内学習設定の影響に関する洞察を提供する。
この研究で使用されたコードとデータセットはhttps://github.com/ChemFoundationModels/ChemLLMBench.comで公開されている。
関連論文リスト
- Benchmarking Large Language Models for Molecule Prediction Tasks [7.067145619709089]
大規模言語モデル(LLM)は多くの自然言語処理(NLP)タスクの最前線にある。
LLMは分子予測タスクを効果的に扱えるのか?
6つの標準分子データセットの分類および回帰予測タスクを同定する。
テキストベースのモデルと、分子の幾何学的構造を分析するために特別に設計されたモデルを含む、既存の機械学習(ML)モデルと比較する。
論文 参考訳(メタデータ) (2024-03-08T05:59:56Z) - LlaSMol: Advancing Large Language Models for Chemistry with a
Large-Scale, Comprehensive, High-Quality Instruction Tuning Dataset [14.015314320791031]
大規模言語モデル (LLMs) は, 包括的な化学タスクにおいて, 非常に強力な結果が得られることを示す。
私たちの成功の鍵は、SMolInstructという名前の命令チューニングのための大規模で包括的で高品質なデータセットです。
論文 参考訳(メタデータ) (2024-02-14T18:42:25Z) - From Words to Molecules: A Survey of Large Language Models in Chemistry [8.129759559674968]
本稿では,Large Language Models (LLM) を化学分野に組み込む際に用いられるニュアンスド方法論について考察する。
化学LLMを,その入力データのドメインとモダリティに基づいて3つの異なるグループに分類し,これらをLCMに組み込むアプローチについて議論する。
最後に,化学知識のさらなる統合,継続学習の進歩,モデル解釈可能性の向上など,有望な研究方向性を明らかにした。
論文 参考訳(メタデータ) (2024-02-02T14:30:48Z) - ChemDFM: Dialogue Foundation Model for Chemistry [27.804229420333137]
ChemDFM-13Bは、化学文献、教科書、命令から34Bトークンと、一般領域からの様々なデータに基づいて訓練されている。
高度な自由形式の言語理解能力を持ちながら、化学知識や言語を保存し、理解し、推論することができる。
ChemDFMは、大きな大きさの違いにもかかわらず、化学タスクの大部分でGPT-4を超えることができる。
論文 参考訳(メタデータ) (2024-01-26T12:45:55Z) - Structured Chemistry Reasoning with Large Language Models [70.13959639460015]
大規模言語モデル(LLMs)は様々な分野において優れているが、特に化学において複雑な科学的推論に苦慮している。
所望のガイダンスを提供し,LSMの化学的推論能力を大幅に向上させる,シンプルで効果的なプロンプト戦略であるStructChemを紹介した。
量子化学、力学、物理化学、運動学の4分野にわたる試験では、StructChemはGPT-4の性能を大幅に向上させ、最大30%のピーク改善を実現している。
論文 参考訳(メタデータ) (2023-11-16T08:20:36Z) - TRACE: A Comprehensive Benchmark for Continual Learning in Large
Language Models [52.734140807634624]
調整された大規模言語モデル(LLM)は、タスク解決、指示に従うこと、安全性を確保することにおいて、例外的な能力を示す。
既存の連続学習ベンチマークでは、LLMをリードする上で十分な課題が欠如している。
LLMにおける継続学習を評価するための新しいベンチマークであるTRACEを紹介する。
論文 参考訳(メタデータ) (2023-10-10T16:38:49Z) - Sentiment Analysis in the Era of Large Language Models: A Reality Check [69.97942065617664]
本稿では,大規模言語モデル(LLM)の様々な感情分析タスクの実行能力について検討する。
26のデータセット上の13のタスクのパフォーマンスを評価し、ドメイン固有のデータセットに基づいて訓練された小言語モデル(SLM)と比較した。
論文 参考訳(メタデータ) (2023-05-24T10:45:25Z) - Harnessing the Power of LLMs in Practice: A Survey on ChatGPT and Beyond [48.70557995528463]
このガイドは、研究者や実践者が大規模言語モデルを扱うための貴重な洞察とベストプラクティスを提供することを目的としている。
実世界のシナリオにおける LLM の実用的応用と限界を説明するために, 様々なユースケースと非利用事例を提示する。
論文 参考訳(メタデータ) (2023-04-26T17:52:30Z) - ElitePLM: An Empirical Study on General Language Ability Evaluation of
Pretrained Language Models [78.08792285698853]
本稿では,事前学習型言語モデル(ElitePLM)の汎用言語能力評価に関する大規模実証的研究について述べる。
実験の結果,(1)訓練対象の異なるPLMは異なる能力試験に適しており,(2)下流タスクの微調整PLMはデータサイズや分布に敏感であり,(3)PLMは類似タスク間の転送性に優れていた。
論文 参考訳(メタデータ) (2022-05-03T14:18:10Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。