論文の概要: Are large language models superhuman chemists?
- arxiv url: http://arxiv.org/abs/2404.01475v1
- Date: Mon, 1 Apr 2024 20:56:25 GMT
- ステータス: 処理完了
- システム内更新日: 2024-04-03 20:27:20.575493
- Title: Are large language models superhuman chemists?
- Title(参考訳): 大型言語モデルは超人化学者か?
- Authors: Adrian Mirza, Nawaf Alampara, Sreekanth Kunchapu, Benedict Emoekabu, Aswanth Krishnan, Mara Wilhelmi, Macjonathan Okereke, Juliane Eberhardt, Amir Mohammad Elahi, Maximilian Greiner, Caroline T. Holick, Tanya Gupta, Mehrdad Asgari, Christina Glaubitz, Lea C. Klepsch, Yannik Köster, Jakob Meyer, Santiago Miret, Tim Hoffmann, Fabian Alexander Kreth, Michael Ringleb, Nicole Roesner, Ulrich S. Schubert, Leanne M. Stafast, Dinga Wonanke, Michael Pieler, Philippe Schwaller, Kevin Maik Jablonka,
- Abstract要約: ケムベンチ(ChemBench)は、最先端モデルの化学知識と推論能力を厳格に評価する自動化されたフレームワークである。
我々は、化学科学の幅広いサブフィールドに対して7000以上の質問応答ペアをキュレートした。
私たちは、最高のモデルが、平均的な研究で最高の人間の化学者を上回っていることに気付きました。
- 参考スコア(独自算出の注目度): 5.1611032009738205
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Large language models (LLMs) have gained widespread interest due to their ability to process human language and perform tasks on which they have not been explicitly trained. This is relevant for the chemical sciences, which face the problem of small and diverse datasets that are frequently in the form of text. LLMs have shown promise in addressing these issues and are increasingly being harnessed to predict chemical properties, optimize reactions, and even design and conduct experiments autonomously. However, we still have only a very limited systematic understanding of the chemical reasoning capabilities of LLMs, which would be required to improve models and mitigate potential harms. Here, we introduce "ChemBench," an automated framework designed to rigorously evaluate the chemical knowledge and reasoning abilities of state-of-the-art LLMs against the expertise of human chemists. We curated more than 7,000 question-answer pairs for a wide array of subfields of the chemical sciences, evaluated leading open and closed-source LLMs, and found that the best models outperformed the best human chemists in our study on average. The models, however, struggle with some chemical reasoning tasks that are easy for human experts and provide overconfident, misleading predictions, such as about chemicals' safety profiles. These findings underscore the dual reality that, although LLMs demonstrate remarkable proficiency in chemical tasks, further research is critical to enhancing their safety and utility in chemical sciences. Our findings also indicate a need for adaptations to chemistry curricula and highlight the importance of continuing to develop evaluation frameworks to improve safe and useful LLMs.
- Abstract(参考訳): 大規模言語モデル(LLM)は、人間の言語を処理し、明示的に訓練されていないタスクを実行する能力によって、広く関心を集めている。
これは、テキスト形式で頻繁に行われる、小さく多様なデータセットの問題に直面している化学科学に関係している。
LLMはこれらの問題に対処する公約を示しており、化学特性の予測や反応の最適化、さらには自律的な設計と実験の実施にますます活用されている。
しかし, LLMの化学的推論能力については, モデルの改善と潜在的な害の軽減に必要となる, 非常に限定的な体系的理解しか得られていない。
ここでは,人間の化学者の専門知識に対して,最先端のLSMの化学知識と推論能力を厳格に評価する自動化フレームワークであるChemBenchを紹介する。
我々は、化学科学の幅広いサブフィールドに対して7000以上の質問応答ペアをキュレートし、オープンおよびクローズドソースのLCMを評価し、最良のモデルが平均的な研究で最高の人間化学者より優れていたことを発見した。
しかし、これらのモデルは、人間の専門家にとって容易な化学推論タスクと、化学物質の安全性プロファイルなど、過度に自信深く誤解を招く予測を提供するのに苦労している。
これらの結果は、LSMは化学タスクにおいて顕著な熟練性を示すが、化学科学における安全性と有用性を高めるためにさらなる研究が重要であるという二重現実を裏付けている。
また, 化学カリキュラムへの適応の必要性が示唆され, 安全性と有用性を高めるための評価フレームワークの開発を継続することの重要性が強調された。
関連論文リスト
- An Autonomous Large Language Model Agent for Chemical Literature Data
Mining [60.85177362167166]
本稿では,幅広い化学文献から高忠実度抽出が可能なエンドツーエンドAIエージェントフレームワークを提案する。
本フレームワークの有効性は,反応条件データの精度,リコール,F1スコアを用いて評価する。
論文 参考訳(メタデータ) (2024-02-20T13:21:46Z) - ChemLLM: A Chemical Large Language Model [49.308528569982805]
大規模言語モデル(LLM)は化学応用において顕著な進歩を遂げた。
しかし、コミュニティには化学に特化したLLMが欠落している。
本稿では,化学に特化した最初のLLMを特徴とする包括的フレームワークであるChemLLMを紹介する。
論文 参考訳(メタデータ) (2024-02-10T01:11:59Z) - From Words to Molecules: A Survey of Large Language Models in Chemistry [8.129759559674968]
本稿では,Large Language Models (LLM) を化学分野に組み込む際に用いられるニュアンスド方法論について考察する。
化学LLMを,その入力データのドメインとモダリティに基づいて3つの異なるグループに分類し,これらをLCMに組み込むアプローチについて議論する。
最後に,化学知識のさらなる統合,継続学習の進歩,モデル解釈可能性の向上など,有望な研究方向性を明らかにした。
論文 参考訳(メタデータ) (2024-02-02T14:30:48Z) - ChemDFM: Dialogue Foundation Model for Chemistry [27.804229420333137]
ChemDFM-13Bは、化学文献、教科書、命令から34Bトークンと、一般領域からの様々なデータに基づいて訓練されている。
高度な自由形式の言語理解能力を持ちながら、化学知識や言語を保存し、理解し、推論することができる。
ChemDFMは、大きな大きさの違いにもかかわらず、化学タスクの大部分でGPT-4を超えることができる。
論文 参考訳(メタデータ) (2024-01-26T12:45:55Z) - Structured Chemistry Reasoning with Large Language Models [70.13959639460015]
大規模言語モデル(LLMs)は様々な分野において優れているが、特に化学において複雑な科学的推論に苦慮している。
所望のガイダンスを提供し,LSMの化学的推論能力を大幅に向上させる,シンプルで効果的なプロンプト戦略であるStructChemを紹介した。
量子化学、力学、物理化学、運動学の4分野にわたる試験では、StructChemはGPT-4の性能を大幅に向上させ、最大30%のピーク改善を実現している。
論文 参考訳(メタデータ) (2023-11-16T08:20:36Z) - Chemist-X: Large Language Model-empowered Agent for Reaction Condition Recommendation in Chemical Synthesis [57.70772230913099]
Chemist-Xは、検索増強生成(RAG)技術を用いた化学合成において、反応条件レコメンデーション(RCR)タスクを自動化する。
Chemist-Xはオンラインの分子データベースを尋問し、最新の文献データベースから重要なデータを蒸留する。
Chemist-Xは化学者の作業量を大幅に減らし、より根本的で創造的な問題に集中できるようにする。
論文 参考訳(メタデータ) (2023-11-16T01:21:33Z) - SciBench: Evaluating College-Level Scientific Problem-Solving Abilities
of Large Language Models [72.92461995173201]
拡張ベンチマークスイートSciBench for Large Language Model (LLM)を導入する。
SciBenchには、数学、化学、物理学の分野から、さまざまな大学レベルの科学的問題を含むデータセットが含まれている。
その結果、現在のLLMは満足のいく性能を達成できないことが判明し、全体のスコアは43.22%に過ぎなかった。
論文 参考訳(メタデータ) (2023-07-20T07:01:57Z) - ChemCrow: Augmenting large-language models with chemistry tools [0.9195187117013247]
大規模言語モデル(LLM)は、領域全体にわたるタスクにおいて高いパフォーマンスを示してきたが、化学に関連した問題に悩まされている。
本研究では, 有機合成, 創薬, 材料設計における課題を遂行するLLM化学剤であるChemCrowを紹介する。
我々のエージェントは、昆虫の忌避剤である3種の有機触媒の合成を自律的に計画し、実行し、新しいクロモフォアの発見を導いた。
論文 参考訳(メタデータ) (2023-04-11T17:41:13Z) - ChemVise: Maximizing Out-of-Distribution Chemical Detection with the
Novel Application of Zero-Shot Learning [60.02503434201552]
本研究は,簡単な学習セットから複雑な露光の学習近似を提案する。
合成センサ応答に対するこのアプローチは, 分布外の化学分析物の検出を驚くほど改善することを示した。
論文 参考訳(メタデータ) (2023-02-09T20:19:57Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。