論文の概要: Are large language models superhuman chemists?
- arxiv url: http://arxiv.org/abs/2404.01475v1
- Date: Mon, 1 Apr 2024 20:56:25 GMT
- ステータス: 処理完了
- システム内更新日: 2024-04-03 20:27:20.575493
- Title: Are large language models superhuman chemists?
- Title(参考訳): 大型言語モデルは超人化学者か?
- Authors: Adrian Mirza, Nawaf Alampara, Sreekanth Kunchapu, Benedict Emoekabu, Aswanth Krishnan, Mara Wilhelmi, Macjonathan Okereke, Juliane Eberhardt, Amir Mohammad Elahi, Maximilian Greiner, Caroline T. Holick, Tanya Gupta, Mehrdad Asgari, Christina Glaubitz, Lea C. Klepsch, Yannik Köster, Jakob Meyer, Santiago Miret, Tim Hoffmann, Fabian Alexander Kreth, Michael Ringleb, Nicole Roesner, Ulrich S. Schubert, Leanne M. Stafast, Dinga Wonanke, Michael Pieler, Philippe Schwaller, Kevin Maik Jablonka,
- Abstract要約: ケムベンチ(ChemBench)は、最先端モデルの化学知識と推論能力を厳格に評価する自動化されたフレームワークである。
我々は、化学科学の幅広いサブフィールドに対して7000以上の質問応答ペアをキュレートした。
私たちは、最高のモデルが、平均的な研究で最高の人間の化学者を上回っていることに気付きました。
- 参考スコア(独自算出の注目度): 5.1611032009738205
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Large language models (LLMs) have gained widespread interest due to their ability to process human language and perform tasks on which they have not been explicitly trained. This is relevant for the chemical sciences, which face the problem of small and diverse datasets that are frequently in the form of text. LLMs have shown promise in addressing these issues and are increasingly being harnessed to predict chemical properties, optimize reactions, and even design and conduct experiments autonomously. However, we still have only a very limited systematic understanding of the chemical reasoning capabilities of LLMs, which would be required to improve models and mitigate potential harms. Here, we introduce "ChemBench," an automated framework designed to rigorously evaluate the chemical knowledge and reasoning abilities of state-of-the-art LLMs against the expertise of human chemists. We curated more than 7,000 question-answer pairs for a wide array of subfields of the chemical sciences, evaluated leading open and closed-source LLMs, and found that the best models outperformed the best human chemists in our study on average. The models, however, struggle with some chemical reasoning tasks that are easy for human experts and provide overconfident, misleading predictions, such as about chemicals' safety profiles. These findings underscore the dual reality that, although LLMs demonstrate remarkable proficiency in chemical tasks, further research is critical to enhancing their safety and utility in chemical sciences. Our findings also indicate a need for adaptations to chemistry curricula and highlight the importance of continuing to develop evaluation frameworks to improve safe and useful LLMs.
- Abstract(参考訳): 大規模言語モデル(LLM)は、人間の言語を処理し、明示的に訓練されていないタスクを実行する能力によって、広く関心を集めている。
これは、テキスト形式で頻繁に行われる、小さく多様なデータセットの問題に直面している化学科学に関係している。
LLMはこれらの問題に対処する公約を示しており、化学特性の予測や反応の最適化、さらには自律的な設計と実験の実施にますます活用されている。
しかし, LLMの化学的推論能力については, モデルの改善と潜在的な害の軽減に必要となる, 非常に限定的な体系的理解しか得られていない。
ここでは,人間の化学者の専門知識に対して,最先端のLSMの化学知識と推論能力を厳格に評価する自動化フレームワークであるChemBenchを紹介する。
我々は、化学科学の幅広いサブフィールドに対して7000以上の質問応答ペアをキュレートし、オープンおよびクローズドソースのLCMを評価し、最良のモデルが平均的な研究で最高の人間化学者より優れていたことを発見した。
しかし、これらのモデルは、人間の専門家にとって容易な化学推論タスクと、化学物質の安全性プロファイルなど、過度に自信深く誤解を招く予測を提供するのに苦労している。
これらの結果は、LSMは化学タスクにおいて顕著な熟練性を示すが、化学科学における安全性と有用性を高めるためにさらなる研究が重要であるという二重現実を裏付けている。
また, 化学カリキュラムへの適応の必要性が示唆され, 安全性と有用性を高めるための評価フレームワークの開発を継続することの重要性が強調された。
関連論文リスト
- ChemAgent: Self-updating Library in Large Language Models Improves Chemical Reasoning [64.2106664137118]
ChemAgentは,大規模言語モデル(LLM)の性能向上を目的とした,新しいフレームワークである。
化学タスクをサブタスクに分解し、これらのサブタスクを将来のクエリに参照可能な構造化されたコレクションにコンパイルすることで開発される。
新しい問題を提示すると、ChemAgentは、私たちがメモリと呼ぶライブラリから関連する情報を検索し、精査する。
論文 参考訳(メタデータ) (2025-01-11T17:10:30Z) - From Generalist to Specialist: A Survey of Large Language Models for Chemistry [14.317448405387195]
大言語モデル(LLM)は我々の日常生活を大きく変え、自然言語処理(NLP)の新しいパラダイムを確立した。
LLMの大規模なWebベースのテキストへの事前学習は、特に化学において先進的な科学的発見には不十分である。
化学におけるプレトレインド言語モデル(PLM)について、いくつかの研究がレビューされているが、化学指向のLSMに特に焦点を絞った系統的な調査は、顕著に行われていない。
論文 参考訳(メタデータ) (2024-12-28T03:40:25Z) - ChemEval: A Comprehensive Multi-Level Chemical Evaluation for Large Language Models [62.37850540570268]
この領域の既存のベンチマークは、化学研究専門家の特定の要求を適切に満たさない。
ChemEvalは化学の4つの重要な進歩レベルを特定し、42の異なる化学タスクで12次元のLCMを評価する。
その結果, LLMは文献の理解と指導に優れる一方で, 高度な化学知識を必要とするタスクでは不足していることがわかった。
論文 参考訳(メタデータ) (2024-09-21T02:50:43Z) - ChemVLM: Exploring the Power of Multimodal Large Language Models in Chemistry Area [50.15254966969718]
textbfChemVLMは、化学応用のためのオープンソースの化学マルチモーダル大規模言語モデルである。
ChemVLMは、テキストと視覚の化学情報の両方を理解する能力を高めるために、慎重にキュレートされたバイリンガルデータセットで訓練されている。
我々はChemVLMを、様々なタスクにおいて、オープンソースおよびプロプライエタリな多モーダルな大規模言語モデルに対してベンチマークする。
論文 参考訳(メタデータ) (2024-08-14T01:16:40Z) - ChemLLM: A Chemical Large Language Model [49.308528569982805]
大規模言語モデル(LLM)は化学応用において顕著な進歩を遂げた。
しかし、コミュニティには化学に特化したLLMが欠落している。
本稿では,化学に特化した最初のLLMを特徴とする包括的フレームワークであるChemLLMを紹介する。
論文 参考訳(メタデータ) (2024-02-10T01:11:59Z) - Large Language Model Distilling Medication Recommendation Model [58.94186280631342]
大規模言語モデル(LLM)の強力な意味理解と入力非依存特性を利用する。
本研究は, LLMを用いて既存の薬剤推奨手法を変換することを目的としている。
これを軽減するため,LLMの習熟度をよりコンパクトなモデルに伝達する機能レベルの知識蒸留技術を開発した。
論文 参考訳(メタデータ) (2024-02-05T08:25:22Z) - ChemDFM: A Large Language Foundation Model for Chemistry [27.864255196445324]
より汎用的で効率的なソリューションは、多くのタスクに対処し、幅広い化学分野における自由形式の対話をサポートするAIモデルである。
我々は化学文献や教科書から34Bトークンを学習し、2.7Mインストラクションを用いて微調整した化学用LLMのパイオニアであるChemDFMを開発した。
我々はHuggingface上のChemDFMの推論コード、評価データセット、モデルウェイトをオープンソース化した。
論文 参考訳(メタデータ) (2024-01-26T12:45:55Z) - Structured Chemistry Reasoning with Large Language Models [70.13959639460015]
大規模言語モデル(LLMs)は様々な分野において優れているが、特に化学において複雑な科学的推論に苦慮している。
所望のガイダンスを提供し,LSMの化学的推論能力を大幅に向上させる,シンプルで効果的なプロンプト戦略であるStructChemを紹介した。
量子化学、力学、物理化学、運動学の4分野にわたる試験では、StructChemはGPT-4の性能を大幅に向上させ、最大30%のピーク改善を実現している。
論文 参考訳(メタデータ) (2023-11-16T08:20:36Z) - What can Large Language Models do in chemistry? A comprehensive
benchmark on eight tasks [41.9830989458936]
自然言語処理タスクに強力な能力を持つ大規模言語モデル(LLM)が出現している。
化学領域全体にわたる幅広いタスクにおいてLLMの能力を評価することを目的としている。
論文 参考訳(メタデータ) (2023-05-27T14:17:33Z) - ChemCrow: Augmenting large-language models with chemistry tools [0.9195187117013247]
大規模言語モデル(LLM)は、領域全体にわたるタスクにおいて高いパフォーマンスを示してきたが、化学に関連した問題に悩まされている。
本研究では, 有機合成, 創薬, 材料設計における課題を遂行するLLM化学剤であるChemCrowを紹介する。
我々のエージェントは、昆虫の忌避剤である3種の有機触媒の合成を自律的に計画し、実行し、新しいクロモフォアの発見を導いた。
論文 参考訳(メタデータ) (2023-04-11T17:41:13Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。