論文の概要: Assessing the Chemical Intelligence of Large Language Models
- arxiv url: http://arxiv.org/abs/2505.07735v1
- Date: Mon, 12 May 2025 16:44:38 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-05-13 20:21:49.49625
- Title: Assessing the Chemical Intelligence of Large Language Models
- Title(参考訳): 大規模言語モデルのケミカルインテリジェンスの評価
- Authors: Nicholas T. Runcie, Charlotte M. Deane, Fergus Imrie,
- Abstract要約: 大規模言語モデルは多用途で汎用的なツールであり、幅広い用途がある。
有機化学の核となる概念を評価する796の質問からなる、ChemIQと呼ばれる新しいベンチマークを作成しました。
最新の推論モデルは、1Hと13CのNMRデータから構造を解明し、最大10個の重原子を含む分子の74%のSMILES文字列を正しく生成し、ある場合には21個の重原子からなる構造を解くことができる。
- 参考スコア(独自算出の注目度): 12.254249246104655
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Large Language Models are versatile, general-purpose tools with a wide range of applications. Recently, the advent of "reasoning models" has led to substantial improvements in their abilities in advanced problem-solving domains such as mathematics and software engineering. In this work, we assessed the ability of reasoning models to directly perform chemistry tasks, without any assistance from external tools. We created a novel benchmark, called ChemIQ, which consists of 796 questions assessing core concepts in organic chemistry, focused on molecular comprehension and chemical reasoning. Unlike previous benchmarks, which primarily use multiple choice formats, our approach requires models to construct short-answer responses, more closely reflecting real-world applications. The reasoning models, exemplified by OpenAI's o3-mini, correctly answered 28%-59% of questions depending on the reasoning level used, with higher reasoning levels significantly increasing performance on all tasks. These models substantially outperformed the non-reasoning model, GPT-4o, which achieved only 7% accuracy. We found that Large Language Models can now convert SMILES strings to IUPAC names, a task earlier models were unable to perform. Additionally, we show that the latest reasoning models can elucidate structures from 1H and 13C NMR data, correctly generating SMILES strings for 74% of molecules containing up to 10 heavy atoms, and in one case solving a structure comprising 21 heavy atoms. For each task, we found evidence that the reasoning process mirrors that of a human chemist. Our results demonstrate that the latest reasoning models have the ability to perform advanced chemical reasoning.
- Abstract(参考訳): 大規模言語モデルは多用途で汎用的なツールであり、幅広い用途がある。
近年、「推論モデル」の出現により、数学やソフトウェア工学といった先進的な問題解決分野におけるその能力が大幅に向上した。
本研究では,外部ツールを使わずに,モデルが直接化学処理を行う能力を評価した。
分子の理解と化学的推論に焦点を当てた,有機化学の中核的な概念を評価する796の質問からなる,ChemIQという新しいベンチマークを作成した。
主に複数の選択フォーマットを使用する従来のベンチマークとは異なり、我々のアプローチでは、より深く現実世界のアプリケーションに反映して、短応答を構築するモデルが必要です。
OpenAIのo3-miniで実証された推論モデルは、使用する推論レベルによって28%から59%の質問に正しく答えた。
これらのモデルは非共振モデルであるGPT-4oを大きく上回り、精度は7%に過ぎなかった。
大規模な言語モデルではSMILES文字列をIUPAC名に変換することができ、以前のモデルでは実行できなかった。
さらに、最新の推論モデルでは、1Hと13CのNMRデータから構造を解明し、最大10個の重原子を含む分子の74%のSMILES文字列を正しく生成し、一例では21個の重原子からなる構造を解くことができる。
それぞれのタスクについて、推論プロセスが人間の化学者を反映している証拠を発見した。
以上の結果から,最新の推論モデルには高度な化学推論を行う能力があることが示唆された。
関連論文リスト
- ChemAgent: Self-updating Library in Large Language Models Improves Chemical Reasoning [64.2106664137118]
ChemAgentは,大規模言語モデル(LLM)の性能向上を目的とした,新しいフレームワークである。
化学タスクをサブタスクに分解し、これらのサブタスクを将来のクエリに参照可能な構造化されたコレクションにコンパイルすることで開発される。
新しい問題を提示すると、ChemAgentは、私たちがメモリと呼ぶライブラリから関連する情報を検索し、精査する。
論文 参考訳(メタデータ) (2025-01-11T17:10:30Z) - ProcessBench: Identifying Process Errors in Mathematical Reasoning [62.80402845414901]
本稿では,数学的推論における誤ったステップを識別する能力を測定するためのProcessBenchを紹介する。
ProcessBenchは3400のテストケースで構成され、主に競合とオリンピアードレベルの数学問題に焦点を当てている。
我々はProcessBenchについて、プロセス報酬モデル(PRM)と批判モデルという2種類のモデルを含む広範囲な評価を行う。
論文 参考訳(メタデータ) (2024-12-09T15:11:40Z) - Pre-trained Molecular Language Models with Random Functional Group Masking [54.900360309677794]
SMILESをベースとしたアンダーリネム分子アンダーリネム言語アンダーリネムモデルを提案し,特定の分子原子に対応するSMILESサブシーケンスをランダムにマスキングする。
この技術は、モデルに分子構造や特性をよりよく推測させ、予測能力を高めることを目的としている。
論文 参考訳(メタデータ) (2024-11-03T01:56:15Z) - ChemLLM: A Chemical Large Language Model [49.308528569982805]
大規模言語モデル(LLM)は化学応用において顕著な進歩を遂げた。
しかし、コミュニティには化学に特化したLLMが欠落している。
本稿では,化学に特化した最初のLLMを特徴とする包括的フレームワークであるChemLLMを紹介する。
論文 参考訳(メタデータ) (2024-02-10T01:11:59Z) - ChemDFM: A Large Language Foundation Model for Chemistry [27.864255196445324]
より汎用的で効率的なソリューションは、多くのタスクに対処し、幅広い化学分野における自由形式の対話をサポートするAIモデルである。
我々は化学文献や教科書から34Bトークンを学習し、2.7Mインストラクションを用いて微調整した化学用LLMのパイオニアであるChemDFMを開発した。
我々はHuggingface上のChemDFMの推論コード、評価データセット、モデルウェイトをオープンソース化した。
論文 参考訳(メタデータ) (2024-01-26T12:45:55Z) - What can Large Language Models do in chemistry? A comprehensive
benchmark on eight tasks [41.9830989458936]
自然言語処理タスクに強力な能力を持つ大規模言語モデル(LLM)が出現している。
化学領域全体にわたる幅広いタスクにおいてLLMの能力を評価することを目的としている。
論文 参考訳(メタデータ) (2023-05-27T14:17:33Z) - ChemAlgebra: Algebraic Reasoning on Chemical Reactions [16.93639996082923]
ディープラーニングモデルが推論タスクに取り組む能力を持っているかどうかは不明だ。
ChemAlgebraは、ディープラーニングモデルの推論能力を測定するためのベンチマークである。
論文 参考訳(メタデータ) (2022-10-05T08:34:44Z) - Learning Latent Space Energy-Based Prior Model for Molecule Generation [59.875533935578375]
分子モデリングのためのSMILES表現を用いた潜時空間エネルギーに基づく先行モデルについて学習する。
本手法は,最先端モデルと競合する妥当性と特異性を持つ分子を生成することができる。
論文 参考訳(メタデータ) (2020-10-19T09:34:20Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。