論文の概要: Assessing the Chemical Intelligence of Large Language Models
- arxiv url: http://arxiv.org/abs/2505.07735v1
- Date: Mon, 12 May 2025 16:44:38 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-05-13 20:21:49.49625
- Title: Assessing the Chemical Intelligence of Large Language Models
- Title(参考訳): 大規模言語モデルのケミカルインテリジェンスの評価
- Authors: Nicholas T. Runcie, Charlotte M. Deane, Fergus Imrie,
- Abstract要約: 大規模言語モデルは多用途で汎用的なツールであり、幅広い用途がある。
有機化学の核となる概念を評価する796の質問からなる、ChemIQと呼ばれる新しいベンチマークを作成しました。
最新の推論モデルは、1Hと13CのNMRデータから構造を解明し、最大10個の重原子を含む分子の74%のSMILES文字列を正しく生成し、ある場合には21個の重原子からなる構造を解くことができる。
- 参考スコア(独自算出の注目度): 12.254249246104655
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Large Language Models are versatile, general-purpose tools with a wide range of applications. Recently, the advent of "reasoning models" has led to substantial improvements in their abilities in advanced problem-solving domains such as mathematics and software engineering. In this work, we assessed the ability of reasoning models to directly perform chemistry tasks, without any assistance from external tools. We created a novel benchmark, called ChemIQ, which consists of 796 questions assessing core concepts in organic chemistry, focused on molecular comprehension and chemical reasoning. Unlike previous benchmarks, which primarily use multiple choice formats, our approach requires models to construct short-answer responses, more closely reflecting real-world applications. The reasoning models, exemplified by OpenAI's o3-mini, correctly answered 28%-59% of questions depending on the reasoning level used, with higher reasoning levels significantly increasing performance on all tasks. These models substantially outperformed the non-reasoning model, GPT-4o, which achieved only 7% accuracy. We found that Large Language Models can now convert SMILES strings to IUPAC names, a task earlier models were unable to perform. Additionally, we show that the latest reasoning models can elucidate structures from 1H and 13C NMR data, correctly generating SMILES strings for 74% of molecules containing up to 10 heavy atoms, and in one case solving a structure comprising 21 heavy atoms. For each task, we found evidence that the reasoning process mirrors that of a human chemist. Our results demonstrate that the latest reasoning models have the ability to perform advanced chemical reasoning.
- Abstract(参考訳): 大規模言語モデルは多用途で汎用的なツールであり、幅広い用途がある。
近年、「推論モデル」の出現により、数学やソフトウェア工学といった先進的な問題解決分野におけるその能力が大幅に向上した。
本研究では,外部ツールを使わずに,モデルが直接化学処理を行う能力を評価した。
分子の理解と化学的推論に焦点を当てた,有機化学の中核的な概念を評価する796の質問からなる,ChemIQという新しいベンチマークを作成した。
主に複数の選択フォーマットを使用する従来のベンチマークとは異なり、我々のアプローチでは、より深く現実世界のアプリケーションに反映して、短応答を構築するモデルが必要です。
OpenAIのo3-miniで実証された推論モデルは、使用する推論レベルによって28%から59%の質問に正しく答えた。
これらのモデルは非共振モデルであるGPT-4oを大きく上回り、精度は7%に過ぎなかった。
大規模な言語モデルではSMILES文字列をIUPAC名に変換することができ、以前のモデルでは実行できなかった。
さらに、最新の推論モデルでは、1Hと13CのNMRデータから構造を解明し、最大10個の重原子を含む分子の74%のSMILES文字列を正しく生成し、一例では21個の重原子からなる構造を解くことができる。
それぞれのタスクについて、推論プロセスが人間の化学者を反映している証拠を発見した。
以上の結果から,最新の推論モデルには高度な化学推論を行う能力があることが示唆された。
関連論文リスト
- MolReasoner: Toward Effective and Interpretable Reasoning for Molecular LLMs [30.030008221150407]
MolReasonerは、大規模言語モデルを記憶から化学推論に移行するために設計された2段階のフレームワークである。
まず,GPT-4o で生成した合成Chain-of-Thought(CoT) サンプルを用いてモデルの推論能力を初期化し,化学的精度を検証した Mol-SFT を提案する。
その後、Moll-RLは、化学構造と言語的記述との整合性を明確に設計した特殊報酬関数による強化学習を適用した。
論文 参考訳(メタデータ) (2025-08-04T05:10:11Z) - UMA: A Family of Universal Models for Atoms [16.3404265902621]
我々は、スピード、精度、一般化のフロンティアを推し進めるために設計されたUniversal Models for Atoms (UMA) のファミリーを提示する。
UMAモデルは、複数の化学ドメインにまたがるデータをコンパイルすることで、5億のユニークな3D原子構造で訓練されている。
複数のドメインにまたがる多様なアプリケーション上でのUMAモデルの評価を行い、驚くほど、微調整のない単一モデルでも、専門モデルと同じような、あるいはより優れた性能を発揮できることを示した。
論文 参考訳(メタデータ) (2025-06-30T15:38:13Z) - Training a Scientific Reasoning Model for Chemistry [3.52064464182155]
推論モデルは、追加のドメイン事前学習をすることなく、化学のための後処理が可能であることを実証する。
自然言語で推論し,化学構造に反応する24Bパラメータのether0を報告する。
論文 参考訳(メタデータ) (2025-06-04T17:57:18Z) - Nemotron-CrossThink: Scaling Self-Learning beyond Math Reasoning [66.43194385702297]
大規模言語モデル(LLM)は、特に強化学習(RL)を通じて強化された場合、強力な推論能力を示している。
NEMOTRON-CROSSTHINKは、多領域コーパスを体系的に組み込んだフレームワークであり、合成および実世界の問合せ対を含む。
論文 参考訳(メタデータ) (2025-04-15T21:37:13Z) - Quantization Hurts Reasoning? An Empirical Study on Quantized Reasoning Models [48.98109982725689]
我々は、オープンソースのDeepSeek-R1-Distilled QwenおよびLLaMAファミリーを評価し、量子化推論モデルに関する最初の体系的研究を行う。
本研究は,様々なビット幅の最先端アルゴリズムを用いて,重み,KVキャッシュ,アクティベーション量子化について検討する。
モデルのサイズ、モデルの起源、タスクの難しさを、パフォーマンスの重要な決定要因とみなす。
論文 参考訳(メタデータ) (2025-04-07T08:22:45Z) - ChemAgent: Self-updating Library in Large Language Models Improves Chemical Reasoning [64.2106664137118]
ChemAgentは,大規模言語モデル(LLM)の性能向上を目的とした,新しいフレームワークである。
化学タスクをサブタスクに分解し、これらのサブタスクを将来のクエリに参照可能な構造化されたコレクションにコンパイルすることで開発される。
新しい問題を提示すると、ChemAgentは、私たちがメモリと呼ぶライブラリから関連する情報を検索し、精査する。
論文 参考訳(メタデータ) (2025-01-11T17:10:30Z) - ProcessBench: Identifying Process Errors in Mathematical Reasoning [62.80402845414901]
本稿では,数学的推論における誤ったステップを識別する能力を測定するためのProcessBenchを紹介する。
ProcessBenchは3400のテストケースで構成され、主に競合とオリンピアードレベルの数学問題に焦点を当てている。
我々はProcessBenchについて、プロセス報酬モデル(PRM)と批判モデルという2種類のモデルを含む広範囲な評価を行う。
論文 参考訳(メタデータ) (2024-12-09T15:11:40Z) - Pre-trained Molecular Language Models with Random Functional Group Masking [54.900360309677794]
SMILESをベースとしたアンダーリネム分子アンダーリネム言語アンダーリネムモデルを提案し,特定の分子原子に対応するSMILESサブシーケンスをランダムにマスキングする。
この技術は、モデルに分子構造や特性をよりよく推測させ、予測能力を高めることを目的としている。
論文 参考訳(メタデータ) (2024-11-03T01:56:15Z) - ChemLLM: A Chemical Large Language Model [49.308528569982805]
大規模言語モデル(LLM)は化学応用において顕著な進歩を遂げた。
しかし、コミュニティには化学に特化したLLMが欠落している。
本稿では,化学に特化した最初のLLMを特徴とする包括的フレームワークであるChemLLMを紹介する。
論文 参考訳(メタデータ) (2024-02-10T01:11:59Z) - ChemDFM: A Large Language Foundation Model for Chemistry [27.864255196445324]
より汎用的で効率的なソリューションは、多くのタスクに対処し、幅広い化学分野における自由形式の対話をサポートするAIモデルである。
我々は化学文献や教科書から34Bトークンを学習し、2.7Mインストラクションを用いて微調整した化学用LLMのパイオニアであるChemDFMを開発した。
我々はHuggingface上のChemDFMの推論コード、評価データセット、モデルウェイトをオープンソース化した。
論文 参考訳(メタデータ) (2024-01-26T12:45:55Z) - What can Large Language Models do in chemistry? A comprehensive
benchmark on eight tasks [41.9830989458936]
自然言語処理タスクに強力な能力を持つ大規模言語モデル(LLM)が出現している。
化学領域全体にわたる幅広いタスクにおいてLLMの能力を評価することを目的としている。
論文 参考訳(メタデータ) (2023-05-27T14:17:33Z) - Specializing Smaller Language Models towards Multi-Step Reasoning [56.78474185485288]
GPT-3.5 (ge$ 175B) から T5 変種 (le$ 11B) までを蒸留できることを示す。
対象タスクに対するモデルの能力を専門化するモデル特殊化を提案する。
論文 参考訳(メタデータ) (2023-01-30T08:51:19Z) - ChemAlgebra: Algebraic Reasoning on Chemical Reactions [16.93639996082923]
ディープラーニングモデルが推論タスクに取り組む能力を持っているかどうかは不明だ。
ChemAlgebraは、ディープラーニングモデルの推論能力を測定するためのベンチマークである。
論文 参考訳(メタデータ) (2022-10-05T08:34:44Z) - Learning Latent Space Energy-Based Prior Model for Molecule Generation [59.875533935578375]
分子モデリングのためのSMILES表現を用いた潜時空間エネルギーに基づく先行モデルについて学習する。
本手法は,最先端モデルと競合する妥当性と特異性を持つ分子を生成することができる。
論文 参考訳(メタデータ) (2020-10-19T09:34:20Z) - Self-Supervised Graph Transformer on Large-Scale Molecular Data [73.3448373618865]
分子表現学習のための新しいフレームワークGROVERを提案する。
GROVERは、分子の豊富な構造的および意味的な情報を、巨大な未標識分子データから学習することができる。
分子表現学習において、最大のGNNであり、最大のトレーニングデータセットである、1000万個の未標識分子に1億のパラメータを持つGROVERを事前訓練します。
論文 参考訳(メタデータ) (2020-06-18T08:37:04Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。