論文の概要: Atom-anchored LLMs speak Chemistry: A Retrosynthesis Demonstration
- arxiv url: http://arxiv.org/abs/2510.16590v1
- Date: Sat, 18 Oct 2025 17:27:44 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-10-25 00:56:39.052742
- Title: Atom-anchored LLMs speak Chemistry: A Retrosynthesis Demonstration
- Title(参考訳): 原子アンコールLDMが化学を語る:再合成デモ
- Authors: Alan Kai Hassen, Andrius Bernatavicius, Antonius P. A. Janssen, Mike Preuss, Gerard J. P. van Westen, Djork-Arné Clevert,
- Abstract要約: 汎用大言語モデルを用いた分子推論のためのフレームワークを提案する。
本手法は, ユニークな原子識別子を用いて分子構造に対するチェーン・オブ・シント推論をアンカーする。
我々の研究は、理論的に基底付けられた合成データセットを生成する方法も提供する。
- 参考スコア(独自算出の注目度): 2.9496795797433073
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Applications of machine learning in chemistry are often limited by the scarcity and expense of labeled data, restricting traditional supervised methods. In this work, we introduce a framework for molecular reasoning using general-purpose Large Language Models (LLMs) that operates without requiring labeled training data. Our method anchors chain-of-thought reasoning to the molecular structure by using unique atomic identifiers. First, the LLM performs a one-shot task to identify relevant fragments and their associated chemical labels or transformation classes. In an optional second step, this position-aware information is used in a few-shot task with provided class examples to predict the chemical transformation. We apply our framework to single-step retrosynthesis, a task where LLMs have previously underperformed. Across academic benchmarks and expert-validated drug discovery molecules, our work enables LLMs to achieve high success rates in identifying chemically plausible reaction sites ($\geq90\%$), named reaction classes ($\geq40\%$), and final reactants ($\geq74\%$). Beyond solving complex chemical tasks, our work also provides a method to generate theoretically grounded synthetic datasets by mapping chemical knowledge onto the molecular structure and thereby addressing data scarcity.
- Abstract(参考訳): 化学における機械学習の応用は、しばしばラベル付きデータの不足と費用によって制限され、伝統的な教師付き手法が制限される。
本研究では,ラベル付き学習データを必要としない汎用大規模言語モデル(LLM)を用いた分子推論のためのフレームワークを提案する。
本手法は,ユニークな原子識別子を用いて分子構造に対するチェーン・オブ・シント推論をアンカーする。
まず、LCMは関連するフラグメントとその関連する化学ラベルまたは変換クラスを識別するためのワンショットタスクを実行する。
任意の第2ステップでは、この位置認識情報は、化学変換を予測するためのクラス例を備えた数ショットタスクで使用される。
この枠組みを1段階の逆合成に適用する。
我々の研究は、学術的なベンチマークや専門家が検証した薬物発見分子全体にわたって、LSMが化学的な可溶性反応部位(\geq90\%$)、命名された反応クラス(\geq40\%$)、最終反応物質(\geq74\%$)を同定する上で、高い成功率を達成することを可能にする。
我々の研究は、複雑な化学課題の解決以外にも、化学知識を分子構造にマッピングし、データ不足に対処することで、理論的に基盤付けられた合成データセットを生成する方法も提供しています。
関連論文リスト
- ChemOrch: Empowering LLMs with Chemical Intelligence via Synthetic Instructions [52.79349601462865]
ChemOrchは化学的に接地した命令応答対を合成するフレームワークである。
ChemOrchは、生成したタスクに対して、制御可能な多様性と難易度を実現する。
論文 参考訳(メタデータ) (2025-09-20T05:43:58Z) - A Multi-Agent System Enables Versatile Information Extraction from the Chemical Literature [8.306442315850878]
我々は,堅牢かつ自動化された化学情報抽出のためのマルチモーダル大規模言語モデル (MLLM) ベースのマルチエージェントシステムを開発した。
文献から得られた高精細なマルチモーダル化学反応画像のベンチマークデータセットにおいて,本システムは80.8%のF1スコアを達成した。
論文 参考訳(メタデータ) (2025-07-27T11:16:57Z) - ChemActor: Enhancing Automated Extraction of Chemical Synthesis Actions with LLM-Generated Data [53.78763789036172]
ケミカルエグゼキュータとして完全微調整された大規模言語モデル(LLM)であるChemActorを紹介し,非構造化実験手順と構造化動作シーケンスを変換する。
このフレームワークは、分散分散に基づくデータ選択モジュールと汎用LLMを統合し、単一の分子入力からマシン実行可能なアクションを生成する。
反応記述(R2D)と記述記述処理(D2A)のタスクの実験により、ChemActorは最先端のパフォーマンスを達成し、ベースラインモデルよりも10%高い性能を示した。
論文 参考訳(メタデータ) (2025-06-30T05:11:19Z) - ChemAgent: Self-updating Library in Large Language Models Improves Chemical Reasoning [64.2106664137118]
ChemAgentは,大規模言語モデル(LLM)の性能向上を目的とした,新しいフレームワークである。
化学タスクをサブタスクに分解し、これらのサブタスクを将来のクエリに参照可能な構造化されたコレクションにコンパイルすることで開発される。
新しい問題を提示すると、ChemAgentは、私たちがメモリと呼ぶライブラリから関連する情報を検索し、精査する。
論文 参考訳(メタデータ) (2025-01-11T17:10:30Z) - Contextual Molecule Representation Learning from Chemical Reaction
Knowledge [24.501564702095937]
本稿では,共通化学における原子結合規則をうまく利用した自己教師型学習フレームワークREMOを紹介する。
REMOは、文献における170万の既知の化学反応に関するグラフ/トランスフォーマーエンコーダを事前訓練する。
論文 参考訳(メタデータ) (2024-02-21T12:58:40Z) - ChemLLM: A Chemical Large Language Model [49.308528569982805]
大規模言語モデル(LLM)は化学応用において顕著な進歩を遂げた。
しかし、コミュニティには化学に特化したLLMが欠落している。
本稿では,化学に特化した最初のLLMを特徴とする包括的フレームワークであるChemLLMを紹介する。
論文 参考訳(メタデータ) (2024-02-10T01:11:59Z) - Chemist-X: Large Language Model-empowered Agent for Reaction Condition Recommendation in Chemical Synthesis [55.30328162764292]
Chemist-Xは、化学合成における反応条件最適化(RCO)タスクを自動化する包括的なAIエージェントである。
このエージェントは、検索強化世代(RAG)技術とAI制御のウェットラブ実験を実行する。
我々の自動ウェットラブ実験の結果は、LLMが制御するエンドツーエンドの操作を、ロボットに人間がいない状態で行うことで達成され、Chemist-Xの自動運転実験における能力が証明された。
論文 参考訳(メタデータ) (2023-11-16T01:21:33Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。