論文の概要: Teaching Language Models Mechanistic Explainability Through Arrow-Pushing
- arxiv url: http://arxiv.org/abs/2512.05722v1
- Date: Fri, 05 Dec 2025 13:57:50 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-12-13 22:40:57.046001
- Title: Teaching Language Models Mechanistic Explainability Through Arrow-Pushing
- Title(参考訳): アロープルーピングによる機械的説明可能性を教える言語モデル
- Authors: Théo A. Neukomm, Zlatko Jončev, Philippe Schwaller,
- Abstract要約: 化学反応機構は合成可能性に重要な洞察を与える。
現在のコンピュータ支援合成計画 (CASP) システムには機械的基礎が欠如している。
本稿では,化学反応のメカニズムを予測するために,言語モデルを教えるための計算フレームワークを提案する。
- 参考スコア(独自算出の注目度): 3.488381738536745
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Chemical reaction mechanisms provide crucial insight into synthesizability, yet current Computer-Assisted Synthesis Planning (CASP) systems lack mechanistic grounding. We introduce a computational framework for teaching language models to predict chemical reaction mechanisms through arrow pushing formalism, a century-old notation that tracks electron flow while respecting conservation laws. We developed MechSMILES, a compact textual format encoding molecular structure and electron flow, and trained language models on four mechanism prediction tasks of increasing complexity using mechanistic reaction datasets, such as mech-USPTO-31k and FlowER. Our models achieve more than 95\% top-3 accuracy on elementary step prediction and scores that surpass 73\% on mech-USPTO-31k, and 93\% on FlowER dataset for the retrieval of complete reaction mechanisms on our hardest task. This mechanistic understanding enables three key applications. First, our models serve as post-hoc validators for CASP systems, filtering chemically implausible transformations. Second, they enable holistic atom-to-atom mapping that tracks all atoms, including hydrogens. Third, they extract catalyst-aware reaction templates that distinguish recycled catalysts from spectator species. By grounding predictions in physically meaningful electron moves that ensure conservation of mass and charge, this work provides a pathway toward more explainable and chemically valid computational synthesis planning, while providing an architecture-agnostic framework for the benchmarking of mechanism prediction.
- Abstract(参考訳): 化学反応機構は、合成可能性に関する重要な洞察を提供するが、現在のコンピュータ支援合成計画(CASP)システムには機械的基盤がない。
本稿では, 保存法則を尊重しながら電子の流れを追跡する1世紀前の表記法である, 矢印押し形式による化学反応機構の予測を言語モデルで行うための計算フレームワークを提案する。
分子構造と電子フローを符号化したコンパクトテキスト形式であるMechSMILESを開発し,Mech-USPTO-31kやFlowERといった機械的反応データセットを用いて,複雑性を増大させる4つのメカニズム予測タスクを学習した。
本モデルでは, 基本ステップ予測では95%以上, メフUSPTO-31kでは73以上, FlowERデータセットでは93以上, 最も難しいタスクでは完全な反応機構の検索を行う。
この機械的理解は3つの重要な応用を可能にする。
まず、我々のモデルはCASPシステムのポストホックバリデータとして機能し、化学的に不可解な変換をフィルタリングする。
第2に、水素を含む全ての原子を追跡できる全体論的な原子間マッピングを可能にする。
第3に、リサイクルされた触媒とスペクター種を区別する触媒対応反応テンプレートを抽出する。
この研究は、質量と電荷の保存を保証する物理的に有意な電子移動の予測を基礎にすることで、より説明可能な、化学的に有効な計算合成計画への経路を提供するとともに、メカニズム予測のベンチマークのためのアーキテクチャに依存しないフレームワークを提供する。
関連論文リスト
- oMeBench: Towards Robust Benchmarking of LLMs in Organic Mechanism Elucidation and Reasoning [44.36582860924775]
有機化学における有機機構推論のための,最初の大規模で専門家によるベンチマークであるoMeBenchを紹介する。
また,ステップレベルの論理と化学的類似性を組み合わせた動的評価フレームワークoMeSを提案する。
論文 参考訳(メタデータ) (2025-10-09T03:13:31Z) - DeepMech: A Machine Learning Framework for Chemical Reaction Mechanism Prediction [2.15242029196761]
本稿では,化学反応機構を生成するための解釈可能なグラフベースディープラーニングフレームワークであるDeepMechを提案する。
DeepMechは、初歩予測において98.98 +/-0.12%の精度と完全なCRMタスクにおいて95.94 +/-0.21%の精度を達成する。
論文 参考訳(メタデータ) (2025-09-19T11:14:46Z) - Interpretable Deep Learning for Polar Mechanistic Reaction Prediction [43.95903801494905]
PMechRP(Polar Mechanistic Reaction Predictor)は,PMechDBデータセット上で機械学習モデルをトレーニングするシステムである。
私たちは、トランスフォーマーベース、グラフベース、および2段階のシアムアーキテクチャを含む、さまざまな機械学習モデルの比較をトレーニングします。
私たちの最高のパフォーマンスのアプローチはハイブリッドモデルで、5アンサンブルのChemformerモデルと2ステップのSiameseフレームワークを組み合わせたものです。
論文 参考訳(メタデータ) (2025-04-22T02:31:23Z) - Learning Chemical Reaction Representation with Reactant-Product Alignment [50.28123475356234]
RAlignは、様々な有機反応関連タスクのための新しい化学反応表現学習モデルである。
反応物質と生成物との原子対応を統合することにより、反応中に起こる分子変換を識別する。
モデルが重要な機能群に集中できるように,反応中心認識型アテンション機構を導入する。
論文 参考訳(メタデータ) (2024-11-26T17:41:44Z) - Pre-trained Molecular Language Models with Random Functional Group Masking [54.900360309677794]
SMILESをベースとしたアンダーリネム分子アンダーリネム言語アンダーリネムモデルを提案し,特定の分子原子に対応するSMILESサブシーケンスをランダムにマスキングする。
この技術は、モデルに分子構造や特性をよりよく推測させ、予測能力を高めることを目的としている。
論文 参考訳(メタデータ) (2024-11-03T01:56:15Z) - A Transformer Based Generative Chemical Language AI Model for Structural Elucidation of Organic Compounds [1.5628118690186594]
本稿では,概念変換器を用いた生成化学言語人工知能(AI)モデルを提案する。
我々のモデルはエンコーダ・デコーダアーキテクチャと自己保持機構を用いて、最も可能性の高い化学構造を直接生成する。
現代のCPUでは、29個の原子を持つ分子をわずか数秒で構造解明し、83%の精度でトップ15を達成している。
論文 参考訳(メタデータ) (2024-10-13T15:41:20Z) - ReactAIvate: A Deep Learning Approach to Predicting Reaction Mechanisms and Unmasking Reactivity Hotspots [4.362338454684645]
我々は,反応ステップ分類の精度を96%とほぼ均一に達成した,解釈可能な注意に基づくGNNを開発した。
我々のモデルは、配布外クラスからでも、キー原子を十分に識別します。
この一般性は、モジュラーな方法で新しい反応型を包含することができるため、新しい分子の反応性を理解するための専門家にとって価値がある。
論文 参考訳(メタデータ) (2024-07-14T05:53:18Z) - On the importance of catalyst-adsorbate 3D interactions for relaxed
energy predictions [98.70797778496366]
吸着剤の相対的な位置を無視しながら,OC20データセットの緩和エネルギーを予測できるかどうかを検討する。
結合サイト情報の削除は,期待通りに精度を低下させるが,修正モデルは極めて良好なMAEで緩和エネルギーを予測することができる。
論文 参考訳(メタデータ) (2023-10-10T14:57:04Z) - Towards out-of-distribution generalizable predictions of chemical
kinetics properties [61.15970601264632]
Out-Of-Distribution (OOD) の運動特性予測は一般化可能である必要がある。
本稿では,OODの運動特性予測を3つのレベル(構造,条件,機構)に分類する。
我々は、OOD設定における反応予測のための最先端MLアプローチと、速度論的特性予測問題における最先端グラフOOD手法をベンチマークするために、包括的なデータセットを作成する。
論文 参考訳(メタデータ) (2023-10-04T20:36:41Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。