論文の概要: Interpretable Deep Learning for Polar Mechanistic Reaction Prediction
- arxiv url: http://arxiv.org/abs/2504.15539v1
- Date: Tue, 22 Apr 2025 02:31:23 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-04-30 22:42:49.496818
- Title: Interpretable Deep Learning for Polar Mechanistic Reaction Prediction
- Title(参考訳): 極性機械反応予測のための解釈型深層学習
- Authors: Ryan J. Miller, Alexander E. Dashuta, Brayden Rudisill, David Van Vranken, Pierre Baldi,
- Abstract要約: PMechRP(Polar Mechanistic Reaction Predictor)は,PMechDBデータセット上で機械学習モデルをトレーニングするシステムである。
私たちは、トランスフォーマーベース、グラフベース、および2段階のシアムアーキテクチャを含む、さまざまな機械学習モデルの比較をトレーニングします。
私たちの最高のパフォーマンスのアプローチはハイブリッドモデルで、5アンサンブルのChemformerモデルと2ステップのSiameseフレームワークを組み合わせたものです。
- 参考スコア(独自算出の注目度): 43.95903801494905
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Accurately predicting chemical reactions is essential for driving innovation in synthetic chemistry, with broad applications in medicine, manufacturing, and agriculture. At the same time, reaction prediction is a complex problem which can be both time-consuming and resource-intensive for chemists to solve. Deep learning methods offer an appealing solution by enabling high-throughput reaction prediction. However, many existing models are trained on the US Patent Office dataset and treat reactions as overall transformations: mapping reactants directly to products with limited interpretability or mechanistic insight. To address this, we introduce PMechRP (Polar Mechanistic Reaction Predictor), a system that trains machine learning models on the PMechDB dataset, which represents reactions as polar elementary steps that capture electron flow and mechanistic detail. To further expand model coverage and improve generalization, we augment PMechDB with a diverse set of combinatorially generated reactions. We train and compare a range of machine learning models, including transformer-based, graph-based, and two-step siamese architectures. Our best-performing approach was a hybrid model, which combines a 5-ensemble of Chemformer models with a two-step Siamese framework to leverage the accuracy of transformer architectures, while filtering away "alchemical" products using the two-step network predictions. For evaluation, we use a test split of the PMechDB dataset and additionally curate a human benchmark dataset consisting of complete mechanistic pathways extracted from an organic chemistry textbook. Our hybrid model achieves a top-10 accuracy of 94.9% on the PMechDB test set and a target recovery rate of 84.9% on the pathway dataset.
- Abstract(参考訳): 化学反応の正確な予測は、化学化学における革新の推進に不可欠であり、医学、製造業、農業に広く応用されている。
同時に、反応予測は、化学者が解くのに時間がかかり、資源が集中する複雑な問題である。
ディープラーニング手法は、高スループットの反応予測を可能にすることで、魅力的なソリューションを提供する。
しかしながら、既存のモデルの多くは米国特許庁のデータセットに基づいてトレーニングされ、反応を全体的な変換として扱う。
これを解決するために,PMechRP (Polar Mechanistic Reaction Predictor) を導入する。PMechDBデータセット上で,電子の流れと機械的詳細を捉える極小ステップとして反応を表現する機械学習モデルを訓練するシステムである。
モデルカバレッジをさらに拡張し、一般化を改善するため、PMechDBを多種多様な組合せ生成反応で拡張する。
トランスフォーマーベース、グラフベース、および2段階のシアムアーキテクチャを含む、さまざまな機械学習モデルをトレーニングし、比較する。
我々の最も優れたアプローチは5段階のChemformerモデルと2段階のSiameseフレームワークを組み合わせたハイブリッドモデルで、トランスフォーマーアーキテクチャの精度を活用しながら、2段階のネットワーク予測を用いて"アルケミカル"製品をフィルタリングする。
評価にはPMechDBデータセットのテスト分割と,有機化学教科書から抽出した完全な力学経路からなるヒトベンチマークデータセットのキュレートを行う。
我々のハイブリッドモデルはPMechDBテストセットで94.9%、経路データセットで84.9%の精度を達成している。
関連論文リスト
- Towards Large-scale Chemical Reaction Image Parsing via a Multimodal Large Language Model [4.860497022313892]
化学反応画像を機械可読データに解析するために,反応画像マルチモーダル大言語モデル(RxnIM)を導入する。
RxnIMは反応画像から重要な化学成分を抽出し、反応条件を記述したテキスト内容を解釈する。
提案手法は,各種ベンチマークでF1スコアが平均88%,文献手法が5%を超え,優れた性能を実現している。
論文 参考訳(メタデータ) (2025-03-11T08:11:23Z) - Chemical knowledge-informed framework for privacy-aware retrosynthesis learning [60.93245342663455]
現在の機械学習に基づくレトロシンセシスは、複数のソースからの反応データを1つのエッジに集め、予測モデルを訓練する。
このパラダイムは、組織の境界を越えた広範なデータ可用性を必要とするため、かなりのプライバシーリスクをもたらす。
本研究では, 化学知識インフォームド・フレームワーク (CKIF) について紹介する。
論文 参考訳(メタデータ) (2025-02-26T13:13:24Z) - Chimera: Accurate retrosynthesis prediction by ensembling models with diverse inductive biases [3.885174353072695]
化学合成の計画と実行は、機能的な小さな分子の発見において大きなボトルネックとなっている。
化学者が反応モデルを構築するためのフレームワークであるChimeraを提案する。
論文 参考訳(メタデータ) (2024-12-06T18:55:19Z) - Learning Chemical Reaction Representation with Reactant-Product Alignment [50.28123475356234]
RAlignは、様々な有機反応関連タスクのための新しい化学反応表現学習モデルである。
反応物質と生成物との原子対応を統合することにより、反応中に起こる分子変換を識別する。
モデルが重要な機能群に集中できるように,反応中心認識型アテンション機構を導入する。
論文 参考訳(メタデータ) (2024-11-26T17:41:44Z) - BatGPT-Chem: A Foundation Large Model For Retrosynthesis Prediction [65.93303145891628]
BatGPT-Chemは150億のパラメータを持つ大規模な言語モデルであり、再合成予測の強化に最適化されている。
我々のモデルは幅広い化学知識を捉え、反応条件の正確な予測を可能にする。
この開発により、化学者は新しい化合物を十分に扱うことができ、医薬品製造と材料科学の革新サイクルを早める可能性がある。
論文 参考訳(メタデータ) (2024-08-19T05:17:40Z) - ReactAIvate: A Deep Learning Approach to Predicting Reaction Mechanisms and Unmasking Reactivity Hotspots [4.362338454684645]
我々は,反応ステップ分類の精度を96%とほぼ均一に達成した,解釈可能な注意に基づくGNNを開発した。
我々のモデルは、配布外クラスからでも、キー原子を十分に識別します。
この一般性は、モジュラーな方法で新しい反応型を包含することができるため、新しい分子の反応性を理解するための専門家にとって価値がある。
論文 参考訳(メタデータ) (2024-07-14T05:53:18Z) - Beyond Major Product Prediction: Reproducing Reaction Mechanisms with
Machine Learning Models Trained on a Large-Scale Mechanistic Dataset [10.968137261042715]
有機反応の機械的理解は、反応の発生、不純物予測、そして原則として反応発見を促進する。
いくつかの機械学習モデルは、反応生成物を予測するタスクに対処しようとしているが、反応機構を予測するための拡張は、対応する力学データセットの欠如によって妨げられている。
実験によって報告された反応物質と生成物の中間体を専門家の反応テンプレートを用いて入力し、その結果の5,184,184個の基本ステップに基づいて機械学習モデルを訓練することにより、そのようなデータセットを構築する。
論文 参考訳(メタデータ) (2024-03-07T15:26:23Z) - Retrosynthesis prediction enhanced by in-silico reaction data
augmentation [66.5643280109899]
RetroWISEは,実データから推定されるベースモデルを用いて,シリコン内反応の生成と増大を行うフレームワークである。
3つのベンチマークデータセットで、RetroWISEは最先端モデルに対して最高の全体的なパフォーマンスを達成する。
論文 参考訳(メタデータ) (2024-01-31T07:40:37Z) - Unassisted Noise Reduction of Chemical Reaction Data Sets [59.127921057012564]
本稿では,データセットから化学的に間違ったエントリを除去するための,機械学習に基づく無支援アプローチを提案する。
その結果,クリーン化およびバランスの取れたデータセットでトレーニングしたモデルの予測精度が向上した。
論文 参考訳(メタデータ) (2021-02-02T09:34:34Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。