論文の概要: Holistic chemical evaluation reveals pitfalls in reaction prediction
models
- arxiv url: http://arxiv.org/abs/2312.09004v1
- Date: Thu, 14 Dec 2023 14:54:28 GMT
- ステータス: 処理完了
- システム内更新日: 2023-12-15 21:38:31.528044
- Title: Holistic chemical evaluation reveals pitfalls in reaction prediction
models
- Title(参考訳): 反応予測モデルにおける落とし穴の全体化学評価
- Authors: Victor Sabanza Gil, Andres M. Bran, Malte Franke, Remi Schlama, Jeremy
S. Luterbacher, Philippe Schwaller
- Abstract要約: 本稿では, より総合的な評価をめざして, 現状のアプローチに基づく新たな評価手法を提案する。
ChoRISOは、化学的に関連するシナリオを再現するために、複数の調整された分割と共に、キュレートされたデータセットである。
私たちの研究は、最終的に化学発見を加速できる堅牢な予測モデルへの道を開いた。
- 参考スコア(独自算出の注目度): 0.3065062372337749
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: The prediction of chemical reactions has gained significant interest within
the machine learning community in recent years, owing to its complexity and
crucial applications in chemistry. However, model evaluation for this task has
been mostly limited to simple metrics like top-k accuracy, which obfuscates
fine details of a model's limitations. Inspired by progress in other fields, we
propose a new assessment scheme that builds on top of current approaches,
steering towards a more holistic evaluation. We introduce the following key
components for this goal: CHORISO, a curated dataset along with multiple
tailored splits to recreate chemically relevant scenarios, and a collection of
metrics that provide a holistic view of a model's advantages and limitations.
Application of this method to state-of-the-art models reveals important
differences on sensitive fronts, especially stereoselectivity and chemical
out-of-distribution generalization. Our work paves the way towards robust
prediction models that can ultimately accelerate chemical discovery.
- Abstract(参考訳): 近年、化学反応の予測は、その複雑さと化学における重要な応用により、機械学習コミュニティで大きな関心を集めている。
しかし、このタスクのモデル評価は、主にトップk精度のような単純なメトリクスに限られており、モデルの制限の詳細な詳細を曖昧にしている。
他の分野の進歩に触発されて、より総合的な評価に向けて、現在のアプローチの上に構築する新しい評価手法を提案する。
CHORISOは、化学的に関係のあるシナリオを再現するための複数の調整された分割を伴う、キュレートされたデータセットであり、モデルの利点と制限の全体像を提供するメトリクスの集合である。
この手法の最先端モデルへの応用は、特に立体選択性と化学分布の一般化において重要な違いを示す。
私たちの研究は、最終的に化学発見を加速できる堅牢な予測モデルへの道を開いた。
関連論文リスト
- Challenging reaction prediction models to generalize to novel chemistry [12.33727805025678]
本稿では,SMILESに基づく深層学習モデルの一連の評価について報告する。
まず、ランダムにサンプリングされたデータセットのパフォーマンスが、新しい特許や新しい著者に一般化する際のパフォーマンスと比べて、過度に楽観的であることを示す。
第二に、トレーニングセットの何年にもわたってテストされたモデルがどのように機能するかを評価する時間分割を実施し、実際のデプロイメントを模倣します。
論文 参考訳(メタデータ) (2025-01-11T23:49:14Z) - Chimera: Accurate retrosynthesis prediction by ensembling models with diverse inductive biases [3.885174353072695]
化学合成の計画と実行は、機能的な小さな分子の発見において大きなボトルネックとなっている。
化学者が反応モデルを構築するためのフレームワークであるChimeraを提案する。
論文 参考訳(メタデータ) (2024-12-06T18:55:19Z) - Beyond Major Product Prediction: Reproducing Reaction Mechanisms with
Machine Learning Models Trained on a Large-Scale Mechanistic Dataset [10.968137261042715]
有機反応の機械的理解は、反応の発生、不純物予測、そして原則として反応発見を促進する。
いくつかの機械学習モデルは、反応生成物を予測するタスクに対処しようとしているが、反応機構を予測するための拡張は、対応する力学データセットの欠如によって妨げられている。
実験によって報告された反応物質と生成物の中間体を専門家の反応テンプレートを用いて入力し、その結果の5,184,184個の基本ステップに基づいて機械学習モデルを訓練することにより、そのようなデータセットを構築する。
論文 参考訳(メタデータ) (2024-03-07T15:26:23Z) - Predictive Churn with the Set of Good Models [64.05949860750235]
近似機械学習モデルの集合に対する競合予測の効果について検討する。
ラーショモン集合内のモデル間の係り受けに関する理論的結果を示す。
当社のアプローチは、コンシューマ向けアプリケーションにおいて、より予測し、削減し、混乱を避けるためにどのように使用できるかを示します。
論文 参考訳(メタデータ) (2024-02-12T16:15:25Z) - Bridging the Gap between Chemical Reaction Pretraining and Conditional
Molecule Generation with a Unified Model [3.3031562864527664]
反応表現学習と分子生成の両課題に対処する統合フレームワークを提案する。
有機化学機構にインスパイアされた我々は,モデルに誘導バイアスを組み込むことのできる,新しい事前学習フレームワークを開発した。
我々のフレームワークは、ダウンストリームタスクに挑戦する上で、最先端の結果を達成する。
論文 参考訳(メタデータ) (2023-03-13T10:06:41Z) - Retrieval-based Controllable Molecule Generation [63.44583084888342]
制御可能な分子生成のための検索に基づく新しいフレームワークを提案する。
我々は、与えられた設計基準を満たす分子の合成に向けて、事前学習された生成モデルを操るために、分子の小さなセットを使用します。
提案手法は生成モデルの選択に非依存であり,タスク固有の微調整は不要である。
論文 参考訳(メタデータ) (2022-08-23T17:01:16Z) - MetaRF: Differentiable Random Forest for Reaction Yield Prediction with
a Few Trails [58.47364143304643]
本稿では,反応収率予測問題に焦点をあてる。
筆者らはまず,数発の収量予測のために特別に設計された,注意に基づく識別可能なランダム森林モデルであるMetaRFを紹介した。
数発の学習性能を改善するために,さらに次元還元に基づくサンプリング手法を導入する。
論文 参考訳(メタデータ) (2022-08-22T06:40:13Z) - Improving Molecular Representation Learning with Metric
Learning-enhanced Optimal Transport [49.237577649802034]
分子レグレッション問題に対する一般化能力を高めるために,MROTと呼ばれる新しい最適輸送ベースアルゴリズムを開発した。
MROTは最先端のモデルよりも優れており、新しい物質の発見を加速する有望な可能性を示している。
論文 参考訳(メタデータ) (2022-02-13T04:56:18Z) - Integrating Expert ODEs into Neural ODEs: Pharmacology and Disease
Progression [71.7560927415706]
潜在ハイブリッドモデル(LHM)は、専門家が設計したODEのシステムと機械学習したNeural ODEを統合し、システムのダイナミクスを完全に記述する。
新型コロナウイルス患者のLHMと実世界の集中治療データについて検討した。
論文 参考訳(メタデータ) (2021-06-05T11:42:45Z) - Unassisted Noise Reduction of Chemical Reaction Data Sets [59.127921057012564]
本稿では,データセットから化学的に間違ったエントリを除去するための,機械学習に基づく無支援アプローチを提案する。
その結果,クリーン化およびバランスの取れたデータセットでトレーニングしたモデルの予測精度が向上した。
論文 参考訳(メタデータ) (2021-02-02T09:34:34Z) - Data Transfer Approaches to Improve Seq-to-Seq Retrosynthesis [1.6449390849183363]
再合成は、化学反応によって与えられた生成物化合物を合成するために反応化合物を推測する問題である。
レトロ合成に関する最近の研究は、より洗練された予測モデルの提案に焦点を当てている。
モデルをフィードするデータセットは、最高の一般化モデルを達成する上でも重要な役割を果たす。
論文 参考訳(メタデータ) (2020-10-02T05:27:51Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。