論文の概要: Chimera: Accurate retrosynthesis prediction by ensembling models with diverse inductive biases
- arxiv url: http://arxiv.org/abs/2412.05269v1
- Date: Fri, 06 Dec 2024 18:55:19 GMT
- ステータス: 翻訳完了
- システム内更新日: 2024-12-09 15:56:57.705095
- Title: Chimera: Accurate retrosynthesis prediction by ensembling models with diverse inductive biases
- Title(参考訳): Chimera: 多様な帰納バイアスを持つアンサンブルモデルによる正確な再合成予測
- Authors: Krzysztof Maziarz, Guoqing Liu, Hubert Misztela, Aleksei Kornev, Piotr Gaiński, Holger Hoefling, Mike Fortunato, Rishi Gupta, Marwin Segler,
- Abstract要約: 化学合成の計画と実行は、機能的な小さな分子の発見において大きなボトルネックとなっている。
化学者が反応モデルを構築するためのフレームワークであるChimeraを提案する。
- 参考スコア(独自算出の注目度): 3.885174353072695
- License:
- Abstract: Planning and conducting chemical syntheses remains a major bottleneck in the discovery of functional small molecules, and prevents fully leveraging generative AI for molecular inverse design. While early work has shown that ML-based retrosynthesis models can predict reasonable routes, their low accuracy for less frequent, yet important reactions has been pointed out. As multi-step search algorithms are limited to reactions suggested by the underlying model, the applicability of those tools is inherently constrained by the accuracy of retrosynthesis prediction. Inspired by how chemists use different strategies to ideate reactions, we propose Chimera: a framework for building highly accurate reaction models that combine predictions from diverse sources with complementary inductive biases using a learning-based ensembling strategy. We instantiate the framework with two newly developed models, which already by themselves achieve state of the art in their categories. Through experiments across several orders of magnitude in data scale and time-splits, we show Chimera outperforms all major models by a large margin, owing both to the good individual performance of its constituents, but also to the scalability of our ensembling strategy. Moreover, we find that PhD-level organic chemists prefer predictions from Chimera over baselines in terms of quality. Finally, we transfer the largest-scale checkpoint to an internal dataset from a major pharmaceutical company, showing robust generalization under distribution shift. With the new dimension that our framework unlocks, we anticipate further acceleration in the development of even more accurate models.
- Abstract(参考訳): 化学合成の計画と実行は、機能する小さな分子の発見において大きなボトルネックであり、生成AIを分子逆設計に完全に活用するのを防ぐ。
初期の研究では、MLに基づく逆合成モデルが妥当な経路を予測できることが示されているが、その低い精度は少ないが重要な反応が指摘されている。
多段階探索アルゴリズムは、基礎となるモデルによって提案される反応に制限されるため、これらのツールの適用性は、レトロシンセシス予測の精度によって本質的に制約される。
このフレームワークは、さまざまなソースからの予測と、学習ベースのアンサンブル戦略を用いた相補的帰納的バイアスを組み合わせた、高精度な反応モデルを構築するためのものだ。
フレームワークを2つの新たに開発されたモデルでインスタンス化します。
データスケールとタイムスプリットにおける数桁の実験を通じて、Chimeraは、その構成体の優れた個別のパフォーマンスだけでなく、我々のエンハンスブル戦略のスケーラビリティの両方のために、すべての主要なモデルよりも大きなマージンでパフォーマンスを示す。
さらに,PhDレベルの有機化学者は,基準値よりもキメラの予測を好んでいる。
最後に、最大規模のチェックポイントを大手製薬会社から内部データセットに転送し、分散シフト下での堅牢な一般化を示す。
フレームワークがアンロックする新たな次元により、より正確なモデルの開発におけるさらなる加速が期待できる。
関連論文リスト
- Learning Chemical Reaction Representation with Reactant-Product Alignment [50.28123475356234]
本稿では,様々な有機反応関連タスクに適した新しい化学反応表現学習モデルであるモデルネームを紹介する。
反応物質と生成物との原子対応を統合することにより、反応中に生じる分子変換を識別し、反応機構の理解を深める。
反応条件を化学反応表現に組み込むアダプタ構造を設計し、様々な反応条件を処理し、様々なデータセットや下流タスク、例えば反応性能予測に適応できるようにした。
論文 参考訳(メタデータ) (2024-11-26T17:41:44Z) - log-RRIM: Yield Prediction via Local-to-global Reaction Representation Learning and Interaction Modeling [6.310759215182946]
log-RRIMは、化学反応の収量を予測するために設計された革新的なグラフトランスフォーマーベースのフレームワークである。
本手法は,一意の局所的-グローバル的反応表現学習戦略を実装している。
反応剤-試薬相互作用の高度なモデリングと小さな分子断片への感受性により、化学合成における反応計画と最適化のための貴重なツールとなる。
論文 参考訳(メタデータ) (2024-10-20T18:35:56Z) - UAlign: Pushing the Limit of Template-free Retrosynthesis Prediction with Unsupervised SMILES Alignment [51.49238426241974]
本稿では,テンプレートのないグラフ・ツー・シーケンスパイプラインであるUAlignを紹介した。
グラフニューラルネットワークとトランスフォーマーを組み合わせることで、分子固有のグラフ構造をより効果的に活用することができる。
論文 参考訳(メタデータ) (2024-03-25T03:23:03Z) - Beyond Major Product Prediction: Reproducing Reaction Mechanisms with
Machine Learning Models Trained on a Large-Scale Mechanistic Dataset [10.968137261042715]
有機反応の機械的理解は、反応の発生、不純物予測、そして原則として反応発見を促進する。
いくつかの機械学習モデルは、反応生成物を予測するタスクに対処しようとしているが、反応機構を予測するための拡張は、対応する力学データセットの欠如によって妨げられている。
実験によって報告された反応物質と生成物の中間体を専門家の反応テンプレートを用いて入力し、その結果の5,184,184個の基本ステップに基づいて機械学習モデルを訓練することにより、そのようなデータセットを構築する。
論文 参考訳(メタデータ) (2024-03-07T15:26:23Z) - Retrosynthesis prediction enhanced by in-silico reaction data
augmentation [66.5643280109899]
RetroWISEは,実データから推定されるベースモデルを用いて,シリコン内反応の生成と増大を行うフレームワークである。
3つのベンチマークデータセットで、RetroWISEは最先端モデルに対して最高の全体的なパフォーマンスを達成する。
論文 参考訳(メタデータ) (2024-01-31T07:40:37Z) - Holistic chemical evaluation reveals pitfalls in reaction prediction
models [0.3065062372337749]
本稿では, より総合的な評価をめざして, 現状のアプローチに基づく新たな評価手法を提案する。
ChoRISOは、化学的に関連するシナリオを再現するために、複数の調整された分割と共に、キュレートされたデータセットである。
私たちの研究は、最終的に化学発見を加速できる堅牢な予測モデルへの道を開いた。
論文 参考訳(メタデータ) (2023-12-14T14:54:28Z) - Retrieval-based Controllable Molecule Generation [63.44583084888342]
制御可能な分子生成のための検索に基づく新しいフレームワークを提案する。
我々は、与えられた設計基準を満たす分子の合成に向けて、事前学習された生成モデルを操るために、分子の小さなセットを使用します。
提案手法は生成モデルの選択に非依存であり,タスク固有の微調整は不要である。
論文 参考訳(メタデータ) (2022-08-23T17:01:16Z) - RetroXpert: Decompose Retrosynthesis Prediction like a Chemist [60.463900712314754]
そこで我々は, テンプレートフリーな自動逆合成拡張アルゴリズムを考案した。
我々の方法はレトロシンセシスを2段階に分解する。
最先端のベースラインよりも優れている一方で、我々のモデルは化学的に合理的な解釈も提供する。
論文 参考訳(メタデータ) (2020-11-04T04:35:34Z) - Data Transfer Approaches to Improve Seq-to-Seq Retrosynthesis [1.6449390849183363]
再合成は、化学反応によって与えられた生成物化合物を合成するために反応化合物を推測する問題である。
レトロ合成に関する最近の研究は、より洗練された予測モデルの提案に焦点を当てている。
モデルをフィードするデータセットは、最高の一般化モデルを達成する上でも重要な役割を果たす。
論文 参考訳(メタデータ) (2020-10-02T05:27:51Z) - Learning Graph Models for Retrosynthesis Prediction [90.15523831087269]
再合成予測は有機合成の基本的な問題である。
本稿では,前駆体分子のグラフトポロジーが化学反応中にほとんど変化しないという考え方を生かしたグラフベースのアプローチを提案する。
提案モデルでは,テンプレートフリーおよび半テンプレートベースの手法よりも高い5,3.7%の精度でトップ1の精度を実現している。
論文 参考訳(メタデータ) (2020-06-12T09:40:42Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。