論文の概要: Reasoning-Driven Retrosynthesis Prediction with Large Language Models via Reinforcement Learning
- arxiv url: http://arxiv.org/abs/2507.17448v1
- Date: Wed, 23 Jul 2025 12:13:06 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-07-24 22:33:14.981367
- Title: Reasoning-Driven Retrosynthesis Prediction with Large Language Models via Reinforcement Learning
- Title(参考訳): 強化学習による大規模言語モデルによる推論駆動再合成予測
- Authors: Situo Zhang, Hanqi Li, Lu Chen, Zihan Zhao, Xuanze Lin, Zichen Zhu, Bo Chen, Xin Chen, Kai Yu,
- Abstract要約: RetroDFM-R(RetroDFM-R)は化学レトロシンセシス向けに設計された推論に基づく大規模言語モデル(LLM)である。
これは予測精度と説明可能性を大幅に向上させ、USPTO-50Kベンチマークでトップ1の精度は65.0%に達した。
また、現実世界の薬物分子とペロブスカイト物質の両方の文献で報告されている多段階の逆合成経路を正確に予測する。
- 参考スコア(独自算出の注目度): 16.284576756413184
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Retrosynthesis planning, essential in organic synthesis and drug discovery, has greatly benefited from recent AI-driven advancements. Nevertheless, existing methods frequently face limitations in both applicability and explainability. Traditional graph-based and sequence-to-sequence models often lack generalized chemical knowledge, leading to predictions that are neither consistently accurate nor easily explainable. To address these challenges, we introduce RetroDFM-R, a reasoning-based large language model (LLM) designed specifically for chemical retrosynthesis. Leveraging large-scale reinforcement learning guided by chemically verifiable rewards, RetroDFM-R significantly enhances prediction accuracy and explainability. Comprehensive evaluations demonstrate that RetroDFM-R significantly outperforms state-of-the-art methods, achieving a top-1 accuracy of 65.0% on the USPTO-50K benchmark. Double-blind human assessments further validate the chemical plausibility and practical utility of RetroDFM-R's predictions. RetroDFM-R also accurately predicts multistep retrosynthetic routes reported in the literature for both real-world drug molecules and perovskite materials. Crucially, the model's explicit reasoning process provides human-interpretable insights, thereby enhancing trust and practical value in real-world retrosynthesis applications.
- Abstract(参考訳): 有機合成と創薬に欠かせない再合成計画は、最近のAIによる進歩の大きな恩恵を受けている。
それにもかかわらず、既存の手法は適用可能性と説明可能性の両方の限界に直面している。
従来のグラフベースおよびシーケンシャル・ツー・シーケンス・モデルでは、一般的な化学知識が欠如しており、一貫して正確で容易に説明できるような予測に繋がる。
これらの課題に対処するために,化学レトロシンセシスに特化して設計された推論に基づく大規模言語モデル(LLM)RetroDFM-Rを紹介する。
化学的に検証可能な報酬によって導かれる大規模強化学習を活用することで、RetroDFM-Rは予測精度と説明可能性を大幅に向上させる。
総合的な評価では、RetroDFM-Rは最先端の手法よりも大幅に優れており、USPTO-50Kベンチマークでトップ1の精度は65.0%である。
二重盲検評価は、RetroDFM-Rの予測の化学的妥当性と実用性をさらに検証する。
RetroDFM-Rはまた、現実世界の薬物分子とペロブスカイト物質の両方の文献で報告されている多段階の逆合成経路を正確に予測する。
重要なことに、モデルの明示的な推論プロセスは、人間の解釈可能な洞察を与え、現実世界のレトロシンセシス応用における信頼と実践的価値を高める。
関連論文リスト
- Enhancing Chemical Reaction and Retrosynthesis Prediction with Large Language Model and Dual-task Learning [8.402406301818905]
大規模言語モデル(LLM)は、多くの領域において可能性を示している。
ChemDualは正確な化学合成のための新しいフレームワークである。
ChemDualは反応の予測とレトロ合成の両方において最先端のパフォーマンスを達成する。
論文 参考訳(メタデータ) (2025-05-05T13:31:36Z) - Interpretable Deep Learning for Polar Mechanistic Reaction Prediction [43.95903801494905]
PMechRP(Polar Mechanistic Reaction Predictor)は,PMechDBデータセット上で機械学習モデルをトレーニングするシステムである。
私たちは、トランスフォーマーベース、グラフベース、および2段階のシアムアーキテクチャを含む、さまざまな機械学習モデルの比較をトレーニングします。
私たちの最高のパフォーマンスのアプローチはハイブリッドモデルで、5アンサンブルのChemformerモデルと2ステップのSiameseフレームワークを組み合わせたものです。
論文 参考訳(メタデータ) (2025-04-22T02:31:23Z) - Chemical knowledge-informed framework for privacy-aware retrosynthesis learning [72.39098405805318]
現在の機械学習に基づくレトロシンセシスは、複数のソースからの反応データを1つのエッジに集め、予測モデルを訓練する。
このパラダイムは、組織の境界を越えた広範なデータ可用性を必要とするため、かなりのプライバシーリスクをもたらす。
本研究では, 化学知識インフォームド・フレームワーク (CKIF) について紹介する。
論文 参考訳(メタデータ) (2025-02-26T13:13:24Z) - Chimera: Accurate retrosynthesis prediction by ensembling models with diverse inductive biases [3.885174353072695]
化学合成の計画と実行は、機能的な小さな分子の発見において大きなボトルネックとなっている。
化学者が反応モデルを構築するためのフレームワークであるChimeraを提案する。
論文 参考訳(メタデータ) (2024-12-06T18:55:19Z) - BatGPT-Chem: A Foundation Large Model For Retrosynthesis Prediction [65.93303145891628]
BatGPT-Chemは150億のパラメータを持つ大規模な言語モデルであり、再合成予測の強化に最適化されている。
我々のモデルは幅広い化学知識を捉え、反応条件の正確な予測を可能にする。
この開発により、化学者は新しい化合物を十分に扱うことができ、医薬品製造と材料科学の革新サイクルを早める可能性がある。
論文 参考訳(メタデータ) (2024-08-19T05:17:40Z) - UAlign: Pushing the Limit of Template-free Retrosynthesis Prediction with Unsupervised SMILES Alignment [51.49238426241974]
本稿では,テンプレートのないグラフ・ツー・シーケンスパイプラインであるUAlignを紹介した。
グラフニューラルネットワークとトランスフォーマーを組み合わせることで、分子固有のグラフ構造をより効果的に活用することができる。
論文 参考訳(メタデータ) (2024-03-25T03:23:03Z) - Retrosynthesis prediction enhanced by in-silico reaction data
augmentation [66.5643280109899]
RetroWISEは,実データから推定されるベースモデルを用いて,シリコン内反応の生成と増大を行うフレームワークである。
3つのベンチマークデータセットで、RetroWISEは最先端モデルに対して最高の全体的なパフォーマンスを達成する。
論文 参考訳(メタデータ) (2024-01-31T07:40:37Z) - RetroOOD: Understanding Out-of-Distribution Generalization in
Retrosynthesis Prediction [15.699673606816496]
機械学習によるレトロシンセシス予測モデルが広く採用されている。
標準ベンチマークの着実な進歩にもかかわらず、分布シフトの前提下での既存の再合成予測モデルの理解は停滞している。
任意のオフザシェルフ再合成予測アルゴリズムのOOD一般化を改善する2つのモデルに依存しない手法を提案する。
論文 参考訳(メタデータ) (2023-12-18T03:12:19Z) - Improving Molecular Representation Learning with Metric
Learning-enhanced Optimal Transport [49.237577649802034]
分子レグレッション問題に対する一般化能力を高めるために,MROTと呼ばれる新しい最適輸送ベースアルゴリズムを開発した。
MROTは最先端のモデルよりも優れており、新しい物質の発見を加速する有望な可能性を示している。
論文 参考訳(メタデータ) (2022-02-13T04:56:18Z) - Unassisted Noise Reduction of Chemical Reaction Data Sets [59.127921057012564]
本稿では,データセットから化学的に間違ったエントリを除去するための,機械学習に基づく無支援アプローチを提案する。
その結果,クリーン化およびバランスの取れたデータセットでトレーニングしたモデルの予測精度が向上した。
論文 参考訳(メタデータ) (2021-02-02T09:34:34Z) - Energy-based View of Retrosynthesis [70.66156081030766]
エネルギーモデルとしてシーケンスおよびグラフベースの手法を統一するフレームワークを提案する。
本稿では,ベイズ前方および後方予測に対して一貫した訓練を行うフレームワーク内での新しい二重変種を提案する。
このモデルは、反応型が不明なテンプレートフリーアプローチに対して、最先端の性能を9.6%向上させる。
論文 参考訳(メタデータ) (2020-07-14T18:51:06Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。