論文の概要: Copy-Augmented Representation for Structure Invariant Template-Free Retrosynthesis
- arxiv url: http://arxiv.org/abs/2510.16588v1
- Date: Sat, 18 Oct 2025 17:25:36 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-10-25 00:56:39.051717
- Title: Copy-Augmented Representation for Structure Invariant Template-Free Retrosynthesis
- Title(参考訳): Copy-Augmented Representation for Structure Invariant Template-free Retro synthesis (特集:バイオサイバネティックスとバイオサイバネティックス)
- Authors: Jiaxi Zhuang, Yu Zhang, Aimin Zhou, Ying Qian,
- Abstract要約: C-SMILESは、従来のSMILESを5つの特別なトークンを持つ要素対に分解する新しい表現である。
提案手法はSMILESアライメントガイダンスを統合し,アテンションの整合性向上と地中構造原子マッピングを実現する。
この研究は、生成分子の99.9%の妥当性を持つ構造認識分子生成の新しいパラダイムを確立する。
- 参考スコア(独自算出の注目度): 17.5286075847689
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Retrosynthesis prediction is fundamental to drug discovery and chemical synthesis, requiring the identification of reactants that can produce a target molecule. Current template-free methods struggle to capture the structural invariance inherent in chemical reactions, where substantial molecular scaffolds remain unchanged, leading to unnecessarily large search spaces and reduced prediction accuracy. We introduce C-SMILES, a novel molecular representation that decomposes traditional SMILES into element-token pairs with five special tokens, effectively minimizing editing distance between reactants and products. Building upon this representation, we incorporate a copy-augmented mechanism that dynamically determines whether to generate new tokens or preserve unchanged molecular fragments from the product. Our approach integrates SMILES alignment guidance to enhance attention consistency with ground-truth atom mappings, enabling more chemically coherent predictions. Comprehensive evaluation on USPTO-50K and large-scale USPTO-FULL datasets demonstrates significant improvements: 67.2% top-1 accuracy on USPTO-50K and 50.8% on USPTO-FULL, with 99.9% validity in generated molecules. This work establishes a new paradigm for structure-aware molecular generation with direct applications in computational drug discovery.
- Abstract(参考訳): 再合成予測は、薬物の発見と化学合成の基礎であり、標的分子を生成できる反応物質を同定する必要がある。
現在のテンプレートフリーな手法では、化学反応に固有の構造的不変性を捉えるのに苦労し、かなりの分子足場は変化せず、必要以上に大きな探索空間となり、予測精度が低下する。
従来のSMILESを5つの特別なトークンを持つ元素対に分解し,反応物と生成物の編集距離を効果的に最小化する分子表現であるC-SMILESを紹介する。
この表現に基づいて、新しいトークンを生成するか、あるいは変化しない分子断片を製品から保存するかを動的に決定するコピー拡張機構を組み込む。
提案手法はSMILESアライメントガイダンスを統合し,地中原子マッピングによるアライメントの整合性を高め,より化学的に一貫性のある予測を可能にする。
USPTO-50Kと大規模USPTO-FULLデータセットの総合評価では、USPTO-50Kで67.2%、USPTO-FULLで50.8%、生成された分子で99.9%の精度で大幅に改善されている。
この研究は、計算薬物発見に直接応用した構造認識分子生成の新しいパラダイムを確立する。
関連論文リスト
- BatGPT-Chem: A Foundation Large Model For Retrosynthesis Prediction [65.93303145891628]
BatGPT-Chemは150億のパラメータを持つ大規模な言語モデルであり、再合成予測の強化に最適化されている。
我々のモデルは幅広い化学知識を捉え、反応条件の正確な予測を可能にする。
この開発により、化学者は新しい化合物を十分に扱うことができ、医薬品製造と材料科学の革新サイクルを早める可能性がある。
論文 参考訳(メタデータ) (2024-08-19T05:17:40Z) - YZS-model: A Predictive Model for Organic Drug Solubility Based on Graph Convolutional Networks and Transformer-Attention [9.018408514318631]
伝統的な手法は複雑な分子構造を見逃し、不正確な結果をもたらすことが多い。
本稿では,グラフ畳み込みネットワーク(GCN),トランスフォーマーアーキテクチャ,Long Short-Term Memory(LSTM)ネットワークを統合するディープラーニングフレームワークであるYZS-Modelを紹介する。
YZS-Modelは、R2$ 0.59、RMSE$ 0.57を達成し、ベンチマークモデルを上回った。
論文 参考訳(メタデータ) (2024-06-27T12:40:29Z) - UAlign: Pushing the Limit of Template-free Retrosynthesis Prediction with Unsupervised SMILES Alignment [51.49238426241974]
本稿では,テンプレートのないグラフ・ツー・シーケンスパイプラインであるUAlignを紹介した。
グラフニューラルネットワークとトランスフォーマーを組み合わせることで、分子固有のグラフ構造をより効果的に活用することができる。
論文 参考訳(メタデータ) (2024-03-25T03:23:03Z) - Molecule-Edit Templates for Efficient and Accurate Retrosynthesis
Prediction [0.16070833439280313]
最小限のテンプレートを用いて反応を予測する機械学習モデルMETROを紹介する。
標準ベンチマークで最先端の結果を得る。
論文 参考訳(メタデータ) (2023-10-11T09:00:02Z) - Retrieval-based Controllable Molecule Generation [63.44583084888342]
制御可能な分子生成のための検索に基づく新しいフレームワークを提案する。
我々は、与えられた設計基準を満たす分子の合成に向けて、事前学習された生成モデルを操るために、分子の小さなセットを使用します。
提案手法は生成モデルの選択に非依存であり,タスク固有の微調整は不要である。
論文 参考訳(メタデータ) (2022-08-23T17:01:16Z) - Optimizing Molecules using Efficient Queries from Property Evaluations [66.66290256377376]
汎用的なクエリベースの分子最適化フレームワークであるQMOを提案する。
QMOは効率的なクエリに基づいて入力分子の所望の特性を改善する。
QMOは, 有機分子を最適化するベンチマークタスクにおいて, 既存の手法よりも優れていることを示す。
論文 参考訳(メタデータ) (2020-11-03T18:51:18Z) - Learning Graph Models for Retrosynthesis Prediction [90.15523831087269]
再合成予測は有機合成の基本的な問題である。
本稿では,前駆体分子のグラフトポロジーが化学反応中にほとんど変化しないという考え方を生かしたグラフベースのアプローチを提案する。
提案モデルでは,テンプレートフリーおよび半テンプレートベースの手法よりも高い5,3.7%の精度でトップ1の精度を実現している。
論文 参考訳(メタデータ) (2020-06-12T09:40:42Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。