論文の概要: Enhancing Chemical Reaction and Retrosynthesis Prediction with Large Language Model and Dual-task Learning
- arxiv url: http://arxiv.org/abs/2505.02639v1
- Date: Mon, 05 May 2025 13:31:36 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-05-06 18:49:35.686937
- Title: Enhancing Chemical Reaction and Retrosynthesis Prediction with Large Language Model and Dual-task Learning
- Title(参考訳): 大規模言語モデルとデュアルタスク学習による化学反応と再合成予測の強化
- Authors: Xuan Lin, Qingrui Liu, Hongxin Xiang, Daojian Zeng, Xiangxiang Zeng,
- Abstract要約: 大規模言語モデル(LLM)は、多くの領域において可能性を示している。
ChemDualは正確な化学合成のための新しいフレームワークである。
ChemDualは反応の予測とレトロ合成の両方において最先端のパフォーマンスを達成する。
- 参考スコア(独自算出の注目度): 8.402406301818905
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Chemical reaction and retrosynthesis prediction are fundamental tasks in drug discovery. Recently, large language models (LLMs) have shown potential in many domains. However, directly applying LLMs to these tasks faces two major challenges: (i) lacking a large-scale chemical synthesis-related instruction dataset; (ii) ignoring the close correlation between reaction and retrosynthesis prediction for the existing fine-tuning strategies. To address these challenges, we propose ChemDual, a novel LLM framework for accurate chemical synthesis. Specifically, considering the high cost of data acquisition for reaction and retrosynthesis, ChemDual regards the reaction-and-retrosynthesis of molecules as a related recombination-and-fragmentation process and constructs a large-scale of 4.4 million instruction dataset. Furthermore, ChemDual introduces an enhanced LLaMA, equipped with a multi-scale tokenizer and dual-task learning strategy, to jointly optimize the process of recombination and fragmentation as well as the tasks between reaction and retrosynthesis prediction. Extensive experiments on Mol-Instruction and USPTO-50K datasets demonstrate that ChemDual achieves state-of-the-art performance in both predictions of reaction and retrosynthesis, outperforming the existing conventional single-task approaches and the general open-source LLMs. Through molecular docking analysis, ChemDual generates compounds with diverse and strong protein binding affinity, further highlighting its strong potential in drug design.
- Abstract(参考訳): 化学反応と再合成予測は、薬物発見の基本的な課題である。
近年,大規模言語モデル (LLM) は多くの領域において可能性を示している。
しかし、これらのタスクにLSMを直接適用することは、2つの大きな課題に直面している。
一 化学合成関連指導データセットの大規模な欠如
(II)既存の微調整戦略に対する反応と再合成予測の密接な相関を無視した。
これらの課題に対処するため,我々は化学合成のための新しいLLMフレームワークであるChemDualを提案する。
具体的には、反応と再合成のための高コストのデータ取得を考えると、ChemDualは分子の反応と再合成を関連する再結合とフラグメンテーションのプロセスとみなし、大規模な440万の命令データセットを構築している。
さらに、ChemDualは、リコンビネーションと断片化のプロセスを共同で最適化し、反応と再合成予測のタスクを最適化する、マルチスケールのトークン化器とデュアルタスク学習戦略を備えた拡張LLaMAを導入している。
Mol-Instruction と USPTO-50K データセットの大規模な実験により、ChemDual は反応と逆合成の予測において最先端のパフォーマンスを達成し、従来のシングルタスクアプローチと一般的なオープンソース LLM よりも優れていることが示された。
分子ドッキング分析により、ChemDualは多種多様で強いタンパク質結合親和性を持つ化合物を生成し、薬物設計におけるその強力なポテンシャルを強調している。
関連論文リスト
- Interpretable Deep Learning for Polar Mechanistic Reaction Prediction [43.95903801494905]
PMechRP(Polar Mechanistic Reaction Predictor)は,PMechDBデータセット上で機械学習モデルをトレーニングするシステムである。
私たちは、トランスフォーマーベース、グラフベース、および2段階のシアムアーキテクチャを含む、さまざまな機械学習モデルの比較をトレーニングします。
私たちの最高のパフォーマンスのアプローチはハイブリッドモデルで、5アンサンブルのChemformerモデルと2ステップのSiameseフレームワークを組み合わせたものです。
論文 参考訳(メタデータ) (2025-04-22T02:31:23Z) - Automated Retrosynthesis Planning of Macromolecules Using Large Language Models and Knowledge Graphs [11.191853171170516]
大規模言語モデル(LLM)と知識グラフを統合するエージェントシステムを提案する。
本システムは,関係する文献の検索,反応データの抽出,データベースクエリ,逆合成経路木の構築を完全自動化する。
この研究は、LLMを動力とするマクロ分子に特化して、完全に自動化された再合成計画薬を開発する最初の試みである。
論文 参考訳(メタデータ) (2025-01-15T16:06:10Z) - Learning Chemical Reaction Representation with Reactant-Product Alignment [50.28123475356234]
RAlignは、様々な有機反応関連タスクのための新しい化学反応表現学習モデルである。
反応物質と生成物との原子対応を統合することにより、反応中に起こる分子変換を識別する。
モデルが重要な機能群に集中できるように,反応中心認識型アテンション機構を導入する。
論文 参考訳(メタデータ) (2024-11-26T17:41:44Z) - BatGPT-Chem: A Foundation Large Model For Retrosynthesis Prediction [65.93303145891628]
BatGPT-Chemは150億のパラメータを持つ大規模な言語モデルであり、再合成予測の強化に最適化されている。
我々のモデルは幅広い化学知識を捉え、反応条件の正確な予測を可能にする。
この開発により、化学者は新しい化合物を十分に扱うことができ、医薬品製造と材料科学の革新サイクルを早める可能性がある。
論文 参考訳(メタデータ) (2024-08-19T05:17:40Z) - Text-Augmented Multimodal LLMs for Chemical Reaction Condition Recommendation [50.639325453203504]
MM-RCRは、化学反応レコメンデーション(RCR)のためのSMILES、反応グラフ、テキストコーパスから統一的な反応表現を学習するテキスト拡張マルチモーダルLLMである。
この結果から,MM-RCRは2つのオープンベンチマークデータセット上で最先端の性能を達成できることが示唆された。
論文 参考訳(メタデータ) (2024-07-21T12:27:26Z) - UAlign: Pushing the Limit of Template-free Retrosynthesis Prediction with Unsupervised SMILES Alignment [51.49238426241974]
本稿では,テンプレートのないグラフ・ツー・シーケンスパイプラインであるUAlignを紹介した。
グラフニューラルネットワークとトランスフォーマーを組み合わせることで、分子固有のグラフ構造をより効果的に活用することができる。
論文 参考訳(メタデータ) (2024-03-25T03:23:03Z) - Retrosynthesis prediction enhanced by in-silico reaction data
augmentation [66.5643280109899]
RetroWISEは,実データから推定されるベースモデルを用いて,シリコン内反応の生成と増大を行うフレームワークである。
3つのベンチマークデータセットで、RetroWISEは最先端モデルに対して最高の全体的なパフォーマンスを達成する。
論文 参考訳(メタデータ) (2024-01-31T07:40:37Z) - Predictive Synthesis of Quantum Materials by Probabilistic Reinforcement
Learning [1.4680035572775534]
本研究では, 半超電導単層MoS$_2$の量子材料に対する最適合成スケジュールの予測に強化学習を用いる。
このモデルは、多相ヘテロ構造を含む複雑な構造の合成のためのプロファイルを予測するために拡張することができる。
論文 参考訳(メタデータ) (2020-09-14T20:50:45Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。