論文の概要: An Equivariant Pretrained Transformer for Unified 3D Molecular Representation Learning
- arxiv url: http://arxiv.org/abs/2402.12714v2
- Date: Mon, 24 Feb 2025 11:33:06 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-02-25 22:39:53.643144
- Title: An Equivariant Pretrained Transformer for Unified 3D Molecular Representation Learning
- Title(参考訳): 統一3次元分子表現学習のための同変事前学習変換器
- Authors: Rui Jiao, Xiangzhe Kong, Li Zhang, Ziyang Yu, Fangyuan Ren, Wenjuan Tan, Wenbing Huang, Yang Liu,
- Abstract要約: Equivariant Pretrained Transformer (EPT)は、複数のドメイン3D分子から事前学習できる全原子基盤モデルである。
小分子、タンパク質、タンパク質-タンパク質複合体、タンパク質-分子複合体からなる5.89Mの大規模データセットを構築した。
我々は,SARS-CoV-2の複製において重要な標的である3CLプロテアーゼを標的とした小分子薬物候補の同定におけるEPTの可能性を示す。
- 参考スコア(独自算出の注目度): 21.334216026532093
- License:
- Abstract: Pretraining on a large number of unlabeled 3D molecules has showcased superiority in various scientific applications. However, prior efforts typically focus on pretraining models in a specific domain, either proteins or small molecules, missing the opportunity to leverage cross-domain knowledge. To mitigate this gap, we introduce Equivariant Pretrained Transformer (EPT), an all-atom foundation model that can be pretrained from multiple domain 3D molecules. Built upon an E(3)-equivariant transformer, EPT is able to not only process atom-level information but also incorporate block-level features (e.g. residuals in proteins). Additionally, we employ a block-level denoising task, rather than the conventional atom-level denoising, as the pretraining objective. To pretrain EPT, we construct a large-scale dataset of 5.89M entries, comprising small molecules, proteins, protein-protein complexes, and protein-molecule complexes. Experimental evaluations on downstream tasks including ligand binding affinity prediction, protein property prediction, and molecular property prediction, show that EPT significantly outperforms previous state-of-the-art methods in the first task and achieves competitively superior performance for the remaining two tasks. Furthermore, we demonstrate the potential of EPT in identifying small molecule drug candidates targeting 3CL protease, a critical target in the replication of SARS-CoV-2. Among 1,978 FDA-approved drugs, EPT ranks 7 out of 8 known anti-COVID-19 drugs in the top 200, indicating the high recall of EPT. By using Molecular Dynamics (MD) simulations, EPT further discoveries 7 novel compounds whose binding affinities are higher than that of the top-ranked known anti-COVID-19 drug, showcasing its powerful capabilities in drug discovery.
- Abstract(参考訳): 多数のラベルのない3D分子の事前学習は、様々な科学的応用において優位性を示した。
しかし、それまでの取り組みは、タンパク質や小さな分子といった特定のドメインのモデルを事前訓練することに集中し、ドメイン間の知識を活用する機会を欠いていた。
このギャップを軽減するために、複数のドメイン3D分子から事前学習可能な全原子基盤モデルであるEquivariant Pretrained Transformer (EPT)を導入する。
E(3)-同変変換器上に構築されたETPは、原子レベルの情報を処理するだけでなく、ブロックレベルの特徴(例えばタンパク質の残基)を組み込むこともできる。
さらに,従来の原子レベルの分極よりもブロックレベルの分極タスクを事前学習の目的として採用する。
EPTを事前訓練するために、小分子、タンパク質、タンパク質-タンパク質複合体、タンパク質-分子複合体からなる5.89Mの大規模データセットを構築した。
リガンド結合親和性予測,タンパク質特性予測,分子特性予測などの下流タスクに対する実験的評価は,EPTが従来の最先端手法よりも有意に優れ,残りの2タスクに対して競争的に優れた性能を発揮することを示す。
さらに,SARS-CoV-2の複製において重要な標的である3CLプロテアーゼを標的とした小分子薬物候補の同定におけるEPTの可能性を示す。
FDAが承認した医薬品1,978薬のうち、EPTは8種類の抗COVID-19薬のうち7つをトップ200にランク付けしており、ETPのリコール率の高さを示している。
分子動力学(MD)シミュレーションを用いて、EPTはさらに7つの新規化合物を発見。
関連論文リスト
- Structure Language Models for Protein Conformation Generation [66.42864253026053]
伝統的な物理学に基づくシミュレーション手法は、しばしばサンプリング平衡整合に苦しむ。
深い生成モデルは、より効率的な代替としてタンパク質のコンホメーションを生成することを約束している。
本稿では,効率的なタンパク質コンホメーション生成のための新しいフレームワークとして構造言語モデリングを紹介する。
論文 参考訳(メタデータ) (2024-10-24T03:38:51Z) - Autoregressive Enzyme Function Prediction with Multi-scale Multi-modality Fusion [11.278610817877578]
MAPredは、タンパク質のEC数を自動回帰予測するために設計された、新しいマルチモダリティおよびマルチスケールモデルである。
MAPredは、タンパク質の一次アミノ酸配列と3Dトークンの両方を統合し、包括的なタンパク質の特徴を捉えるために二重経路アプローチを用いる。
New-392、Price、New-815を含むベンチマークデータセットの評価は、我々の手法が既存のモデルより優れていることを示す。
論文 参考訳(メタデータ) (2024-08-11T08:28:43Z) - Protein binding affinity prediction under multiple substitutions applying eGNNs on Residue and Atomic graphs combined with Language model information: eGRAL [1.840390797252648]
ディープラーニングは、シリコン内予測と生体内観測のギャップを埋めることのできる強力なツールとして、ますます認識されている。
タンパク質複合体中のアミノ酸置換物からの結合親和性変化を予測するための新しいグラフニューラルネットワークアーキテクチャであるeGRALを提案する。
eGralは、タンパク質の大規模言語モデルから抽出された特徴のおかげで、残基、原子スケール、進化スケールを利用する。
論文 参考訳(メタデータ) (2024-05-03T10:33:19Z) - Automated 3D Pre-Training for Molecular Property Prediction [54.15788181794094]
新たな3D事前学習フレームワーク(3D PGT)を提案する。
3D分子グラフのモデルを事前訓練し、3D構造のない分子グラフに微調整する。
提案した3次元PGTの精度, 効率, 一般化能力を示すために, 2次元分子グラフの大規模実験を行った。
論文 参考訳(メタデータ) (2023-06-13T14:43:13Z) - Multi-task Bioassay Pre-training for Protein-ligand Binding Affinity
Prediction [26.530876904939163]
構造に基づくPLBA予測のための事前学習フレームワークであるMBP(Multi-task Bioassay Pre-training)を提案する。
MBPは、様々なノイズのあるラベルを持つ新しいChEMBL-Dockデータセットから、堅牢で伝達可能な構造知識を学習する。
論文 参考訳(メタデータ) (2023-06-08T02:29:49Z) - Integration of Pre-trained Protein Language Models into Geometric Deep
Learning Networks [68.90692290665648]
我々は、タンパク質言語モデルから学んだ知識を、いくつかの最先端の幾何学的ネットワークに統合する。
以上の結果から,ベースラインを20%上回る総合的な改善が見られた。
強い証拠は、タンパク質言語モデルの知識を取り入れることで、幾何学的ネットワークの能力が著しく向上することを示している。
論文 参考訳(メタデータ) (2022-12-07T04:04:04Z) - State-specific protein-ligand complex structure prediction with a
multi-scale deep generative model [68.28309982199902]
タンパク質-リガンド複合体構造を直接予測できる計算手法であるNeuralPLexerを提案する。
我々の研究は、データ駆動型アプローチがタンパク質と小分子の構造的協調性を捉え、酵素や薬物分子などの設計を加速させる可能性を示唆している。
論文 参考訳(メタデータ) (2022-09-30T01:46:38Z) - Learning Geometrically Disentangled Representations of Protein Folding
Simulations [72.03095377508856]
この研究は、薬物標的タンパク質の構造的アンサンブルに基づいて生成ニューラルネットワークを学習することに焦点を当てている。
モデル課題は、様々な薬物分子に結合したタンパク質の構造的変動を特徴付けることである。
その結果,我々の幾何学的学習に基づく手法は,複雑な構造変化を生成するための精度と効率の両方を享受できることがわかった。
論文 参考訳(メタデータ) (2022-05-20T19:38:00Z) - G-VAE, a Geometric Convolutional VAE for ProteinStructure Generation [41.66010308405784]
本稿では,3次元タンパク質構造の比較,変形,生成のための統合幾何学的ニューラルネットワーク手法を提案する。
本手法は, トレーニングデータの構造と異なり, 可塑性構造を生成することができる。
論文 参考訳(メタデータ) (2021-06-22T16:52:48Z) - EBM-Fold: Fully-Differentiable Protein Folding Powered by Energy-based
Models [53.17320541056843]
本研究では,データ駆動型生成ネットワークを用いたタンパク質構造最適化手法を提案する。
EBM-Foldアプローチは,従来のロゼッタ構造最適化ルーチンと比較して,高品質なデコイを効率よく生成できる。
論文 参考訳(メタデータ) (2021-05-11T03:40:29Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。