論文の概要: pLDDT-Predictor: High-speed Protein Screening Using Transformer and ESM2
- arxiv url: http://arxiv.org/abs/2410.21283v2
- Date: Wed, 13 Nov 2024 08:33:17 GMT
- ステータス: 翻訳完了
- システム内更新日: 2024-11-14 19:25:11.826305
- Title: pLDDT-Predictor: High-speed Protein Screening Using Transformer and ESM2
- Title(参考訳): pLDDT予測: Transformer と ESM2 を用いた高速タンパク質スクリーニング
- Authors: Joongwon Chae, Zhenyu Wang, Ijaz Gul, Jiansong Ji, Zhenglin Chen, Peiwu Qin,
- Abstract要約: 高速なタンパク質スクリーニングツールであるpLDDT-Predictorを導入する。
我々のモデルは、Pearsonの相関でAlphaFold2のpLDDTのスコアを0.7891と予測し、タンパク質を平均0.007秒で処理する。
pLDDT-Predictorは150万の多様なタンパク質配列の包括的データセットを用いて,高信頼構造を正確に分類することを示した。
- 参考スコア(独自算出の注目度): 3.9703338485541244
- License:
- Abstract: Recent advancements in protein structure prediction, particularly AlphaFold2, have revolutionized structural biology by achieving near-experimental accuracy ($\text{average RMSD} < 1.5\text{\AA}$). However, the computational demands of these models (approximately 30 minutes per protein on an RTX 4090) significantly limit their application in high-throughput protein screening. While large language models like ESM (Evolutionary Scale Modeling) have shown promise in extracting structural information directly from protein sequences, rapid assessment of protein structure quality for large-scale analyses remains a major challenge. We introduce pLDDT-Predictor, a high-speed protein screening tool that achieves a $250,000\times$ speedup compared to AlphaFold2 by leveraging pre-trained ESM2 protein embeddings and a Transformer architecture. Our model predicts AlphaFold2's pLDDT (predicted Local Distance Difference Test) scores with a Pearson correlation of 0.7891 and processes proteins in just 0.007 seconds on average. Using a comprehensive dataset of 1.5 million diverse protein sequences (ranging from 50 to 2048 amino acids), we demonstrate that pLDDT-Predictor accurately classifies high-confidence structures (pLDDT $>$ 70) with 91.2\% accuracy and achieves an MSE of 84.8142 compared to AlphaFold2's predictions. The source code and pre-trained models are freely available at \url{https://github.com/jw-chae/pLDDT_Predictor}, enabling the research community to perform rapid, large-scale protein structure quality assessments.
- Abstract(参考訳): タンパク質構造予測の最近の進歩、特にAlphaFold2は、ほぼ実験的な精度(\text{average RMSD} < 1.5\text{\AA}$)で構造生物学に革命をもたらした。
しかしながら、これらのモデルの計算要求(RTX 4090のタンパク質あたり約30分)は、高スループットタンパク質スクリーニングにおけるそれらの適用を著しく制限した。
ESM (Evolutionary Scale Modeling) のような大規模言語モデルではタンパク質配列から直接構造情報を抽出することが約束されているが、大規模解析のためのタンパク質構造品質の迅速な評価は大きな課題である。
我々は、事前訓練されたESM2タンパク質の埋め込みとトランスフォーマーアーキテクチャを活用することにより、AlphaFold2と比較して25万ドル以上の高速化を実現する高速なタンパク質スクリーニングツールであるpLDDT-Predictorを紹介する。
また,AlphaFold2 の pLDDT (predicted Local Distance Difference Test) スコアを Pearson 相関値 0.7891 で予測し,タンパク質を平均0.007秒で処理する。
pLDDT-Predictorは、150万の多様なタンパク質配列(50から2048アミノ酸)の包括的なデータセットを用いて、91.2\%の精度で高信頼構造(pLDDT $>$ 70)を正確に分類し、AlphaFold2の予測と比較して84.8142のMSEを達成することを示した。
ソースコードと事前訓練されたモデルは、 \url{https://github.com/jw-chae/pLDDT_Predictor} で自由に入手できる。
関連論文リスト
- PSC-CPI: Multi-Scale Protein Sequence-Structure Contrasting for
Efficient and Generalizable Compound-Protein Interaction Prediction [63.50967073653953]
化合物-タンパク質相互作用予測は、合理的な薬物発見のための化合物-タンパク質相互作用のパターンと強度を予測することを目的としている。
既存のディープラーニングベースの手法では、タンパク質配列や構造が単一のモダリティしか利用していない。
CPI予測のためのマルチスケールタンパク質配列構造コントラストフレームワークを提案する。
論文 参考訳(メタデータ) (2024-02-13T03:51:10Z) - Endowing Protein Language Models with Structural Knowledge [5.587293092389789]
本稿では,タンパク質構造データを統合することにより,タンパク質言語モデルを強化する新しいフレームワークを提案する。
PST(Protein Structure Transformer)と呼ばれる精製モデルは、小さなタンパク質構造データベース上でさらに事前訓練されている。
PSTは、タンパク質配列の最先端基盤モデルであるESM-2を一貫して上回り、タンパク質機能予測の新しいベンチマークを設定している。
論文 参考訳(メタデータ) (2024-01-26T12:47:54Z) - Efficiently Predicting Protein Stability Changes Upon Single-point
Mutation with Large Language Models [51.57843608615827]
タンパク質の熱安定性を正確に予測する能力は、様々なサブフィールドや生化学への応用において重要である。
タンパク質配列と構造的特徴を統合したESMによる効率的なアプローチを導入し, 単一点突然変異によるタンパク質の熱安定性変化を予測する。
論文 参考訳(メタデータ) (2023-12-07T03:25:49Z) - Enhancing the Protein Tertiary Structure Prediction by Multiple Sequence
Alignment Generation [30.2874172276931]
我々はMSA-Augmenterを導入し、データベースに存在しない新規なタンパク質配列を生成する。
CASP14で行った実験では、MSA-Augmenterは、下層のMSAから共進化情報を保持できるde novo配列を生成できることが示されている。
論文 参考訳(メタデータ) (2023-06-02T14:13:50Z) - Structure-informed Language Models Are Protein Designers [69.70134899296912]
配列ベースタンパク質言語モデル(pLM)の汎用的手法であるLM-Designを提案する。
pLMに軽量な構造アダプターを埋め込んだ構造手術を行い,構造意識を付加した構造手術を行った。
実験の結果,我々の手法は最先端の手法よりも大きなマージンで優れていることがわかった。
論文 参考訳(メタデータ) (2023-02-03T10:49:52Z) - On the Robustness of AlphaFold: A COVID-19 Case Study [16.564151738086434]
高い精度にもかかわらず、AlphaFoldはそのような堅牢性を示していないことを実証する。
これにより、予測されたタンパク質構造が信頼される範囲を検知し定量化することが困難になる。
論文 参考訳(メタデータ) (2023-01-10T17:31:39Z) - State-specific protein-ligand complex structure prediction with a
multi-scale deep generative model [68.28309982199902]
タンパク質-リガンド複合体構造を直接予測できる計算手法であるNeuralPLexerを提案する。
我々の研究は、データ駆動型アプローチがタンパク質と小分子の構造的協調性を捉え、酵素や薬物分子などの設計を加速させる可能性を示唆している。
論文 参考訳(メタデータ) (2022-09-30T01:46:38Z) - Learning Geometrically Disentangled Representations of Protein Folding
Simulations [72.03095377508856]
この研究は、薬物標的タンパク質の構造的アンサンブルに基づいて生成ニューラルネットワークを学習することに焦点を当てている。
モデル課題は、様々な薬物分子に結合したタンパク質の構造的変動を特徴付けることである。
その結果,我々の幾何学的学習に基づく手法は,複雑な構造変化を生成するための精度と効率の両方を享受できることがわかった。
論文 参考訳(メタデータ) (2022-05-20T19:38:00Z) - Transfer Learning for Protein Structure Classification at Low Resolution [124.5573289131546]
タンパク質のクラスとアーキテクチャの正確な(geq$80%)予測を、低い(leq$3A)解像度で決定された構造から行うことができることを示す。
本稿では, 高速で低コストなタンパク質構造を低解像度で分類するための概念実証と, 機能予測への拡張の基礎を提供する。
論文 参考訳(メタデータ) (2020-08-11T15:01:32Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。