論文の概要: pLDDT-Predictor: High-speed Protein Screening Using Transformer and ESM2
- arxiv url: http://arxiv.org/abs/2410.21283v2
- Date: Wed, 13 Nov 2024 08:33:17 GMT
- ステータス: 翻訳完了
- システム内更新日: 2024-11-14 19:25:11.826305
- Title: pLDDT-Predictor: High-speed Protein Screening Using Transformer and ESM2
- Title(参考訳): pLDDT予測: Transformer と ESM2 を用いた高速タンパク質スクリーニング
- Authors: Joongwon Chae, Zhenyu Wang, Ijaz Gul, Jiansong Ji, Zhenglin Chen, Peiwu Qin,
- Abstract要約: 高速なタンパク質スクリーニングツールであるpLDDT-Predictorを導入する。
我々のモデルは、Pearsonの相関でAlphaFold2のpLDDTのスコアを0.7891と予測し、タンパク質を平均0.007秒で処理する。
pLDDT-Predictorは150万の多様なタンパク質配列の包括的データセットを用いて,高信頼構造を正確に分類することを示した。
- 参考スコア(独自算出の注目度): 3.9703338485541244
- License:
- Abstract: Recent advancements in protein structure prediction, particularly AlphaFold2, have revolutionized structural biology by achieving near-experimental accuracy ($\text{average RMSD} < 1.5\text{\AA}$). However, the computational demands of these models (approximately 30 minutes per protein on an RTX 4090) significantly limit their application in high-throughput protein screening. While large language models like ESM (Evolutionary Scale Modeling) have shown promise in extracting structural information directly from protein sequences, rapid assessment of protein structure quality for large-scale analyses remains a major challenge. We introduce pLDDT-Predictor, a high-speed protein screening tool that achieves a $250,000\times$ speedup compared to AlphaFold2 by leveraging pre-trained ESM2 protein embeddings and a Transformer architecture. Our model predicts AlphaFold2's pLDDT (predicted Local Distance Difference Test) scores with a Pearson correlation of 0.7891 and processes proteins in just 0.007 seconds on average. Using a comprehensive dataset of 1.5 million diverse protein sequences (ranging from 50 to 2048 amino acids), we demonstrate that pLDDT-Predictor accurately classifies high-confidence structures (pLDDT $>$ 70) with 91.2\% accuracy and achieves an MSE of 84.8142 compared to AlphaFold2's predictions. The source code and pre-trained models are freely available at \url{https://github.com/jw-chae/pLDDT_Predictor}, enabling the research community to perform rapid, large-scale protein structure quality assessments.
- Abstract(参考訳): タンパク質構造予測の最近の進歩、特にAlphaFold2は、ほぼ実験的な精度(\text{average RMSD} < 1.5\text{\AA}$)で構造生物学に革命をもたらした。
しかしながら、これらのモデルの計算要求(RTX 4090のタンパク質あたり約30分)は、高スループットタンパク質スクリーニングにおけるそれらの適用を著しく制限した。
ESM (Evolutionary Scale Modeling) のような大規模言語モデルではタンパク質配列から直接構造情報を抽出することが約束されているが、大規模解析のためのタンパク質構造品質の迅速な評価は大きな課題である。
我々は、事前訓練されたESM2タンパク質の埋め込みとトランスフォーマーアーキテクチャを活用することにより、AlphaFold2と比較して25万ドル以上の高速化を実現する高速なタンパク質スクリーニングツールであるpLDDT-Predictorを紹介する。
また,AlphaFold2 の pLDDT (predicted Local Distance Difference Test) スコアを Pearson 相関値 0.7891 で予測し,タンパク質を平均0.007秒で処理する。
pLDDT-Predictorは、150万の多様なタンパク質配列(50から2048アミノ酸)の包括的なデータセットを用いて、91.2\%の精度で高信頼構造(pLDDT $>$ 70)を正確に分類し、AlphaFold2の予測と比較して84.8142のMSEを達成することを示した。
ソースコードと事前訓練されたモデルは、 \url{https://github.com/jw-chae/pLDDT_Predictor} で自由に入手できる。
関連論文リスト
- ProtLLM: An Interleaved Protein-Language LLM with Protein-as-Word Pre-Training [82.37346937497136]
本稿では,タンパク質中心タスクとタンパク質言語タスクの両方を対象とした多機能多言語多言語言語モデル (LLM) を提案する。
ProtLLMはユニークな動的タンパク質実装機構を備えており、複雑な入力を処理できる。
専門的なタンパク質語彙を開発することで、自然言語だけでなく、膨大な候補からタンパク質を予測できる能力をモデルに装備する。
論文 参考訳(メタデータ) (2024-02-28T01:29:55Z) - Structure-Informed Protein Language Model [38.019425619750265]
本稿では、構造情報をタンパク質言語モデルに抽出するためのリモートホモロジー検出の統合について紹介する。
この構造インフォームドトレーニングが下流タンパク質機能予測タスクに与える影響を評価する。
論文 参考訳(メタデータ) (2024-02-07T09:32:35Z) - Efficiently Predicting Protein Stability Changes Upon Single-point
Mutation with Large Language Models [51.57843608615827]
タンパク質の熱安定性を正確に予測する能力は、様々なサブフィールドや生化学への応用において重要である。
タンパク質配列と構造的特徴を統合したESMによる効率的なアプローチを導入し, 単一点突然変異によるタンパク質の熱安定性変化を予測する。
論文 参考訳(メタデータ) (2023-12-07T03:25:49Z) - Retrieved Sequence Augmentation for Protein Representation Learning [40.13920287967866]
本稿では,タンパク質表現学習のための検索シーケンス拡張について,アライメントや前処理を伴わずに導入する。
本モデルでは,新しいタンパク質ドメインに移行し,デノボタンパク質の予測においてMSAトランスフォーマーより優れていることを示す。
我々の研究はタンパク質の予測における大きなギャップを埋め、タンパク質配列を理解するのに必要なドメイン知識の解読に一歩近づいた。
論文 参考訳(メタデータ) (2023-02-24T10:31:45Z) - Structure-informed Language Models Are Protein Designers [69.70134899296912]
配列ベースタンパク質言語モデル(pLM)の汎用的手法であるLM-Designを提案する。
pLMに軽量な構造アダプターを埋め込んだ構造手術を行い,構造意識を付加した構造手術を行った。
実験の結果,我々の手法は最先端の手法よりも大きなマージンで優れていることがわかった。
論文 参考訳(メタデータ) (2023-02-03T10:49:52Z) - On the Robustness of AlphaFold: A COVID-19 Case Study [16.564151738086434]
高い精度にもかかわらず、AlphaFoldはそのような堅牢性を示していないことを実証する。
これにより、予測されたタンパク質構造が信頼される範囲を検知し定量化することが困難になる。
論文 参考訳(メタデータ) (2023-01-10T17:31:39Z) - Reprogramming Pretrained Language Models for Protein Sequence
Representation Learning [68.75392232599654]
エンドツーエンドの表現学習フレームワークである辞書学習(R2DL)による表現学習を提案する。
R2DLは、タンパク質配列の埋め込みを学ぶために、事前訓練された英語モデルを再プログラムする。
我々のモデルは,事前訓練および標準教師付き手法によって設定されたベースラインに対して,最大105ドルの精度でデータ効率を大幅に向上させることができる。
論文 参考訳(メタデータ) (2023-01-05T15:55:18Z) - HelixFold-Single: MSA-free Protein Structure Prediction by Using Protein
Language Model as an Alternative [61.984700682903096]
HelixFold-Singleは、大規模なタンパク質言語モデルとAlphaFold2の優れた幾何学的学習能力を組み合わせるために提案されている。
提案手法は,数千万の一次配列を持つ大規模タンパク質言語モデルを事前学習する。
我々は、一次系列のみから原子の3次元座標を予測するために、エンドツーエンドの微分可能なモデルを得る。
論文 参考訳(メタデータ) (2022-07-28T07:30:33Z) - RITA: a Study on Scaling Up Generative Protein Sequence Models [3.6748639131154315]
RITAは、最大12億のパラメータを持つタンパク質配列の自己回帰生成モデルのスイートである。
タンパク質ドメインにおける自己回帰変換器のモデルサイズで機能がどのように進化するかについて、最初の系統的研究を行う。
論文 参考訳(メタデータ) (2022-05-11T22:06:03Z) - Transfer Learning for Protein Structure Classification at Low Resolution [124.5573289131546]
タンパク質のクラスとアーキテクチャの正確な(geq$80%)予測を、低い(leq$3A)解像度で決定された構造から行うことができることを示す。
本稿では, 高速で低コストなタンパク質構造を低解像度で分類するための概念実証と, 機能予測への拡張の基礎を提供する。
論文 参考訳(メタデータ) (2020-08-11T15:01:32Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。