論文の概要: Protein intrinsic disorder prediction using Attention U-Net and ProtTrans protein language model
- arxiv url: http://arxiv.org/abs/2404.08108v2
- Date: Thu, 11 Jul 2024 12:41:51 GMT
- ステータス: 処理完了
- システム内更新日: 2024-07-12 22:48:00.992078
- Title: Protein intrinsic disorder prediction using Attention U-Net and ProtTrans protein language model
- Title(参考訳): Attention U-Net と ProtTrans タンパク言語モデルを用いたタンパク質固有性障害予測
- Authors: Krzysztof Kotowski, Irena Roterman, Katarzyna Stapor,
- Abstract要約: この論文は、意図的U-Net畳み込みニューラルネットワークに基づく、新しいタンパク質内在性障害予測器であるDunctionUnetLMを前文として紹介する。
これは、MSAを用いたflDPnnおよびIDP-CRF予測器と、同じProtTransモデルの特徴を用いたSETH予測器との直接比較において、上位結果を示す。
- 参考スコア(独自算出の注目度): 0.0
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: The prediction of intrinsic disorder regions has significant implications for understanding protein function, structure, and dynamics. It can help to discover novel functions or protein-protein interactions essential to designing new drugs, therapies, or enzymes. Recently, a new generation of predictors based on protein language models is emerging. These algorithms reach state-of-the-art accuracy without calculating time-consuming multiple sequence alignments (MSAs). The article pre-sents a new protein intrinsic disorder predictor DisorderUnetLM based on the Attention U-Net convolutional neural network using features from the protein language model ProtTrans. DisorderUnetLM shows top results in the direct comparison with flDPnn and IDP-CRF predictors using MSAs and with the SETH predictor using features from the same ProtTrans model. Moreover, among 41 predictors from the latest Critical Assessment of Protein Intrinsic Disorder Prediction (CAID-2) benchmark, it ranks 9th for the Disorder-PDB subset (with ROC-AUC of 0.924) and 1st for the Disorder-NOX subset (with ROC-AUC of 0.844) which confirms its potential to perform well in the upcoming CAID-3 challenge for which Disor-derUnetLM was submitted.
- Abstract(参考訳): 内因性障害領域の予測は、タンパク質の機能、構造、ダイナミクスを理解する上で重要な意味を持つ。
新しい薬物、治療薬、酵素を設計するのに不可欠な、新規の機能やタンパク質とタンパク質の相互作用を発見するのに役立つ。
近年,タンパク質言語モデルに基づく新しい世代の予測器が出現している。
これらのアルゴリズムは、時間を要する多重シーケンスアライメント(MSA)を計算することなく、最先端の精度に達する。
本稿では、タンパク質言語モデルProtTransの特徴を用いて、意図的U-Net畳み込みニューラルネットワークに基づく、新しいタンパク質内因性障害予測器であるDunctionUnetLMをプリセットする。
DisorderUnetLMは、MSAを用いたflDPnnおよびIDP-CRF予測器と、同じProtTransモデルの特徴を用いたSETH予測器との直接比較において、上位結果を示す。
さらに、最新のタンパク質内因性障害予測(CAID-2)ベンチマークから得られた41の予測者のうち、障害-PDBサブセット(ROC-AUCが0.924)で9位、障害-NOXサブセット(ROC-AUCが0.844)で1位にランクされ、Distor-derUnetLMが提出されたCAID-3課題において、その可能性を確認する。
関連論文リスト
- MSAGPT: Neural Prompting Protein Structure Prediction via MSA Generative Pre-Training [48.398329286769304]
マルチシークエンスアライメント(MSA)は、タンパク質ファミリーの進化的軌道を明らかにする上で重要な役割を担っている。
MSAGPTは、低MSA状態下でのMSA生成前訓練を通じてタンパク質構造予測を促進する新しいアプローチである。
論文 参考訳(メタデータ) (2024-06-08T04:23:57Z) - ProLLM: Protein Chain-of-Thoughts Enhanced LLM for Protein-Protein Interaction Prediction [54.132290875513405]
タンパク質-タンパク質相互作用(PPI)の予測は、生物学的機能や疾患を理解する上で重要である。
PPI予測に対する従来の機械学習アプローチは、主に直接的な物理的相互作用に焦点を当てていた。
PPIに適したLLMを用いた新しいフレームワークProLLMを提案する。
論文 参考訳(メタデータ) (2024-03-30T05:32:42Z) - ContraNovo: A Contrastive Learning Approach to Enhance De Novo Peptide
Sequencing [70.12220342151113]
ContraNovoは、コントラスト学習を利用してスペクトルとペプチドの関係を抽出する先駆的アルゴリズムである。
ContraNovoは、現代最先端のソリューションを一貫して誇張している。
論文 参考訳(メタデータ) (2023-12-18T12:49:46Z) - Efficiently Predicting Protein Stability Changes Upon Single-point
Mutation with Large Language Models [51.57843608615827]
タンパク質の熱安定性を正確に予測する能力は、様々なサブフィールドや生化学への応用において重要である。
タンパク質配列と構造的特徴を統合したESMによる効率的なアプローチを導入し, 単一点突然変異によるタンパク質の熱安定性変化を予測する。
論文 参考訳(メタデータ) (2023-12-07T03:25:49Z) - DeepGATGO: A Hierarchical Pretraining-Based Graph-Attention Model for
Automatic Protein Function Prediction [4.608328575930055]
自動タンパク質機能予測(AFP)は大規模多ラベル分類問題に分類される。
現在、一般的な手法は主にタンパク質関連情報と遺伝子オントロジー(GO)の用語を組み合わせて、最終的な機能予測を生成する。
本稿では,タンパク質配列とGO項ラベルを階層的に処理するシークエンスベースの階層予測手法であるDeepGATGOを提案する。
論文 参考訳(メタデータ) (2023-07-24T07:01:32Z) - Retrieved Sequence Augmentation for Protein Representation Learning [40.13920287967866]
本稿では,タンパク質表現学習のための検索シーケンス拡張について,アライメントや前処理を伴わずに導入する。
本モデルでは,新しいタンパク質ドメインに移行し,デノボタンパク質の予測においてMSAトランスフォーマーより優れていることを示す。
我々の研究はタンパク質の予測における大きなギャップを埋め、タンパク質配列を理解するのに必要なドメイン知識の解読に一歩近づいた。
論文 参考訳(メタデータ) (2023-02-24T10:31:45Z) - On the Robustness of AlphaFold: A COVID-19 Case Study [16.564151738086434]
高い精度にもかかわらず、AlphaFoldはそのような堅牢性を示していないことを実証する。
これにより、予測されたタンパク質構造が信頼される範囲を検知し定量化することが困難になる。
論文 参考訳(メタデータ) (2023-01-10T17:31:39Z) - Reprogramming Pretrained Language Models for Protein Sequence
Representation Learning [68.75392232599654]
エンドツーエンドの表現学習フレームワークである辞書学習(R2DL)による表現学習を提案する。
R2DLは、タンパク質配列の埋め込みを学ぶために、事前訓練された英語モデルを再プログラムする。
我々のモデルは,事前訓練および標準教師付き手法によって設定されたベースラインに対して,最大105ドルの精度でデータ効率を大幅に向上させることができる。
論文 参考訳(メタデータ) (2023-01-05T15:55:18Z) - AI-Bind: Improving Binding Predictions for Novel Protein Targets and
Ligands [9.135203550164833]
現状のモデルは、新しい構造への一般化に失敗することを示す。
ネットワークベースのサンプリング戦略と教師なし事前トレーニングを組み合わせたパイプラインであるAI-Bindを紹介する。
我々は,SARS-CoV-2ウイルスタンパク質に結合した薬剤や天然化合物を予測し,AI-Bindの価値を説明する。
論文 参考訳(メタデータ) (2021-12-25T01:52:58Z) - EBM-Fold: Fully-Differentiable Protein Folding Powered by Energy-based
Models [53.17320541056843]
本研究では,データ駆動型生成ネットワークを用いたタンパク質構造最適化手法を提案する。
EBM-Foldアプローチは,従来のロゼッタ構造最適化ルーチンと比較して,高品質なデコイを効率よく生成できる。
論文 参考訳(メタデータ) (2021-05-11T03:40:29Z) - Bayesian neural network with pretrained protein embedding enhances
prediction accuracy of drug-protein interaction [3.499870393443268]
ディープラーニングのアプローチは、人間による試行錯誤なしに薬物とタンパク質の相互作用を予測できる。
本稿では,小さなラベル付きデータセットで優れた性能を示すディープラーニングフレームワークを構築するための2つの手法を提案する。
論文 参考訳(メタデータ) (2020-12-15T10:24:34Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。