論文の概要: ESM-NBR: fast and accurate nucleic acid-binding residue prediction via
protein language model feature representation and multi-task learning
- arxiv url: http://arxiv.org/abs/2312.00842v1
- Date: Fri, 1 Dec 2023 04:00:20 GMT
- ステータス: 処理完了
- システム内更新日: 2023-12-05 20:40:53.129360
- Title: ESM-NBR: fast and accurate nucleic acid-binding residue prediction via
protein language model feature representation and multi-task learning
- Title(参考訳): ESM-NBR:タンパク質言語モデルの特徴表現とマルチタスク学習による高速かつ正確な核酸結合残基予測
- Authors: Wenwu Zeng, Dafeng Lv, Wenjuan Liu, Shaoliang Peng
- Abstract要約: 核酸結合残基を予測するために,ESM-NBRと呼ばれる高速かつ高精度な配列ベース手法を提案する。
ESM2特徴表現の予測性能は,進化的情報に基づく隠れマルコフモデル(HMM)の特徴を包括的に上回ることを示した。
ESM-NBRの予測速度は、時間費用のかかる多重シーケンスアライメントプロセスを完全に破棄することで、既存の手法の予測速度をはるかに上回る。
- 参考スコア(独自算出の注目度): 1.6576008113462954
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Protein-nucleic acid interactions play a very important role in a variety of
biological activities. Accurate identification of nucleic acid-binding residues
is a critical step in understanding the interaction mechanisms. Although many
computationally based methods have been developed to predict nucleic
acid-binding residues, challenges remain. In this study, a fast and accurate
sequence-based method, called ESM-NBR, is proposed. In ESM-NBR, we first use
the large protein language model ESM2 to extract discriminative biological
properties feature representation from protein primary sequences; then, a
multi-task deep learning model composed of stacked bidirectional long
short-term memory (BiLSTM) and multi-layer perceptron (MLP) networks is
employed to explore common and private information of DNA- and RNA-binding
residues with ESM2 feature as input. Experimental results on benchmark data
sets demonstrate that the prediction performance of ESM2 feature representation
comprehensively outperforms evolutionary information-based hidden Markov model
(HMM) features. Meanwhile, the ESM-NBR obtains the MCC values for DNA-binding
residues prediction of 0.427 and 0.391 on two independent test sets, which are
18.61 and 10.45% higher than those of the second-best methods, respectively.
Moreover, by completely discarding the time-cost multiple sequence alignment
process, the prediction speed of ESM-NBR far exceeds that of existing methods
(5.52s for a protein sequence of length 500, which is about 16 times faster
than the second-fastest method). A user-friendly standalone package and the
data of ESM-NBR are freely available for academic use at:
https://github.com/wwzll123/ESM-NBR.
- Abstract(参考訳): タンパク質-核酸相互作用は様々な生物活性において非常に重要な役割を果たす。
核酸結合残基の正確な同定は相互作用機構を理解するための重要なステップである。
多くの計算的手法が核酸結合残基を予測するために開発されたが、課題は残る。
本研究ではESM-NBRと呼ばれる高速かつ高精度なシーケンスベース手法を提案する。
ESM-NBRでは、まず大きなタンパク質言語モデルESM2を用いて、タンパク質一次配列から識別生物学的特徴の表現を抽出し、次に、積み重ねた双方向長短期メモリ(BiLSTM)と多層パーセプトロン(MLP)ネットワークからなるマルチタスク深層学習モデルを用いて、ESM2の機能を持つDNAおよびRNA結合残基の共通およびプライベート情報を入力として探索する。
ESM2特徴表現の予測性能は,進化的情報に基づく隠れマルコフモデル(HMM)の特徴を包括的に上回ることを示した。
一方、ESM-NBRは、2つの独立したテストセットにおいて0.427と0.391のDNA結合残基のMCC値をそれぞれ18.61と10.45%高くなる。
さらに、時間コスト多重配列アライメントプロセスを完全に破棄することにより、esm-nbrの予測速度は既存の方法よりはるかに速い(第2の高速法より約16倍速い長さ500のタンパク質配列の5.52s)。
ユーザフレンドリーなスタンドアロンパッケージとESM-NBRのデータは、 https://github.com/wwzll123/ESM-NBRで無料で利用できる。
関連論文リスト
- NovoBench: Benchmarking Deep Learning-based De Novo Peptide Sequencing Methods in Proteomics [58.03989832372747]
Emphde novoペプチドシークエンシングのための初となるNovoBenchベンチマークを報告する。
多様な質量スペクトルデータ、統合モデル、総合的な評価指標から構成される。
DeepNovo、PointNovo、Casanovo、InstaNovo、AdaNovo、$pi$-HelixNovoといった最近の手法が私たちのフレームワークに統合されています。
論文 参考訳(メタデータ) (2024-06-16T08:23:21Z) - Beyond ESM2: Graph-Enhanced Protein Sequence Modeling with Efficient Clustering [24.415612744612773]
タンパク質は生命の過程に必須であり、進化と多様性を支えている。
シークエンシング技術の進歩により数百万のタンパク質が明らかにされ、生物学的分析とAI開発のための高度な事前学習されたタンパク質モデルの必要性が強調されている。
FacebookのESM2は、これまでで最も先進的なタンパク質言語モデルであり、教師なし学習にマスク付き予測タスクを活用し、顕著な生化学的精度でアミノ酸表現を作成する。
しかし、機能的なタンパク質の洞察の提供に欠けており、表現の質を高める機会を示唆している。
本研究は,タンパク質ファミリー分類をESM2のトレーニングに組み込むことにより,このギャップに対処する。
論文 参考訳(メタデータ) (2024-04-24T11:09:43Z) - DisorderUnetLM: Validating ProteinUnet for efficient protein intrinsic disorder prediction [0.0]
内因性障害領域の予測は、タンパク質の機能やダイナミクスを理解する上で重要な意味を持つ。
近年,タンパク質言語モデル(pLM)に基づく新しい世代の予測器が出現している。
本稿では、タンパク質Unetの考え方に基づく新しい障害UnetLM障害予測器について紹介する。
論文 参考訳(メタデータ) (2024-04-11T20:14:14Z) - A Multi-Grained Symmetric Differential Equation Model for Learning
Protein-Ligand Binding Dynamics [74.93549765488103]
薬物発見において、分子動力学シミュレーションは、結合親和性を予測し、輸送特性を推定し、ポケットサイトを探索する強力なツールを提供する。
我々は,数値MDを容易にし,タンパク質-リガンド結合の正確なシミュレーションを提供する,最初の機械学習サロゲートであるNeuralMDを提案する。
我々は、標準的な数値MDシミュレーションよりも2000$times$のスピードアップを達成し、安定性の指標の下では、他のMLアプローチよりも最大80%高い効率で、NeuralMDの有効性と有効性を示す。
論文 参考訳(メタデータ) (2024-01-26T09:35:17Z) - Efficiently Predicting Protein Stability Changes Upon Single-point
Mutation with Large Language Models [51.57843608615827]
タンパク質の熱安定性を正確に予測する能力は、様々なサブフィールドや生化学への応用において重要である。
タンパク質配列と構造的特徴を統合したESMによる効率的なアプローチを導入し, 単一点突然変異によるタンパク質の熱安定性変化を予測する。
論文 参考訳(メタデータ) (2023-12-07T03:25:49Z) - MATE-Pred: Multimodal Attention-based TCR-Epitope interaction Predictor [1.933856957193398]
T細胞受容体と細胞間の正確な結合予測は、免疫療法の成功戦略に決定的に寄与する。
本稿では,T細胞受容体と親和性結合機構の注意に基づく予測を行う,信頼性の高い新しい手法であるMATE-Predを提案する。
MATE-Predのパフォーマンスは、薬物発見における潜在的な応用を予想している。
論文 参考訳(メタデータ) (2023-12-05T11:30:00Z) - Bayesian Reconstruction and Differential Testing of Excised mRNA [0.0]
我々は、転写と局所スプライシングの視点を調和させる最初の確率モデルを開発する。
拡張mRNA(BREM)の再構成のための新しい階層的ベイズ混和モデルを提案する。
BREMは局所スプライシングイベントとフル長の転写産物を補間し、高い後部確率を持つ中小企業にのみ焦点をあてる。
論文 参考訳(メタデータ) (2022-11-14T04:46:33Z) - Accurate Machine Learned Quantum-Mechanical Force Fields for
Biomolecular Simulations [51.68332623405432]
分子動力学(MD)シミュレーションは、化学的および生物学的プロセスに関する原子論的な洞察を可能にする。
近年,MDシミュレーションの代替手段として機械学習力場(MLFF)が出現している。
本研究は、大規模分子シミュレーションのための正確なMLFFを構築するための一般的なアプローチを提案する。
論文 参考訳(メタデータ) (2022-05-17T13:08:28Z) - Decoding the Protein-ligand Interactions Using Parallel Graph Neural
Networks [6.460973806588082]
PLI予測のための知識表現と推論を統合するための新しい並列グラフニューラルネットワーク(GNN)を提案する。
本手法は, 先行候補の行動, 有効性, 生物物理特性を予測するための, 解釈可能な, 説明可能な人工知能(AI)ツールとして機能する。
論文 参考訳(メタデータ) (2021-11-30T06:02:04Z) - Pre-training Co-evolutionary Protein Representation via A Pairwise
Masked Language Model [93.9943278892735]
タンパク質配列表現学習の鍵となる問題は、配列中の残基間の共変量によって反映される共進化情報をキャプチャすることである。
Pairwise Masked Language Model (PMLM) と呼ばれる専用言語モデルによる事前学習により,この情報を直接キャプチャする新しい手法を提案する。
提案手法は, 相互関係を効果的に把握し, ベースラインと比較して, 接触予測性能を最大9%向上できることを示す。
論文 参考訳(メタデータ) (2021-10-29T04:01:32Z) - Confidence-guided Lesion Mask-based Simultaneous Synthesis of Anatomic
and Molecular MR Images in Patients with Post-treatment Malignant Gliomas [65.64363834322333]
信頼性ガイドSAMR(CG-SAMR)は、病変情報からマルチモーダル解剖学的配列にデータを合成する。
モジュールは中間結果に対する信頼度測定に基づいて合成をガイドする。
実際の臨床データを用いた実験により,提案モデルが最先端の合成法よりも優れた性能を発揮することが示された。
論文 参考訳(メタデータ) (2020-08-06T20:20:22Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。