論文の概要: ECRECer: Enzyme Commission Number Recommendation and Benchmarking based
on Multiagent Dual-core Learning
- arxiv url: http://arxiv.org/abs/2202.03632v1
- Date: Tue, 8 Feb 2022 04:00:49 GMT
- ステータス: 処理完了
- システム内更新日: 2022-02-10 02:45:57.285452
- Title: ECRECer: Enzyme Commission Number Recommendation and Benchmarking based
on Multiagent Dual-core Learning
- Title(参考訳): ECRECer:マルチエージェントデュアルコア学習に基づく酵素委員会番号勧告とベンチマーク
- Authors: Zhenkun Shi, Qianqian Yuan, Ruoyu Wang, Hoaran Li, Xiaoping Liao,
Hongwu Ma
- Abstract要約: ECRECerは,新しいディープラーニング技術に基づいて,EC数値を正確に予測するクラウドプラットフォームである。
ECRECerを構築するために、異なるタンパク質表現法を評価し、タンパク質配列の埋め込みにタンパク質言語モデルを採用する。
ECRECerは最高のパフォーマンスを提供し、正確さとF1スコアをそれぞれ70%、最先端よりも20%向上させる。
- 参考スコア(独自算出の注目度): 1.4114970711442507
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Enzyme Commission (EC) numbers, which associate a protein sequence with the
biochemical reactions it catalyzes, are essential for the accurate
understanding of enzyme functions and cellular metabolism. Many ab-initio
computational approaches were proposed to predict EC numbers for given input
sequences directly. However, the prediction performance (accuracy, recall,
precision), usability, and efficiency of existing methods still have much room
to be improved. Here, we report ECRECer, a cloud platform for accurately
predicting EC numbers based on novel deep learning techniques. To build
ECRECer, we evaluate different protein representation methods and adopt a
protein language model for protein sequence embedding. After embedding, we
propose a multi-agent hierarchy deep learning-based framework to learn the
proposed tasks in a multi-task manner. Specifically, we used an extreme
multi-label classifier to perform the EC prediction and employed a greedy
strategy to integrate and fine-tune the final model. Comparative analyses
against four representative methods demonstrate that ECRECer delivers the
highest performance, which improves accuracy and F1 score by 70% and 20% over
the state-of-the-the-art, respectively. With ECRECer, we can annotate numerous
enzymes in the Swiss-Prot database with incomplete EC numbers to their full
fourth level. Take UniPort protein "A0A0U5GJ41" as an example (1.14.-.-),
ECRECer annotated it with "1.14.11.38", which supported by further protein
structure analysis based on AlphaFold2. Finally, we established a webserver
(https://ecrecer.biodesign.ac.cn) and provided an offline bundle to improve
usability.
- Abstract(参考訳): 酵素委員会(EC)の番号は、タンパク質配列とそれが触媒する生化学反応を関連付けるもので、酵素機能と細胞代謝の正確な理解に不可欠である。
多くのab-initio計算手法が与えられた入力シーケンスのEC数値を直接予測するために提案された。
しかし、既存の手法の予測性能(正確性、リコール、精度)、ユーザビリティ、効率性は、まだ改善の余地がたくさんある。
本稿では,新しいディープラーニング技術に基づいてEC数値を正確に予測するクラウドプラットフォームであるECRECerについて報告する。
ECRECerを構築するために、異なるタンパク質表現法を評価し、タンパク質配列の埋め込みにタンパク質言語モデルを採用する。
組込み後,提案したタスクをマルチタスクで学習するマルチエージェント階層型ディープラーニングフレームワークを提案する。
具体的には、極端に多ラベルの分類器を用いてEC予測を行い、最終的なモデルを統合・微調整するために欲求戦略を用いた。
4つの代表的な手法に対する比較分析の結果、ecrecerは最も高いパフォーマンスをもたらし、その結果、精度が向上し、f1スコアは最先端よりも70%と20%向上した。
ECRECerでは、不完全なEC番号をフル4レベルとするスイスプロデータベースに多数の酵素をアノテートすることができる。
UniPort タンパク質 "A0A0U5GJ41" を例に(1.14.---)、ECRECer は AlphaFold2 に基づくさらなるタンパク質構造解析を裏付ける "1.14.11.38" でアノテートした。
最後に、webサーバ(https://ecrecer.biodesign.ac.cn)を確立し、ユーザビリティを向上させるためにオフラインバンドルを提供しました。
関連論文リスト
- Autoregressive Enzyme Function Prediction with Multi-scale Multi-modality Fusion [11.278610817877578]
MAPredは、タンパク質のEC数を自動回帰予測するために設計された、新しいマルチモダリティおよびマルチスケールモデルである。
MAPredは、タンパク質の一次アミノ酸配列と3Dトークンの両方を統合し、包括的なタンパク質の特徴を捉えるために二重経路アプローチを用いる。
New-392、Price、New-815を含むベンチマークデータセットの評価は、我々の手法が既存のモデルより優れていることを示す。
論文 参考訳(メタデータ) (2024-08-11T08:28:43Z) - Efficiently Predicting Protein Stability Changes Upon Single-point
Mutation with Large Language Models [51.57843608615827]
タンパク質の熱安定性を正確に予測する能力は、様々なサブフィールドや生化学への応用において重要である。
タンパク質配列と構造的特徴を統合したESMによる効率的なアプローチを導入し, 単一点突然変異によるタンパク質の熱安定性変化を予測する。
論文 参考訳(メタデータ) (2023-12-07T03:25:49Z) - Structure-informed Language Models Are Protein Designers [69.70134899296912]
配列ベースタンパク質言語モデル(pLM)の汎用的手法であるLM-Designを提案する。
pLMに軽量な構造アダプターを埋め込んだ構造手術を行い,構造意識を付加した構造手術を行った。
実験の結果,我々の手法は最先端の手法よりも大きなマージンで優れていることがわかった。
論文 参考訳(メタデータ) (2023-02-03T10:49:52Z) - Reprogramming Pretrained Language Models for Protein Sequence
Representation Learning [68.75392232599654]
エンドツーエンドの表現学習フレームワークである辞書学習(R2DL)による表現学習を提案する。
R2DLは、タンパク質配列の埋め込みを学ぶために、事前訓練された英語モデルを再プログラムする。
我々のモデルは,事前訓練および標準教師付き手法によって設定されたベースラインに対して,最大105ドルの精度でデータ効率を大幅に向上させることができる。
論文 参考訳(メタデータ) (2023-01-05T15:55:18Z) - HelixFold-Single: MSA-free Protein Structure Prediction by Using Protein
Language Model as an Alternative [61.984700682903096]
HelixFold-Singleは、大規模なタンパク質言語モデルとAlphaFold2の優れた幾何学的学習能力を組み合わせるために提案されている。
提案手法は,数千万の一次配列を持つ大規模タンパク質言語モデルを事前学習する。
我々は、一次系列のみから原子の3次元座標を予測するために、エンドツーエンドの微分可能なモデルを得る。
論文 参考訳(メタデータ) (2022-07-28T07:30:33Z) - PEER: A Comprehensive and Multi-Task Benchmark for Protein Sequence
Understanding [17.770721291090258]
PEERは、Protein sEquence undERstandingの包括的なマルチタスクベンチマークである。
タンパク質機能予測、タンパク質局在予測、タンパク質構造予測、タンパク質-リガンド相互作用予測を含む、多様なタンパク質理解タスクのセットを提供する。
我々は,従来の特徴工学的手法,異なる配列符号化手法,および大規模事前学習されたタンパク質言語モデルなど,各タスクに対するシーケンスベース手法の評価を行った。
論文 参考訳(メタデータ) (2022-06-05T05:21:56Z) - Pre-training Co-evolutionary Protein Representation via A Pairwise
Masked Language Model [93.9943278892735]
タンパク質配列表現学習の鍵となる問題は、配列中の残基間の共変量によって反映される共進化情報をキャプチャすることである。
Pairwise Masked Language Model (PMLM) と呼ばれる専用言語モデルによる事前学習により,この情報を直接キャプチャする新しい手法を提案する。
提案手法は, 相互関係を効果的に把握し, ベースラインと比較して, 接触予測性能を最大9%向上できることを示す。
論文 参考訳(メタデータ) (2021-10-29T04:01:32Z) - EEG-Inception: An Accurate and Robust End-to-End Neural Network for
EEG-based Motor Imagery Classification [123.93460670568554]
本稿では,脳波に基づく運動画像(MI)分類のための新しい畳み込みニューラルネットワーク(CNN)アーキテクチャを提案する。
提案したCNNモデル、すなわちEEG-Inceptionは、Inception-Timeネットワークのバックボーン上に構築されている。
提案するネットワークは、生のEEG信号を入力とし、複雑なEEG信号前処理を必要としないため、エンドツーエンドの分類である。
論文 参考訳(メタデータ) (2021-01-24T19:03:10Z) - Pre-training Protein Language Models with Label-Agnostic Binding Pairs
Enhances Performance in Downstream Tasks [1.452875650827562]
タンパク質配列の1%未満は構造的にも機能的にも注釈付けされている。
本稿では,結合タンパク質配列と非結合タンパク質配列を混合したRoBERTaモデルを提案する。
トランスフォーマーの注意機構は,タンパク質結合部位の発見に寄与することが示唆された。
論文 参考訳(メタデータ) (2020-12-05T17:37:41Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。