論文の概要: Autoregressive Enzyme Function Prediction with Multi-scale Multi-modality Fusion
- arxiv url: http://arxiv.org/abs/2408.06391v1
- Date: Sun, 11 Aug 2024 08:28:43 GMT
- ステータス: 処理完了
- システム内更新日: 2024-08-14 19:39:00.022105
- Title: Autoregressive Enzyme Function Prediction with Multi-scale Multi-modality Fusion
- Title(参考訳): マルチスケール多モード融合による自己回帰酵素機能予測
- Authors: Dingyi Rong, Wenzhuo Zheng, Bozitao Zhong, Zhouhan Lin, Liang Hong, Ning Liu,
- Abstract要約: MAPredは、タンパク質のEC数を自動回帰予測するために設計された、新しいマルチモダリティおよびマルチスケールモデルである。
MAPredは、タンパク質の一次アミノ酸配列と3Dトークンの両方を統合し、包括的なタンパク質の特徴を捉えるために二重経路アプローチを用いる。
New-392、Price、New-815を含むベンチマークデータセットの評価は、我々の手法が既存のモデルより優れていることを示す。
- 参考スコア(独自算出の注目度): 11.278610817877578
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Accurate prediction of enzyme function is crucial for elucidating biological mechanisms and driving innovation across various sectors. Existing deep learning methods tend to rely solely on either sequence data or structural data and predict the EC number as a whole, neglecting the intrinsic hierarchical structure of EC numbers. To address these limitations, we introduce MAPred, a novel multi-modality and multi-scale model designed to autoregressively predict the EC number of proteins. MAPred integrates both the primary amino acid sequence and the 3D tokens of proteins, employing a dual-pathway approach to capture comprehensive protein characteristics and essential local functional sites. Additionally, MAPred utilizes an autoregressive prediction network to sequentially predict the digits of the EC number, leveraging the hierarchical organization of EC classifications. Evaluations on benchmark datasets, including New-392, Price, and New-815, demonstrate that our method outperforms existing models, marking a significant advance in the reliability and granularity of protein function prediction within bioinformatics.
- Abstract(参考訳): 酵素機能の正確な予測は、生物機構の解明と様々な分野におけるイノベーションの推進に不可欠である。
既存のディープラーニング手法は、シーケンスデータまたは構造データにのみ依存し、EC番号全体を予測し、EC番号の固有の階層構造を無視する傾向にある。
これらの制約に対処するため、MAPredという新しいマルチモーダリティ・マルチスケールモデルを導入し、EC数のタンパク質を自動回帰的に予測する。
MAPredは、タンパク質の一次アミノ酸配列と3Dトークンの両方を統合し、包括的タンパク質の特徴と重要な局所的機能部位を捉えるための二重経路アプローチを用いる。
さらに、MAPredは自己回帰予測ネットワークを使用して、EC分類の階層的構造を利用して、EC番号の桁数を逐次予測する。
New-392、Price、New-815といったベンチマークデータセットの評価は、我々の手法が既存のモデルよりも優れており、バイオインフォマティクスにおけるタンパク質機能予測の信頼性と粒度が著しく向上していることを示している。
関連論文リスト
- SeqProFT: Applying LoRA Finetuning for Sequence-only Protein Property Predictions [8.112057136324431]
本研究では,ESM-2モデルのエンド・ツー・エンドの微調整を行うためにLoRA法を用いる。
下流ネットワークにマルチヘッドアテンション機構を統合して、シーケンス特徴とコンタクトマップ情報を組み合わせる。
論文 参考訳(メタデータ) (2024-11-18T12:40:39Z) - MeToken: Uniform Micro-environment Token Boosts Post-Translational Modification Prediction [65.33218256339151]
翻訳後修飾(PTM)はプロテオームの複雑さと機能を大幅に拡張する。
既存の計算手法は主に、配列依存的なモチーフの認識によって引き起こされる、PTM部位を予測するタンパク質配列に焦点を当てている。
本稿では,各酸のマイクロ環境をトークン化し,シーケンス情報と構造情報を統一された離散トークンに統合するMeTokenモデルを提案する。
論文 参考訳(メタデータ) (2024-11-04T07:14:28Z) - SFM-Protein: Integrative Co-evolutionary Pre-training for Advanced Protein Sequence Representation [97.99658944212675]
タンパク質基盤モデルのための新しい事前学習戦略を導入する。
アミノ酸残基間の相互作用を強調し、短距離および長距離の共進化的特徴の抽出を強化する。
大規模タンパク質配列データセットを用いて学習し,より優れた一般化能力を示す。
論文 参考訳(メタデータ) (2024-10-31T15:22:03Z) - NovoBench: Benchmarking Deep Learning-based De Novo Peptide Sequencing Methods in Proteomics [58.03989832372747]
Emphde novoペプチドシークエンシングのための初となるNovoBenchベンチマークを報告する。
多様な質量スペクトルデータ、統合モデル、総合的な評価指標から構成される。
DeepNovo、PointNovo、Casanovo、InstaNovo、AdaNovo、$pi$-HelixNovoといった最近の手法が私たちのフレームワークに統合されています。
論文 参考訳(メタデータ) (2024-06-16T08:23:21Z) - xTrimoPGLM: Unified 100B-Scale Pre-trained Transformer for Deciphering
the Language of Protein [76.18058946124111]
本稿では,タンパク質の理解と生成を同時に行うために,統一されたタンパク質言語モデル xTrimoPGLM を提案する。
xTrimoPGLMは、4つのカテゴリにわたる18のタンパク質理解ベンチマークにおいて、他の高度なベースラインを著しく上回っている。
また、自然の原理に従ってデノボタンパク質配列を生成でき、微調整を監督した後にプログラム可能な生成を行うことができる。
論文 参考訳(メタデータ) (2024-01-11T15:03:17Z) - Target-aware Variational Auto-encoders for Ligand Generation with
Multimodal Protein Representation Learning [2.01243755755303]
ターゲット認識型自動エンコーダであるTargetVAEを導入し、任意のタンパク質標的に対する高い結合親和性で生成する。
これは、タンパク質の異なる表現を単一のモデルに統一する最初の試みであり、これは我々がタンパク質マルチモーダルネットワーク(PMN)と呼ぶ。
論文 参考訳(メタデータ) (2023-08-02T12:08:17Z) - DeepGATGO: A Hierarchical Pretraining-Based Graph-Attention Model for
Automatic Protein Function Prediction [4.608328575930055]
自動タンパク質機能予測(AFP)は大規模多ラベル分類問題に分類される。
現在、一般的な手法は主にタンパク質関連情報と遺伝子オントロジー(GO)の用語を組み合わせて、最終的な機能予測を生成する。
本稿では,タンパク質配列とGO項ラベルを階層的に処理するシークエンスベースの階層予測手法であるDeepGATGOを提案する。
論文 参考訳(メタデータ) (2023-07-24T07:01:32Z) - Efficient Prediction of Peptide Self-assembly through Sequential and
Graphical Encoding [57.89530563948755]
この研究は、高度なディープラーニングモデルを用いたペプチドエンコーディングのベンチマーク分析を提供する。
等電点や水和自由エネルギーなど、幅広いペプチド関連予測のガイドとして機能する。
論文 参考訳(メタデータ) (2023-07-17T00:43:33Z) - CoGANPPIS: A Coevolution-enhanced Global Attention Neural Network for
Protein-Protein Interaction Site Prediction [0.9217021281095907]
PPI予測のためのシーケンスベースディープラーニングモデルである,共進化型グローバルアテンションニューラルネットワークを提案する。
CoGANPPISは特徴抽出に3つの層を並列に利用する。
提案手法は最先端の性能を実現する。
論文 参考訳(メタデータ) (2023-03-13T09:27:34Z) - ECRECer: Enzyme Commission Number Recommendation and Benchmarking based
on Multiagent Dual-core Learning [1.4114970711442507]
ECRECerは,新しいディープラーニング技術に基づいて,EC数値を正確に予測するクラウドプラットフォームである。
ECRECerを構築するために、異なるタンパク質表現法を評価し、タンパク質配列の埋め込みにタンパク質言語モデルを採用する。
ECRECerは最高のパフォーマンスを提供し、正確さとF1スコアをそれぞれ70%、最先端よりも20%向上させる。
論文 参考訳(メタデータ) (2022-02-08T04:00:49Z) - Deep Learning of High-Order Interactions for Protein Interface
Prediction [58.164371994210406]
本稿では,タンパク質界面の予測を2次元密度予測問題として定式化する。
タンパク質をグラフとして表現し、グラフニューラルネットワークを用いてノードの特徴を学習する。
我々は高次対相互作用を組み込んで、異なる対相互作用を含む3次元テンソルを生成する。
論文 参考訳(メタデータ) (2020-07-18T05:39:35Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。