論文の概要: MSNGO: multi-species protein function annotation based on 3D protein structure and network propagation
- arxiv url: http://arxiv.org/abs/2503.23014v1
- Date: Sat, 29 Mar 2025 08:35:45 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-04-01 14:38:05.878693
- Title: MSNGO: multi-species protein function annotation based on 3D protein structure and network propagation
- Title(参考訳): MSNGO:3Dタンパク質構造とネットワーク伝播に基づく多種タンパク質機能アノテーション
- Authors: Beibei Wang, Boyue Cui, Shiqu Chen, Xuan Wang, Yadong Wang, Junyi Li,
- Abstract要約: 構造的特徴とネットワーク伝搬を統合したMSNGOモデルを提案する。
構造的特徴を用いることで,多種のタンパク質機能予測の精度が向上することが確認できた。
- 参考スコア(独自算出の注目度): 38.732449945780246
- License:
- Abstract: Motivation: In recent years, protein function prediction has broken through the bottleneck of sequence features, significantly improving prediction accuracy using high-precision protein structures predicted by AlphaFold2. While single-species protein function prediction methods have achieved remarkable success, multi-species protein function prediction methods are still in the stage of using PPI networks and sequence features. Providing effective cross-species label propagation for species with sparse protein annotations remains a challenging issue. To address this problem, we propose the MSNGO model, which integrates structural features and network propagation methods. Our validation shows that using structural features can significantly improve the accuracy of multi-species protein function prediction. Results: We employ graph representation learning techniques to extract amino acid representations from protein structure contact maps and train a structural model using a graph convolution pooling module to derive protein-level structural features. After incorporating the sequence features from ESM-2, we apply a network propagation algorithm to aggregate information and update node representations within a heterogeneous network. The results demonstrate that MSNGO outperforms previous multi-species protein function prediction methods that rely on sequence features and PPI networks. Availability: https://github.com/blingbell/MSNGO.
- Abstract(参考訳): 動機:近年,αFold2によって予測される高精度タンパク質構造を用いて,タンパク質機能の予測精度を著しく向上させ,配列の特徴のボトルネックを通じてタンパク質機能の予測が壊れている。
単種のタンパク質機能予測法は目覚ましい成功を収めているが、多種のタンパク質機能予測法はまだPPIネットワークと配列の特徴を用いる段階にある。
スパースタンパク質のアノテーションを持つ種に対する効果的な異種間ラベルの伝播は、依然として困難な問題である。
この問題に対処するために,構造的特徴とネットワーク伝搬を統合したMSNGOモデルを提案する。
構造的特徴を用いることで,多種のタンパク質機能予測の精度が向上することが確認できた。
結果: タンパク質構造接触マップからアミノ酸表現を抽出し, グラフ畳み込みプールモジュールを用いて構造モデルを訓練し, タンパク質レベルの構造的特徴を導出する。
ESM-2からシーケンス機能を組み込んだ後、異種ネットワーク内の情報収集とノード表現の更新にネットワーク伝搬アルゴリズムを適用した。
その結果、MSNGOは、配列の特徴やPPIネットワークに依存する従来の多種のタンパク質機能予測手法よりも優れていた。
可用性: https://github.com/blingbell/MSNGO。
関連論文リスト
- SFM-Protein: Integrative Co-evolutionary Pre-training for Advanced Protein Sequence Representation [97.99658944212675]
タンパク質基盤モデルのための新しい事前学習戦略を導入する。
アミノ酸残基間の相互作用を強調し、短距離および長距離の共進化的特徴の抽出を強化する。
大規模タンパク質配列データセットを用いて学習し,より優れた一般化能力を示す。
論文 参考訳(メタデータ) (2024-10-31T15:22:03Z) - ProteinRPN: Towards Accurate Protein Function Prediction with Graph-Based Region Proposals [4.525216077859531]
本稿では,タンパク質機能予測のためのタンパク質領域提案ネットワーク(ProteinRPN)を紹介する。
proteinRPNは、階層型ノードドロッププーリング層を通じて洗練される潜在的な機能領域(アンカー)を識別する。
予測された機能ノードの表現は、注意機構を使用して強化され、グラフマルチセット変換器に入力される。
論文 参考訳(メタデータ) (2024-09-01T04:40:04Z) - ProLLM: Protein Chain-of-Thoughts Enhanced LLM for Protein-Protein Interaction Prediction [54.132290875513405]
タンパク質-タンパク質相互作用(PPI)の予測は、生物学的機能や疾患を理解する上で重要である。
PPI予測に対する従来の機械学習アプローチは、主に直接的な物理的相互作用に焦点を当てていた。
PPIに適したLLMを用いた新しいフレームワークProLLMを提案する。
論文 参考訳(メタデータ) (2024-03-30T05:32:42Z) - Structure-Informed Protein Language Model [38.019425619750265]
本稿では、構造情報をタンパク質言語モデルに抽出するためのリモートホモロジー検出の統合について紹介する。
この構造インフォームドトレーニングが下流タンパク質機能予測タスクに与える影響を評価する。
論文 参考訳(メタデータ) (2024-02-07T09:32:35Z) - DeepGATGO: A Hierarchical Pretraining-Based Graph-Attention Model for
Automatic Protein Function Prediction [4.608328575930055]
自動タンパク質機能予測(AFP)は大規模多ラベル分類問題に分類される。
現在、一般的な手法は主にタンパク質関連情報と遺伝子オントロジー(GO)の用語を組み合わせて、最終的な機能予測を生成する。
本稿では,タンパク質配列とGO項ラベルを階層的に処理するシークエンスベースの階層予測手法であるDeepGATGOを提案する。
論文 参考訳(メタデータ) (2023-07-24T07:01:32Z) - Retrieved Sequence Augmentation for Protein Representation Learning [40.13920287967866]
本稿では,タンパク質表現学習のための検索シーケンス拡張について,アライメントや前処理を伴わずに導入する。
本モデルでは,新しいタンパク質ドメインに移行し,デノボタンパク質の予測においてMSAトランスフォーマーより優れていることを示す。
我々の研究はタンパク質の予測における大きなギャップを埋め、タンパク質配列を理解するのに必要なドメイン知識の解読に一歩近づいた。
論文 参考訳(メタデータ) (2023-02-24T10:31:45Z) - Structure-aware Protein Self-supervised Learning [50.04673179816619]
本稿では,タンパク質の構造情報を取得するための構造認識型タンパク質自己教師学習法を提案する。
特に、タンパク質構造情報を保存するために、よく設計されたグラフニューラルネットワーク(GNN)モデルを事前訓練する。
タンパク質言語モデルにおける逐次情報と特別に設計されたGNNモデルにおける構造情報との関係を,新しい擬似二段階最適化手法を用いて同定する。
論文 参考訳(メタデータ) (2022-04-06T02:18:41Z) - Protein Representation Learning by Geometric Structure Pretraining [27.723095456631906]
既存のアプローチは通常、多くの未ラベルアミノ酸配列で事前訓練されたタンパク質言語モデルである。
まず,タンパク質の幾何学的特徴を学習するための単純かつ効果的なエンコーダを提案する。
関数予測と折り畳み分類の両タスクの実験結果から,提案した事前学習法は,より少ないデータを用いた最先端のシーケンスベース手法と同等あるいは同等であることがわかった。
論文 参考訳(メタデータ) (2022-03-11T17:52:13Z) - EBM-Fold: Fully-Differentiable Protein Folding Powered by Energy-based
Models [53.17320541056843]
本研究では,データ駆動型生成ネットワークを用いたタンパク質構造最適化手法を提案する。
EBM-Foldアプローチは,従来のロゼッタ構造最適化ルーチンと比較して,高品質なデコイを効率よく生成できる。
論文 参考訳(メタデータ) (2021-05-11T03:40:29Z) - Deep Learning of High-Order Interactions for Protein Interface
Prediction [58.164371994210406]
本稿では,タンパク質界面の予測を2次元密度予測問題として定式化する。
タンパク質をグラフとして表現し、グラフニューラルネットワークを用いてノードの特徴を学習する。
我々は高次対相互作用を組み込んで、異なる対相互作用を含む3次元テンソルを生成する。
論文 参考訳(メタデータ) (2020-07-18T05:39:35Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。