Fugu-MT 論文翻訳(概要): DeepGATGO: A Hierarchical Pretraining-Based Graph-Attention Model for Automatic Protein Function Prediction

論文の概要: DeepGATGO: A Hierarchical Pretraining-Based Graph-Attention Model for Automatic Protein Function Prediction

arxiv url: http://arxiv.org/abs/2307.13004v1
Date: Mon, 24 Jul 2023 07:01:32 GMT
ステータス: 翻訳完了
システム内更新日: 2023-07-26 19:33:09.095385
Title: DeepGATGO: A Hierarchical Pretraining-Based Graph-Attention Model for Automatic Protein Function Prediction
Title（参考訳）: DeepGATGO:タンパク質機能自動予測のための階層型事前学習グラフアテンションモデル
Authors: Zihao Li, Changkun Jiang, and Jianqiang Li
Abstract要約: 自動タンパク質機能予測(AFP)は大規模多ラベル分類問題に分類される。現在、一般的な手法は主にタンパク質関連情報と遺伝子オントロジー(GO)の用語を組み合わせて、最終的な機能予測を生成する。本稿では,タンパク質配列とGO項ラベルを階層的に処理するシークエンスベースの階層予測手法であるDeepGATGOを提案する。
参考スコア（独自算出の注目度）: 4.608328575930055
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: Automatic protein function prediction (AFP) is classified as a large-scale multi-label classification problem aimed at automating protein enrichment analysis to eliminate the current reliance on labor-intensive wet-lab methods. Currently, popular methods primarily combine protein-related information and Gene Ontology (GO) terms to generate final functional predictions. For example, protein sequences, structural information, and protein-protein interaction networks are integrated as prior knowledge to fuse with GO term embeddings and generate the ultimate prediction results. However, these methods are limited by the difficulty in obtaining structural information or network topology information, as well as the accuracy of such data. Therefore, more and more methods that only use protein sequences for protein function prediction have been proposed, which is a more reliable and computationally cheaper approach. However, the existing methods fail to fully extract feature information from protein sequences or label data because they do not adequately consider the intrinsic characteristics of the data itself. Therefore, we propose a sequence-based hierarchical prediction method, DeepGATGO, which processes protein sequences and GO term labels hierarchically, and utilizes graph attention networks (GATs) and contrastive learning for protein function prediction. Specifically, we compute embeddings of the sequence and label data using pre-trained models to reduce computational costs and improve the embedding accuracy. Then, we use GATs to dynamically extract the structural information of non-Euclidean data, and learn general features of the label dataset with contrastive learning by constructing positive and negative example samples. Experimental results demonstrate that our proposed model exhibits better scalability in GO term enrichment analysis on large-scale datasets.
Abstract（参考訳）: 自動タンパク質機能予測(automatic protein function prediction, afp)は、タンパク質濃縮分析の自動化を目的とした大規模マルチラベル分類問題である。現在、一般的な方法はタンパク質関連情報と遺伝子オントロジー(GO)用語を組み合わせて最終機能予測を生成する。例えば、タンパク質配列、構造情報、タンパク質-タンパク質相互作用ネットワークは、GO項の埋め込みと融合し、最終的な予測結果を生成する事前知識として統合される。しかし、これらの手法は構造情報やネットワークトポロジ情報を得るのが困難であることや、データの正確性によって制限される。そのため、タンパク質の機能予測にタンパク質配列のみを用いる手法がますます提案され、より信頼性が高く、計算的に安価なアプローチである。しかし,既存の手法では本質的特徴を十分に考慮していないため,タンパク質配列やラベルデータから特徴情報を完全に抽出できない。そこで我々は,タンパク質配列とGO項ラベルを階層的に処理し,グラフアテンションネットワーク(GAT)とコントラスト学習を用いてタンパク質機能予測を行う,シーケンスベースの階層的予測手法であるDeepGATGOを提案する。具体的には,事前学習したモデルを用いてシーケンスおよびラベルデータの埋め込みを計算し,計算コストを削減し,埋め込み精度を向上させる。次に、gatsを用いて非ユークリッドデータの構造情報を動的に抽出し、正のサンプルと負のサンプルを構築して対比学習によりラベルデータセットの一般特徴を学習する。実験の結果,大規模データセットのgo項エンリッチメント解析において,提案モデルの方がスケーラビリティが向上することが示された。

関連論文リスト

S$^2$Drug: Bridging Protein Sequence and 3D Structure in Contrastive Representation Learning for Virtual Screening [72.89086338778098]
タンパク質リガンドコントラスト表現学習のための2段階フレームワークを提案する。最初の段階では、ESM2ベースのバックボーンを用いて、ChemBLでタンパク質配列を事前訓練する。第2段階では、残基レベルゲーティングモジュールを介して配列と構造情報を融合することでPDBBindを微調整する。この補助的なタスクは、モデルを誘導し、タンパク質配列内の結合残基を正確に局在させ、それらの3次元空間配列をキャプチャする。
論文参考訳（メタデータ） (2025-11-10T11:57:47Z)
MSNGO: multi-species protein function annotation based on 3D protein structure and network propagation [38.732449945780246]
構造的特徴とネットワーク伝搬を統合したMSNGOモデルを提案する。構造的特徴を用いることで,多種のタンパク質機能予測の精度が向上することが確認できた。
論文参考訳（メタデータ） (2025-03-29T08:35:45Z)
SeqProFT: Applying LoRA Finetuning for Sequence-only Protein Property Predictions [8.112057136324431]
本研究では,ESM-2モデルのエンド・ツー・エンドの微調整を行うためにLoRA法を用いる。下流ネットワークにマルチヘッドアテンション機構を統合して、シーケンス特徴とコンタクトマップ情報を組み合わせる。
論文参考訳（メタデータ） (2024-11-18T12:40:39Z)
SFM-Protein: Integrative Co-evolutionary Pre-training for Advanced Protein Sequence Representation [97.99658944212675]
タンパク質基盤モデルのための新しい事前学習戦略を導入する。アミノ酸残基間の相互作用を強調し、短距離および長距離の共進化的特徴の抽出を強化する。大規模タンパク質配列データセットを用いて学習し,より優れた一般化能力を示す。
論文参考訳（メタデータ） (2024-10-31T15:22:03Z)
ProtIR: Iterative Refinement between Retrievers and Predictors for Protein Function Annotation [38.019425619750265]
本稿では,タンパク質間類似性モデリングを取り入れた関数予測器の改良を目的とした,新しい変分擬似類似性フレームワークProtIRを提案する。 ProtIRは、バニラ予測に基づく手法よりも約10%改善されている。タンパク質言語モデルに基づく手法と同等の性能を発揮するが、大規模な事前学習は必要としない。
論文参考訳（メタデータ） (2024-02-10T17:31:46Z)
Structure-Informed Protein Language Model [38.019425619750265]
本稿では、構造情報をタンパク質言語モデルに抽出するためのリモートホモロジー検出の統合について紹介する。この構造インフォームドトレーニングが下流タンパク質機能予測タスクに与える影響を評価する。
論文参考訳（メタデータ） (2024-02-07T09:32:35Z)
Reprogramming Pretrained Language Models for Protein Sequence Representation Learning [68.75392232599654]
エンドツーエンドの表現学習フレームワークである辞書学習(R2DL)による表現学習を提案する。 R2DLは、タンパク質配列の埋め込みを学ぶために、事前訓練された英語モデルを再プログラムする。我々のモデルは,事前訓練および標準教師付き手法によって設定されたベースラインに対して,最大105ドルの精度でデータ効率を大幅に向上させることができる。
論文参考訳（メタデータ） (2023-01-05T15:55:18Z)
Structure-aware Protein Self-supervised Learning [50.04673179816619]
本稿では,タンパク質の構造情報を取得するための構造認識型タンパク質自己教師学習法を提案する。特に、タンパク質構造情報を保存するために、よく設計されたグラフニューラルネットワーク(GNN)モデルを事前訓練する。タンパク質言語モデルにおける逐次情報と特別に設計されたGNNモデルにおける構造情報との関係を,新しい擬似二段階最適化手法を用いて同定する。
論文参考訳（メタデータ） (2022-04-06T02:18:41Z)
Protein Representation Learning by Geometric Structure Pretraining [27.723095456631906]
既存のアプローチは通常、多くの未ラベルアミノ酸配列で事前訓練されたタンパク質言語モデルである。まず,タンパク質の幾何学的特徴を学習するための単純かつ効果的なエンコーダを提案する。関数予測と折り畳み分類の両タスクの実験結果から,提案した事前学習法は,より少ないデータを用いた最先端のシーケンスベース手法と同等あるいは同等であることがわかった。
論文参考訳（メタデータ） (2022-03-11T17:52:13Z)
Pre-training Co-evolutionary Protein Representation via A Pairwise Masked Language Model [93.9943278892735]
タンパク質配列表現学習の鍵となる問題は、配列中の残基間の共変量によって反映される共進化情報をキャプチャすることである。 Pairwise Masked Language Model (PMLM) と呼ばれる専用言語モデルによる事前学習により,この情報を直接キャプチャする新しい手法を提案する。提案手法は, 相互関係を効果的に把握し, ベースラインと比較して, 接触予測性能を最大9%向上できることを示す。
論文参考訳（メタデータ） (2021-10-29T04:01:32Z)
EBM-Fold: Fully-Differentiable Protein Folding Powered by Energy-based Models [53.17320541056843]
本研究では,データ駆動型生成ネットワークを用いたタンパク質構造最適化手法を提案する。 EBM-Foldアプローチは,従来のロゼッタ構造最適化ルーチンと比較して,高品質なデコイを効率よく生成できる。
論文参考訳（メタデータ） (2021-05-11T03:40:29Z)
Bayesian neural network with pretrained protein embedding enhances prediction accuracy of drug-protein interaction [3.499870393443268]
ディープラーニングのアプローチは、人間による試行錯誤なしに薬物とタンパク質の相互作用を予測できる。本稿では,小さなラベル付きデータセットで優れた性能を示すディープラーニングフレームワークを構築するための2つの手法を提案する。
論文参考訳（メタデータ） (2020-12-15T10:24:34Z)
Deep Learning of High-Order Interactions for Protein Interface Prediction [58.164371994210406]
本稿では,タンパク質界面の予測を2次元密度予測問題として定式化する。タンパク質をグラフとして表現し、グラフニューラルネットワークを用いてノードの特徴を学習する。我々は高次対相互作用を組み込んで、異なる対相互作用を含む3次元テンソルを生成する。
論文参考訳（メタデータ） (2020-07-18T05:39:35Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。