論文の概要: DeepGATGO: A Hierarchical Pretraining-Based Graph-Attention Model for
Automatic Protein Function Prediction
- arxiv url: http://arxiv.org/abs/2307.13004v1
- Date: Mon, 24 Jul 2023 07:01:32 GMT
- ステータス: 処理完了
- システム内更新日: 2023-07-26 19:33:09.095385
- Title: DeepGATGO: A Hierarchical Pretraining-Based Graph-Attention Model for
Automatic Protein Function Prediction
- Title(参考訳): DeepGATGO:タンパク質機能自動予測のための階層型事前学習グラフアテンションモデル
- Authors: Zihao Li, Changkun Jiang, and Jianqiang Li
- Abstract要約: 自動タンパク質機能予測(AFP)は大規模多ラベル分類問題に分類される。
現在、一般的な手法は主にタンパク質関連情報と遺伝子オントロジー(GO)の用語を組み合わせて、最終的な機能予測を生成する。
本稿では,タンパク質配列とGO項ラベルを階層的に処理するシークエンスベースの階層予測手法であるDeepGATGOを提案する。
- 参考スコア(独自算出の注目度): 4.608328575930055
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Automatic protein function prediction (AFP) is classified as a large-scale
multi-label classification problem aimed at automating protein enrichment
analysis to eliminate the current reliance on labor-intensive wet-lab methods.
Currently, popular methods primarily combine protein-related information and
Gene Ontology (GO) terms to generate final functional predictions. For example,
protein sequences, structural information, and protein-protein interaction
networks are integrated as prior knowledge to fuse with GO term embeddings and
generate the ultimate prediction results. However, these methods are limited by
the difficulty in obtaining structural information or network topology
information, as well as the accuracy of such data. Therefore, more and more
methods that only use protein sequences for protein function prediction have
been proposed, which is a more reliable and computationally cheaper approach.
However, the existing methods fail to fully extract feature information from
protein sequences or label data because they do not adequately consider the
intrinsic characteristics of the data itself. Therefore, we propose a
sequence-based hierarchical prediction method, DeepGATGO, which processes
protein sequences and GO term labels hierarchically, and utilizes graph
attention networks (GATs) and contrastive learning for protein function
prediction. Specifically, we compute embeddings of the sequence and label data
using pre-trained models to reduce computational costs and improve the
embedding accuracy. Then, we use GATs to dynamically extract the structural
information of non-Euclidean data, and learn general features of the label
dataset with contrastive learning by constructing positive and negative example
samples. Experimental results demonstrate that our proposed model exhibits
better scalability in GO term enrichment analysis on large-scale datasets.
- Abstract(参考訳): 自動タンパク質機能予測(automatic protein function prediction, afp)は、タンパク質濃縮分析の自動化を目的とした大規模マルチラベル分類問題である。
現在、一般的な方法はタンパク質関連情報と遺伝子オントロジー(GO)用語を組み合わせて最終機能予測を生成する。
例えば、タンパク質配列、構造情報、タンパク質-タンパク質相互作用ネットワークは、GO項の埋め込みと融合し、最終的な予測結果を生成する事前知識として統合される。
しかし、これらの手法は構造情報やネットワークトポロジ情報を得るのが困難であることや、データの正確性によって制限される。
そのため、タンパク質の機能予測にタンパク質配列のみを用いる手法がますます提案され、より信頼性が高く、計算的に安価なアプローチである。
しかし,既存の手法では本質的特徴を十分に考慮していないため,タンパク質配列やラベルデータから特徴情報を完全に抽出できない。
そこで我々は,タンパク質配列とGO項ラベルを階層的に処理し,グラフアテンションネットワーク(GAT)とコントラスト学習を用いてタンパク質機能予測を行う,シーケンスベースの階層的予測手法であるDeepGATGOを提案する。
具体的には,事前学習したモデルを用いてシーケンスおよびラベルデータの埋め込みを計算し,計算コストを削減し,埋め込み精度を向上させる。
次に、gatsを用いて非ユークリッドデータの構造情報を動的に抽出し、正のサンプルと負のサンプルを構築して対比学習によりラベルデータセットの一般特徴を学習する。
実験の結果,大規模データセットのgo項エンリッチメント解析において,提案モデルの方がスケーラビリティが向上することが示された。
関連論文リスト
- NaNa and MiGu: Semantic Data Augmentation Techniques to Enhance Protein Classification in Graph Neural Networks [60.48306899271866]
本稿では,背骨化学および側鎖生物物理情報をタンパク質分類タスクに組み込む新しい意味データ拡張手法を提案する。
具体的には, 分子生物学的, 二次構造, 化学結合, およびタンパク質のイオン特性を活用し, 分類作業を容易にする。
論文 参考訳(メタデータ) (2024-03-21T13:27:57Z) - ProtIR: Iterative Refinement between Retrievers and Predictors for
Protein Function Annotation [38.019425619750265]
本稿では,タンパク質間類似性モデリングを取り入れた関数予測器の改良を目的とした,新しい変分擬似類似性フレームワークProtIRを提案する。
ProtIRは、バニラ予測に基づく手法よりも約10%改善されている。
タンパク質言語モデルに基づく手法と同等の性能を発揮するが、大規模な事前学習は必要としない。
論文 参考訳(メタデータ) (2024-02-10T17:31:46Z) - Structure-Informed Protein Language Model [38.019425619750265]
本稿では、構造情報をタンパク質言語モデルに抽出するためのリモートホモロジー検出の統合について紹介する。
この構造インフォームドトレーニングが下流タンパク質機能予測タスクに与える影響を評価する。
論文 参考訳(メタデータ) (2024-02-07T09:32:35Z) - Reprogramming Pretrained Language Models for Protein Sequence
Representation Learning [68.75392232599654]
エンドツーエンドの表現学習フレームワークである辞書学習(R2DL)による表現学習を提案する。
R2DLは、タンパク質配列の埋め込みを学ぶために、事前訓練された英語モデルを再プログラムする。
我々のモデルは,事前訓練および標準教師付き手法によって設定されたベースラインに対して,最大105ドルの精度でデータ効率を大幅に向上させることができる。
論文 参考訳(メタデータ) (2023-01-05T15:55:18Z) - Structure-aware Protein Self-supervised Learning [50.04673179816619]
本稿では,タンパク質の構造情報を取得するための構造認識型タンパク質自己教師学習法を提案する。
特に、タンパク質構造情報を保存するために、よく設計されたグラフニューラルネットワーク(GNN)モデルを事前訓練する。
タンパク質言語モデルにおける逐次情報と特別に設計されたGNNモデルにおける構造情報との関係を,新しい擬似二段階最適化手法を用いて同定する。
論文 参考訳(メタデータ) (2022-04-06T02:18:41Z) - Protein Representation Learning by Geometric Structure Pretraining [27.723095456631906]
既存のアプローチは通常、多くの未ラベルアミノ酸配列で事前訓練されたタンパク質言語モデルである。
まず,タンパク質の幾何学的特徴を学習するための単純かつ効果的なエンコーダを提案する。
関数予測と折り畳み分類の両タスクの実験結果から,提案した事前学習法は,より少ないデータを用いた最先端のシーケンスベース手法と同等あるいは同等であることがわかった。
論文 参考訳(メタデータ) (2022-03-11T17:52:13Z) - Pre-training Co-evolutionary Protein Representation via A Pairwise
Masked Language Model [93.9943278892735]
タンパク質配列表現学習の鍵となる問題は、配列中の残基間の共変量によって反映される共進化情報をキャプチャすることである。
Pairwise Masked Language Model (PMLM) と呼ばれる専用言語モデルによる事前学習により,この情報を直接キャプチャする新しい手法を提案する。
提案手法は, 相互関係を効果的に把握し, ベースラインと比較して, 接触予測性能を最大9%向上できることを示す。
論文 参考訳(メタデータ) (2021-10-29T04:01:32Z) - EBM-Fold: Fully-Differentiable Protein Folding Powered by Energy-based
Models [53.17320541056843]
本研究では,データ駆動型生成ネットワークを用いたタンパク質構造最適化手法を提案する。
EBM-Foldアプローチは,従来のロゼッタ構造最適化ルーチンと比較して,高品質なデコイを効率よく生成できる。
論文 参考訳(メタデータ) (2021-05-11T03:40:29Z) - Bayesian neural network with pretrained protein embedding enhances
prediction accuracy of drug-protein interaction [3.499870393443268]
ディープラーニングのアプローチは、人間による試行錯誤なしに薬物とタンパク質の相互作用を予測できる。
本稿では,小さなラベル付きデータセットで優れた性能を示すディープラーニングフレームワークを構築するための2つの手法を提案する。
論文 参考訳(メタデータ) (2020-12-15T10:24:34Z) - Profile Prediction: An Alignment-Based Pre-Training Task for Protein
Sequence Models [11.483725773928382]
タンパク質予測に対する最近のディープラーニングアプローチは、ラベルなしデータによる事前学習が下流タスクに有用な表現をもたらすことを示している。
我々は、複数の配列アライメントから導かれるタンパク質プロファイルを直接予測する、新しい事前学習タスクを導入する。
以上の結果から, タンパク質配列モデルが生物学的に誘発される誘導バイアスの活用の恩恵を受ける可能性が示唆された。
論文 参考訳(メタデータ) (2020-12-01T01:01:34Z) - Deep Learning of High-Order Interactions for Protein Interface
Prediction [58.164371994210406]
本稿では,タンパク質界面の予測を2次元密度予測問題として定式化する。
タンパク質をグラフとして表現し、グラフニューラルネットワークを用いてノードの特徴を学習する。
我々は高次対相互作用を組み込んで、異なる対相互作用を含む3次元テンソルを生成する。
論文 参考訳(メタデータ) (2020-07-18T05:39:35Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。