論文の概要: Structure-aware Protein Self-supervised Learning
- arxiv url: http://arxiv.org/abs/2204.04213v4
- Date: Sat, 8 Apr 2023 22:15:23 GMT
- ステータス: 処理完了
- システム内更新日: 2023-04-12 00:02:07.199449
- Title: Structure-aware Protein Self-supervised Learning
- Title(参考訳): 構造認識タンパク質自己教師付き学習
- Authors: Can Chen, Jingbo Zhou, Fan Wang, Xue Liu, and Dejing Dou
- Abstract要約: 本稿では,タンパク質の構造情報を取得するための構造認識型タンパク質自己教師学習法を提案する。
特に、タンパク質構造情報を保存するために、よく設計されたグラフニューラルネットワーク(GNN)モデルを事前訓練する。
タンパク質言語モデルにおける逐次情報と特別に設計されたGNNモデルにおける構造情報との関係を,新しい擬似二段階最適化手法を用いて同定する。
- 参考スコア(独自算出の注目度): 50.04673179816619
- License: http://creativecommons.org/licenses/by-nc-nd/4.0/
- Abstract: Protein representation learning methods have shown great potential to yield
useful representation for many downstream tasks, especially on protein
classification. Moreover, a few recent studies have shown great promise in
addressing insufficient labels of proteins with self-supervised learning
methods. However, existing protein language models are usually pretrained on
protein sequences without considering the important protein structural
information. To this end, we propose a novel structure-aware protein
self-supervised learning method to effectively capture structural information
of proteins. In particular, a well-designed graph neural network (GNN) model is
pretrained to preserve the protein structural information with self-supervised
tasks from a pairwise residue distance perspective and a dihedral angle
perspective, respectively. Furthermore, we propose to leverage the available
protein language model pretrained on protein sequences to enhance the
self-supervised learning. Specifically, we identify the relation between the
sequential information in the protein language model and the structural
information in the specially designed GNN model via a novel pseudo bi-level
optimization scheme. Experiments on several supervised downstream tasks verify
the effectiveness of our proposed method.The code of the proposed method is
available in \url{https://github.com/GGchen1997/STEPS_Bioinformatics}.
- Abstract(参考訳): タンパク質表現学習法は、多くの下流タスク、特にタンパク質分類において有用な表現をもたらす大きな可能性を示している。
さらに、近年の研究では、自己教師付き学習手法で不十分なタンパク質のラベルに対処する大きな可能性を示している。
しかし、既存のタンパク質言語モデルは通常、重要なタンパク質構造情報を考慮せずにタンパク質配列で事前訓練される。
そこで本研究では,タンパク質の構造情報を効果的に把握する構造認識型タンパク質自己教師学習法を提案する。
特に、よく設計されたグラフニューラルネットワーク(GNN)モデルを事前訓練し、それぞれ2つの残差距離パースペクティブと2面角パースペクティブから自己教師付きタスクでタンパク質構造情報を保存する。
さらに,タンパク質配列に事前学習したタンパク質言語モデルを活用し,自己教師付き学習を強化することを提案する。
具体的には、タンパク質言語モデルにおける逐次情報と特別に設計されたGNNモデルにおける構造情報との関係を、新しい擬似二段階最適化手法を用いて同定する。
教師付き下流タスクの実験により提案手法の有効性が検証され,提案手法のコードは \url{https://github.com/GGchen1997/STEPS_Bioinformatics} で公開されている。
関連論文リスト
- GOProteinGNN: Leveraging Protein Knowledge Graphs for Protein Representation Learning [27.192150057715835]
GOProteinGNNは、タンパク質知識グラフ情報を統合することにより、タンパク質言語モデルを強化する新しいアーキテクチャである。
我々のアプローチは、個々のアミノ酸レベルとタンパク質レベルの両方で情報の統合を可能にし、包括的で効果的な学習プロセスを可能にします。
論文 参考訳(メタデータ) (2024-07-31T17:54:22Z) - Geometric Self-Supervised Pretraining on 3D Protein Structures using Subgraphs [26.727436310732692]
本稿では,3次元タンパク質構造上の3次元グラフニューラルネットワークを事前学習するための自己教師型手法を提案する。
提案手法が6%までの大幅な改善につながることを実験的に示す。
論文 参考訳(メタデータ) (2024-06-20T09:34:31Z) - ProLLM: Protein Chain-of-Thoughts Enhanced LLM for Protein-Protein Interaction Prediction [54.132290875513405]
タンパク質-タンパク質相互作用(PPI)の予測は、生物学的機能や疾患を理解する上で重要である。
PPI予測に対する従来の機械学習アプローチは、主に直接的な物理的相互作用に焦点を当てていた。
PPIに適したLLMを用いた新しいフレームワークProLLMを提案する。
論文 参考訳(メタデータ) (2024-03-30T05:32:42Z) - NaNa and MiGu: Semantic Data Augmentation Techniques to Enhance Protein Classification in Graph Neural Networks [60.48306899271866]
本稿では,背骨化学および側鎖生物物理情報をタンパク質分類タスクに組み込む新しい意味データ拡張手法を提案する。
具体的には, 分子生物学的, 二次構造, 化学結合, およびタンパク質のイオン特性を活用し, 分類作業を容易にする。
論文 参考訳(メタデータ) (2024-03-21T13:27:57Z) - ProtLLM: An Interleaved Protein-Language LLM with Protein-as-Word Pre-Training [82.37346937497136]
本稿では,タンパク質中心タスクとタンパク質言語タスクの両方を対象とした多機能多言語多言語言語モデル (LLM) を提案する。
ProtLLMはユニークな動的タンパク質実装機構を備えており、複雑な入力を処理できる。
専門的なタンパク質語彙を開発することで、自然言語だけでなく、膨大な候補からタンパク質を予測できる能力をモデルに装備する。
論文 参考訳(メタデータ) (2024-02-28T01:29:55Z) - CCPL: Cross-modal Contrastive Protein Learning [47.095862120116976]
我々は、新しい教師なしタンパク質構造表現事前学習法、クロスモーダルコントラスト型タンパク質学習(CCPL)を導入する。
CCPLは堅牢なタンパク質言語モデルを活用し、教師なしのコントラストアライメントを用いて構造学習を強化する。
さまざまなベンチマークでモデルを評価し,フレームワークの優位性を実証した。
論文 参考訳(メタデータ) (2023-03-19T08:19:10Z) - Learning Geometrically Disentangled Representations of Protein Folding
Simulations [72.03095377508856]
この研究は、薬物標的タンパク質の構造的アンサンブルに基づいて生成ニューラルネットワークを学習することに焦点を当てている。
モデル課題は、様々な薬物分子に結合したタンパク質の構造的変動を特徴付けることである。
その結果,我々の幾何学的学習に基づく手法は,複雑な構造変化を生成するための精度と効率の両方を享受できることがわかった。
論文 参考訳(メタデータ) (2022-05-20T19:38:00Z) - Protein Representation Learning by Geometric Structure Pretraining [27.723095456631906]
既存のアプローチは通常、多くの未ラベルアミノ酸配列で事前訓練されたタンパク質言語モデルである。
まず,タンパク質の幾何学的特徴を学習するための単純かつ効果的なエンコーダを提案する。
関数予測と折り畳み分類の両タスクの実験結果から,提案した事前学習法は,より少ないデータを用いた最先端のシーケンスベース手法と同等あるいは同等であることがわかった。
論文 参考訳(メタデータ) (2022-03-11T17:52:13Z) - OntoProtein: Protein Pretraining With Gene Ontology Embedding [36.92674447484136]
GO(Gene Ontology)の構造をタンパク質事前学習モデルに活用する最初の汎用フレームワークであるOntoProteinを提案する。
我々はGOとその関連タンパク質からなる新しい大規模知識グラフを構築し、遺伝子アノテーションのテキストやタンパク質配列はグラフ内の全てのノードを記述する。
論文 参考訳(メタデータ) (2022-01-23T14:49:49Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。