論文の概要: Structure-aware Protein Self-supervised Learning
- arxiv url: http://arxiv.org/abs/2204.04213v4
- Date: Sat, 8 Apr 2023 22:15:23 GMT
- ステータス: 処理完了
- システム内更新日: 2023-04-12 00:02:07.199449
- Title: Structure-aware Protein Self-supervised Learning
- Title(参考訳): 構造認識タンパク質自己教師付き学習
- Authors: Can Chen, Jingbo Zhou, Fan Wang, Xue Liu, and Dejing Dou
- Abstract要約: 本稿では,タンパク質の構造情報を取得するための構造認識型タンパク質自己教師学習法を提案する。
特に、タンパク質構造情報を保存するために、よく設計されたグラフニューラルネットワーク(GNN)モデルを事前訓練する。
タンパク質言語モデルにおける逐次情報と特別に設計されたGNNモデルにおける構造情報との関係を,新しい擬似二段階最適化手法を用いて同定する。
- 参考スコア(独自算出の注目度): 50.04673179816619
- License: http://creativecommons.org/licenses/by-nc-nd/4.0/
- Abstract: Protein representation learning methods have shown great potential to yield
useful representation for many downstream tasks, especially on protein
classification. Moreover, a few recent studies have shown great promise in
addressing insufficient labels of proteins with self-supervised learning
methods. However, existing protein language models are usually pretrained on
protein sequences without considering the important protein structural
information. To this end, we propose a novel structure-aware protein
self-supervised learning method to effectively capture structural information
of proteins. In particular, a well-designed graph neural network (GNN) model is
pretrained to preserve the protein structural information with self-supervised
tasks from a pairwise residue distance perspective and a dihedral angle
perspective, respectively. Furthermore, we propose to leverage the available
protein language model pretrained on protein sequences to enhance the
self-supervised learning. Specifically, we identify the relation between the
sequential information in the protein language model and the structural
information in the specially designed GNN model via a novel pseudo bi-level
optimization scheme. Experiments on several supervised downstream tasks verify
the effectiveness of our proposed method.The code of the proposed method is
available in \url{https://github.com/GGchen1997/STEPS_Bioinformatics}.
- Abstract(参考訳): タンパク質表現学習法は、多くの下流タスク、特にタンパク質分類において有用な表現をもたらす大きな可能性を示している。
さらに、近年の研究では、自己教師付き学習手法で不十分なタンパク質のラベルに対処する大きな可能性を示している。
しかし、既存のタンパク質言語モデルは通常、重要なタンパク質構造情報を考慮せずにタンパク質配列で事前訓練される。
そこで本研究では,タンパク質の構造情報を効果的に把握する構造認識型タンパク質自己教師学習法を提案する。
特に、よく設計されたグラフニューラルネットワーク(GNN)モデルを事前訓練し、それぞれ2つの残差距離パースペクティブと2面角パースペクティブから自己教師付きタスクでタンパク質構造情報を保存する。
さらに,タンパク質配列に事前学習したタンパク質言語モデルを活用し,自己教師付き学習を強化することを提案する。
具体的には、タンパク質言語モデルにおける逐次情報と特別に設計されたGNNモデルにおける構造情報との関係を、新しい擬似二段階最適化手法を用いて同定する。
教師付き下流タスクの実験により提案手法の有効性が検証され,提案手法のコードは \url{https://github.com/GGchen1997/STEPS_Bioinformatics} で公開されている。
関連論文リスト
- Structure-Informed Protein Language Model [38.019425619750265]
本稿では、構造情報をタンパク質言語モデルに抽出するためのリモートホモロジー検出の統合について紹介する。
この構造インフォームドトレーニングが下流タンパク質機能予測タスクに与える影響を評価する。
論文 参考訳(メタデータ) (2024-02-07T09:32:35Z) - MMDesign: Multi-Modality Transfer Learning for Generative Protein Design [66.49989188722553]
タンパク質の設計は、対応するタンパク質のバックボーンに基づいてタンパク質配列を生成する。
深層生成モデルは、データから直接タンパク質設計を学ぶことを約束している。
パブリックな構造系列ペアリングの欠如は、一般化能力を制限している。
マルチモーダルトランスファー学習を利用するMMDesignと呼ばれる新しいタンパク質設計パラダイムを提案する。
論文 参考訳(メタデータ) (2023-12-11T10:59:23Z) - Neural Embeddings for Protein Graphs [0.8258451067861933]
幾何学ベクトル空間にタンパク質グラフを埋め込む新しい枠組みを提案する。
タンパク質グラフ間の構造的距離を保存するエンコーダ関数を学習する。
本フレームワークは,タンパク質構造分類の課題において,顕著な結果をもたらす。
論文 参考訳(メタデータ) (2023-06-07T14:50:34Z) - A Text-guided Protein Design Framework [109.18157766856196]
本稿では,タンパク質設計のためのテキスト記述を利用するマルチモーダルフレームワークであるProteinDTを提案する。
タンパク質DTは以下の3つのステップから構成される:2つのモダリティの表現を整列するProteinCLAP、テキストモダリティからタンパク質表現を生成するファシリテーター、表現からタンパク質配列を生成するデコーダ。
本研究では,(1)テキスト誘導タンパク質生成における90%以上の精度,(2)ゼロショットテキスト誘導タンパク質編集タスク10件のベストヒット率,(3)タンパク質特性予測ベンチマーク6件中4件の優れた性能の3つの課題に対して,ProteinDTの有効性を定量的に検証した。
論文 参考訳(メタデータ) (2023-02-09T12:59:16Z) - Structure-informed Language Models Are Protein Designers [69.70134899296912]
配列ベースタンパク質言語モデル(pLM)の汎用的手法であるLM-Designを提案する。
pLMに軽量な構造アダプターを埋め込んだ構造手術を行い,構造意識を付加した構造手術を行った。
実験の結果,我々の手法は最先端の手法よりも大きなマージンで優れていることがわかった。
論文 参考訳(メタデータ) (2023-02-03T10:49:52Z) - Integration of Pre-trained Protein Language Models into Geometric Deep
Learning Networks [68.90692290665648]
我々は、タンパク質言語モデルから学んだ知識を、いくつかの最先端の幾何学的ネットワークに統合する。
以上の結果から,ベースラインを20%上回る総合的な改善が見られた。
強い証拠は、タンパク質言語モデルの知識を取り入れることで、幾何学的ネットワークの能力が著しく向上することを示している。
論文 参考訳(メタデータ) (2022-12-07T04:04:04Z) - Contrastive Representation Learning for 3D Protein Structures [13.581113136149469]
本稿では3次元タンパク質構造のための新しい表現学習フレームワークを提案する。
我々のフレームワークは、教師なしのコントラスト学習を用いて、タンパク質構造の意味のある表現を学習する。
これらの表現は、タンパク質機能予測、タンパク質の折りたたみ分類、構造的類似性予測、タンパク質-リガンド結合親和性予測など、様々なタスクを解くためにどのように使用できるかを示す。
論文 参考訳(メタデータ) (2022-05-31T10:33:06Z) - Learning Geometrically Disentangled Representations of Protein Folding
Simulations [72.03095377508856]
この研究は、薬物標的タンパク質の構造的アンサンブルに基づいて生成ニューラルネットワークを学習することに焦点を当てている。
モデル課題は、様々な薬物分子に結合したタンパク質の構造的変動を特徴付けることである。
その結果,我々の幾何学的学習に基づく手法は,複雑な構造変化を生成するための精度と効率の両方を享受できることがわかった。
論文 参考訳(メタデータ) (2022-05-20T19:38:00Z) - Protein Representation Learning by Geometric Structure Pretraining [27.723095456631906]
既存のアプローチは通常、多くの未ラベルアミノ酸配列で事前訓練されたタンパク質言語モデルである。
まず,タンパク質の幾何学的特徴を学習するための単純かつ効果的なエンコーダを提案する。
関数予測と折り畳み分類の両タスクの実験結果から,提案した事前学習法は,より少ないデータを用いた最先端のシーケンスベース手法と同等あるいは同等であることがわかった。
論文 参考訳(メタデータ) (2022-03-11T17:52:13Z) - OntoProtein: Protein Pretraining With Gene Ontology Embedding [36.92674447484136]
GO(Gene Ontology)の構造をタンパク質事前学習モデルに活用する最初の汎用フレームワークであるOntoProteinを提案する。
我々はGOとその関連タンパク質からなる新しい大規模知識グラフを構築し、遺伝子アノテーションのテキストやタンパク質配列はグラフ内の全てのノードを記述する。
論文 参考訳(メタデータ) (2022-01-23T14:49:49Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。