論文の概要: Geometric Self-Supervised Pretraining on 3D Protein Structures using Subgraphs
- arxiv url: http://arxiv.org/abs/2406.14142v1
- Date: Thu, 20 Jun 2024 09:34:31 GMT
- ステータス: 処理完了
- システム内更新日: 2024-06-21 14:31:01.266176
- Title: Geometric Self-Supervised Pretraining on 3D Protein Structures using Subgraphs
- Title(参考訳): グラフを用いた3次元タンパク質構造の幾何学的自己監督前処理
- Authors: Michail Chatzianastasis, George Dasoulas, Michalis Vazirgiannis,
- Abstract要約: 本稿では,3次元タンパク質構造上の3次元グラフニューラルネットワークを事前学習するための自己教師型手法を提案する。
サブグラフとグローバルなタンパク質構造との関係を考慮することで、このモデルはこれらの階層的な組織レベルについて推論することを学ぶことができる。
- 参考スコア(独自算出の注目度): 25.93347924265175
- License: http://creativecommons.org/licenses/by-sa/4.0/
- Abstract: Protein representation learning aims to learn informative protein embeddings capable of addressing crucial biological questions, such as protein function prediction. Although sequence-based transformer models have shown promising results by leveraging the vast amount of protein sequence data in a self-supervised way, there is still a gap in applying these methods to 3D protein structures. In this work, we propose a pre-training scheme going beyond trivial masking methods leveraging 3D and hierarchical structures of proteins. We propose a novel self-supervised method to pretrain 3D graph neural networks on 3D protein structures, by predicting the distances between local geometric centroids of protein subgraphs and the global geometric centroid of the protein. The motivation for this method is twofold. First, the relative spatial arrangements and geometric relationships among different regions of a protein are crucial for its function. Moreover, proteins are often organized in a hierarchical manner, where smaller substructures, such as secondary structure elements, assemble into larger domains. By considering subgraphs and their relationships to the global protein structure, the model can learn to reason about these hierarchical levels of organization. We experimentally show that our proposed pertaining strategy leads to significant improvements in the performance of 3D GNNs in various protein classification tasks.
- Abstract(参考訳): タンパク質表現学習は、タンパク質機能予測のような重要な生物学的問題に対処できる情報的タンパク質埋め込みを学習することを目的としている。
配列ベースのトランスフォーマーモデルでは、タンパク質配列データの膨大な量を自己管理的に活用することで、有望な結果を示しているが、これらの手法を3Dタンパク質構造に適用する際はまだギャップがある。
本研究では,タンパク質の3Dおよび階層構造を利用した簡単なマスキング法を超える事前学習手法を提案する。
本稿では,タンパク質サブグラフの局所的幾何セントロイドとタンパク質のグローバルな幾何セントロイドとの距離を予測し,3次元タンパク質構造上の3次元グラフニューラルネットワークを事前学習するための新しい自己教師手法を提案する。
この方法の動機は2つある。
まず、タンパク質の異なる領域間の相対的な空間配置と幾何学的関係が、その機能に不可欠である。
さらに、タンパク質は階層的に組織化され、二次構造要素のような小さなサブ構造がより大きなドメインに組み立てられる。
サブグラフとグローバルなタンパク質構造との関係を考慮することで、このモデルはこれらの階層的な組織レベルについて推論することを学ぶことができる。
提案手法は, タンパク質分類タスクにおける3次元GNNの性能向上に寄与することが実験的に示唆された。
関連論文リスト
- Clustering for Protein Representation Learning [72.72957540484664]
本稿では,タンパク質の臨界成分を自動的に検出するニューラルネットワーククラスタリングフレームワークを提案する。
我々のフレームワークはタンパク質をグラフとして扱い、各ノードはアミノ酸を表し、各エッジはアミノ酸間の空間的またはシーケンシャルな接続を表す。
タンパク質の折り畳み分類, 酵素反応分類, 遺伝子期予測, 酵素コミッショニング数予測の4つの課題について検討した。
論文 参考訳(メタデータ) (2024-03-30T05:51:09Z) - Neural Embeddings for Protein Graphs [0.8258451067861933]
幾何学ベクトル空間にタンパク質グラフを埋め込む新しい枠組みを提案する。
タンパク質グラフ間の構造的距離を保存するエンコーダ関数を学習する。
本フレームワークは,タンパク質構造分類の課題において,顕著な結果をもたらす。
論文 参考訳(メタデータ) (2023-06-07T14:50:34Z) - A Systematic Study of Joint Representation Learning on Protein Sequences
and Structures [38.94729758958265]
効果的なタンパク質表現の学習は、タンパク質機能の予測のような生物学の様々なタスクにおいて重要である。
近年, タンパク質言語モデル(PLM)に基づく配列表現学習法は, 配列ベースタスクでは優れているが, タンパク質構造に関わるタスクへの直接適応は依然として困難である。
本研究は、最先端のPLMと異なる構造エンコーダを統合することで、結合タンパク質表現学習の包括的研究を行う。
論文 参考訳(メタデータ) (2023-03-11T01:24:10Z) - EquiPocket: an E(3)-Equivariant Geometric Graph Neural Network for Ligand Binding Site Prediction [49.674494450107005]
標的タンパク質の結合部位の予測は、薬物発見の基本的な役割を担っている。
既存のディープラーニング手法の多くは、タンパク質を原子をボクセルに空間的にクラスタリングすることで3D画像とみなしている。
本研究では,結合サイト予測のためのE3-equivariant Graph Neural Network(GNN)であるEquiPocketを提案する。
論文 参考訳(メタデータ) (2023-02-23T17:18:26Z) - Integration of Pre-trained Protein Language Models into Geometric Deep
Learning Networks [68.90692290665648]
我々は、タンパク質言語モデルから学んだ知識を、いくつかの最先端の幾何学的ネットワークに統合する。
以上の結果から,ベースラインを20%上回る総合的な改善が見られた。
強い証拠は、タンパク質言語モデルの知識を取り入れることで、幾何学的ネットワークの能力が著しく向上することを示している。
論文 参考訳(メタデータ) (2022-12-07T04:04:04Z) - Contrastive Representation Learning for 3D Protein Structures [13.581113136149469]
本稿では3次元タンパク質構造のための新しい表現学習フレームワークを提案する。
我々のフレームワークは、教師なしのコントラスト学習を用いて、タンパク質構造の意味のある表現を学習する。
これらの表現は、タンパク質機能予測、タンパク質の折りたたみ分類、構造的類似性予測、タンパク質-リガンド結合親和性予測など、様々なタスクを解くためにどのように使用できるかを示す。
論文 参考訳(メタデータ) (2022-05-31T10:33:06Z) - Learning Geometrically Disentangled Representations of Protein Folding
Simulations [72.03095377508856]
この研究は、薬物標的タンパク質の構造的アンサンブルに基づいて生成ニューラルネットワークを学習することに焦点を当てている。
モデル課題は、様々な薬物分子に結合したタンパク質の構造的変動を特徴付けることである。
その結果,我々の幾何学的学習に基づく手法は,複雑な構造変化を生成するための精度と効率の両方を享受できることがわかった。
論文 参考訳(メタデータ) (2022-05-20T19:38:00Z) - Structure-aware Protein Self-supervised Learning [50.04673179816619]
本稿では,タンパク質の構造情報を取得するための構造認識型タンパク質自己教師学習法を提案する。
特に、タンパク質構造情報を保存するために、よく設計されたグラフニューラルネットワーク(GNN)モデルを事前訓練する。
タンパク質言語モデルにおける逐次情報と特別に設計されたGNNモデルにおける構造情報との関係を,新しい擬似二段階最適化手法を用いて同定する。
論文 参考訳(メタデータ) (2022-04-06T02:18:41Z) - G-VAE, a Geometric Convolutional VAE for ProteinStructure Generation [41.66010308405784]
本稿では,3次元タンパク質構造の比較,変形,生成のための統合幾何学的ニューラルネットワーク手法を提案する。
本手法は, トレーニングデータの構造と異なり, 可塑性構造を生成することができる。
論文 参考訳(メタデータ) (2021-06-22T16:52:48Z) - BERTology Meets Biology: Interpreting Attention in Protein Language
Models [124.8966298974842]
注目レンズを用いたタンパク質トランスフォーマーモデルの解析方法を示す。
注意はタンパク質の折りたたみ構造を捉え、基礎となる配列では遠く離れているが、三次元構造では空間的に近接しているアミノ酸を接続する。
また、注意とタンパク質構造との相互作用を三次元的に可視化する。
論文 参考訳(メタデータ) (2020-06-26T21:50:17Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。