論文の概要: Neural Embeddings for Protein Graphs
- arxiv url: http://arxiv.org/abs/2306.04667v1
- Date: Wed, 7 Jun 2023 14:50:34 GMT
- ステータス: 処理完了
- システム内更新日: 2023-06-09 18:24:50.084512
- Title: Neural Embeddings for Protein Graphs
- Title(参考訳): タンパク質グラフのための神経埋め込み
- Authors: Francesco Ceccarelli, Lorenzo Giusti, Sean B. Holden, Pietro Li\`o
- Abstract要約: 幾何学ベクトル空間にタンパク質グラフを埋め込む新しい枠組みを提案する。
タンパク質グラフ間の構造的距離を保存するエンコーダ関数を学習する。
本フレームワークは,タンパク質構造分類の課題において,顕著な結果をもたらす。
- 参考スコア(独自算出の注目度): 0.8258451067861933
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Proteins perform much of the work in living organisms, and consequently the
development of efficient computational methods for protein representation is
essential for advancing large-scale biological research. Most current
approaches struggle to efficiently integrate the wealth of information
contained in the protein sequence and structure. In this paper, we propose a
novel framework for embedding protein graphs in geometric vector spaces, by
learning an encoder function that preserves the structural distance between
protein graphs. Utilizing Graph Neural Networks (GNNs) and Large Language
Models (LLMs), the proposed framework generates structure- and sequence-aware
protein representations. We demonstrate that our embeddings are successful in
the task of comparing protein structures, while providing a significant
speed-up compared to traditional approaches based on structural alignment. Our
framework achieves remarkable results in the task of protein structure
classification; in particular, when compared to other work, the proposed method
shows an average F1-Score improvement of 26% on out-of-distribution (OOD)
samples and of 32% when tested on samples coming from the same distribution as
the training data. Our approach finds applications in areas such as drug
prioritization, drug re-purposing, disease sub-type analysis and elsewhere.
- Abstract(参考訳): タンパク質は多くの生物で働き、その結果、タンパク質の効率的な表現法の開発は大規模な生物学研究の進展に不可欠である。
現在のアプローチのほとんどは、タンパク質の配列と構造に含まれる豊富な情報を統合するのに苦労している。
本稿では,タンパク質グラフ間の構造距離を保存するエンコーダ関数を学習することにより,タンパク質グラフを幾何学的ベクトル空間に埋め込む新しい枠組みを提案する。
グラフニューラルネットワーク (GNN) とLarge Language Models (LLM) を用いることで,提案するフレームワークは構造と配列を意識したタンパク質表現を生成する。
本研究は, タンパク質構造の比較に成功し, 構造アライメントに基づく従来のアプローチに比べ, 大幅なスピードアップを実現していることを示す。
本手法は, タンパク質構造分類の課題において顕著な結果が得られ, 特に他の研究と比較した場合, トレーニングデータと同一分布のサンプルを用いて, 平均F1スコアが26%向上し, 32%の試験結果が得られた。
本手法は薬剤の優先順位付け,薬物再資源化,疾患サブタイプ分析などの分野に適用できる。
関連論文リスト
- SFM-Protein: Integrative Co-evolutionary Pre-training for Advanced Protein Sequence Representation [97.99658944212675]
タンパク質基盤モデルのための新しい事前学習戦略を導入する。
アミノ酸残基間の相互作用を強調し、短距離および長距離の共進化的特徴の抽出を強化する。
大規模タンパク質配列データセットを用いて学習し,より優れた一般化能力を示す。
論文 参考訳(メタデータ) (2024-10-31T15:22:03Z) - Protein Representation Learning with Sequence Information Embedding: Does it Always Lead to a Better Performance? [4.7077642423577775]
本稿では,アミノ酸構造表現のみに基づく局所幾何アライメント手法ProtLOCAを提案する。
本手法は,構造的に整合性のあるタンパク質ドメインとより迅速かつ正確にマッチングすることで,既存の配列および構造に基づく表現学習法より優れる。
論文 参考訳(メタデータ) (2024-06-28T08:54:37Z) - NaNa and MiGu: Semantic Data Augmentation Techniques to Enhance Protein Classification in Graph Neural Networks [60.48306899271866]
本稿では,背骨化学および側鎖生物物理情報をタンパク質分類タスクに組み込む新しい意味データ拡張手法を提案する。
具体的には, 分子生物学的, 二次構造, 化学結合, およびタンパク質のイオン特性を活用し, 分類作業を容易にする。
論文 参考訳(メタデータ) (2024-03-21T13:27:57Z) - A Systematic Study of Joint Representation Learning on Protein Sequences
and Structures [38.94729758958265]
効果的なタンパク質表現の学習は、タンパク質機能の予測のような生物学の様々なタスクにおいて重要である。
近年, タンパク質言語モデル(PLM)に基づく配列表現学習法は, 配列ベースタスクでは優れているが, タンパク質構造に関わるタスクへの直接適応は依然として困難である。
本研究は、最先端のPLMと異なる構造エンコーダを統合することで、結合タンパク質表現学習の包括的研究を行う。
論文 参考訳(メタデータ) (2023-03-11T01:24:10Z) - Structure-informed Language Models Are Protein Designers [69.70134899296912]
配列ベースタンパク質言語モデル(pLM)の汎用的手法であるLM-Designを提案する。
pLMに軽量な構造アダプターを埋め込んだ構造手術を行い,構造意識を付加した構造手術を行った。
実験の結果,我々の手法は最先端の手法よりも大きなマージンで優れていることがわかった。
論文 参考訳(メタデータ) (2023-02-03T10:49:52Z) - Contrastive Representation Learning for 3D Protein Structures [13.581113136149469]
本稿では3次元タンパク質構造のための新しい表現学習フレームワークを提案する。
我々のフレームワークは、教師なしのコントラスト学習を用いて、タンパク質構造の意味のある表現を学習する。
これらの表現は、タンパク質機能予測、タンパク質の折りたたみ分類、構造的類似性予測、タンパク質-リガンド結合親和性予測など、様々なタスクを解くためにどのように使用できるかを示す。
論文 参考訳(メタデータ) (2022-05-31T10:33:06Z) - Learning Geometrically Disentangled Representations of Protein Folding
Simulations [72.03095377508856]
この研究は、薬物標的タンパク質の構造的アンサンブルに基づいて生成ニューラルネットワークを学習することに焦点を当てている。
モデル課題は、様々な薬物分子に結合したタンパク質の構造的変動を特徴付けることである。
その結果,我々の幾何学的学習に基づく手法は,複雑な構造変化を生成するための精度と効率の両方を享受できることがわかった。
論文 参考訳(メタデータ) (2022-05-20T19:38:00Z) - Structure-aware Protein Self-supervised Learning [50.04673179816619]
本稿では,タンパク質の構造情報を取得するための構造認識型タンパク質自己教師学習法を提案する。
特に、タンパク質構造情報を保存するために、よく設計されたグラフニューラルネットワーク(GNN)モデルを事前訓練する。
タンパク質言語モデルにおける逐次情報と特別に設計されたGNNモデルにおける構造情報との関係を,新しい擬似二段階最適化手法を用いて同定する。
論文 参考訳(メタデータ) (2022-04-06T02:18:41Z) - PersGNN: Applying Topological Data Analysis and Geometric Deep Learning
to Structure-Based Protein Function Prediction [0.07340017786387766]
本研究では,タンパク質構造を分離し,タンパク質データバンク内のタンパク質の機能的アノテーションを作成する。
本稿では,グラフ表現学習とトポロジカルデータ解析を組み合わせた,エンドツーエンドのトレーニング可能なディープラーニングモデルPersGNNを提案する。
論文 参考訳(メタデータ) (2020-10-30T02:24:35Z) - Transfer Learning for Protein Structure Classification at Low Resolution [124.5573289131546]
タンパク質のクラスとアーキテクチャの正確な(geq$80%)予測を、低い(leq$3A)解像度で決定された構造から行うことができることを示す。
本稿では, 高速で低コストなタンパク質構造を低解像度で分類するための概念実証と, 機能予測への拡張の基礎を提供する。
論文 参考訳(メタデータ) (2020-08-11T15:01:32Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。