論文の概要: A Systematic Study of Joint Representation Learning on Protein Sequences
and Structures
- arxiv url: http://arxiv.org/abs/2303.06275v2
- Date: Wed, 18 Oct 2023 16:11:11 GMT
- ステータス: 処理完了
- システム内更新日: 2023-10-19 13:18:46.345398
- Title: A Systematic Study of Joint Representation Learning on Protein Sequences
and Structures
- Title(参考訳): タンパク質配列と構造に関する共同表現学習の体系的研究
- Authors: Zuobai Zhang, Chuanrui Wang, Minghao Xu, Vijil Chenthamarakshan,
Aur\'elie Lozano, Payel Das, Jian Tang
- Abstract要約: 効果的なタンパク質表現の学習は、タンパク質機能の予測のような生物学の様々なタスクにおいて重要である。
近年, タンパク質言語モデル(PLM)に基づく配列表現学習法は, 配列ベースタスクでは優れているが, タンパク質構造に関わるタスクへの直接適応は依然として困難である。
本研究は、最先端のPLMと異なる構造エンコーダを統合することで、結合タンパク質表現学習の包括的研究を行う。
- 参考スコア(独自算出の注目度): 38.94729758958265
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Learning effective protein representations is critical in a variety of tasks
in biology such as predicting protein functions. Recent sequence representation
learning methods based on Protein Language Models (PLMs) excel in
sequence-based tasks, but their direct adaptation to tasks involving protein
structures remains a challenge. In contrast, structure-based methods leverage
3D structural information with graph neural networks and geometric pre-training
methods show potential in function prediction tasks, but still suffers from the
limited number of available structures. To bridge this gap, our study
undertakes a comprehensive exploration of joint protein representation learning
by integrating a state-of-the-art PLM (ESM-2) with distinct structure encoders
(GVP, GearNet, CDConv). We introduce three representation fusion strategies and
explore different pre-training techniques. Our method achieves significant
improvements over existing sequence- and structure-based methods, setting new
state-of-the-art for function annotation. This study underscores several
important design choices for fusing protein sequence and structure information.
Our implementation is available at
https://github.com/DeepGraphLearning/ESM-GearNet.
- Abstract(参考訳): 効果的なタンパク質表現の学習は、タンパク質機能の予測のような生物学の様々なタスクにおいて重要である。
タンパク質言語モデル(plm)に基づく最近のシーケンス表現学習手法は、シーケンスベースのタスクに優れているが、タンパク質構造に関わるタスクへの直接的適応は依然として課題である。
対照的に、構造に基づく手法はグラフニューラルネットワークを用いて3次元構造情報を活用し、幾何学的事前学習法は関数予測タスクのポテンシャルを示すが、利用可能な構造の限られた数に悩まされている。
このギャップを埋めるため,本研究は,最先端plm (esm-2) と異なる構造エンコーダ (gvp, gearnet, cdconv) を統合することで,共同タンパク質表現学習の包括的探索を行っている。
3つの表現融合戦略を導入し、異なる事前学習手法を検討する。
本手法は,既存のシーケンスおよび構造ベースメソッドよりも大幅に改善され,関数アノテーションの新たな最先端設定が可能となる。
本研究は,タンパク質配列と構造情報を融合するための重要な設計選択について述べる。
私たちの実装はhttps://github.com/DeepGraphLearning/ESM-GearNetで公開されています。
関連論文リスト
- Protein Representation Learning with Sequence Information Embedding: Does it Always Lead to a Better Performance? [4.7077642423577775]
本稿では,アミノ酸構造表現のみに基づく局所幾何アライメント手法ProtLOCAを提案する。
本手法は,構造的に整合性のあるタンパク質ドメインとより迅速かつ正確にマッチングすることで,既存の配列および構造に基づく表現学習法より優れる。
論文 参考訳(メタデータ) (2024-06-28T08:54:37Z) - xTrimoPGLM: Unified 100B-Scale Pre-trained Transformer for Deciphering
the Language of Protein [76.18058946124111]
本稿では,タンパク質の理解と生成を同時に行うために,統一されたタンパク質言語モデル xTrimoPGLM を提案する。
xTrimoPGLMは、4つのカテゴリにわたる18のタンパク質理解ベンチマークにおいて、他の高度なベースラインを著しく上回っている。
また、自然の原理に従ってデノボタンパク質配列を生成でき、微調整を監督した後にプログラム可能な生成を行うことができる。
論文 参考訳(メタデータ) (2024-01-11T15:03:17Z) - Neural Embeddings for Protein Graphs [0.8258451067861933]
幾何学ベクトル空間にタンパク質グラフを埋め込む新しい枠組みを提案する。
タンパク質グラフ間の構造的距離を保存するエンコーダ関数を学習する。
本フレームワークは,タンパク質構造分類の課題において,顕著な結果をもたらす。
論文 参考訳(メタデータ) (2023-06-07T14:50:34Z) - Integration of Pre-trained Protein Language Models into Geometric Deep
Learning Networks [68.90692290665648]
我々は、タンパク質言語モデルから学んだ知識を、いくつかの最先端の幾何学的ネットワークに統合する。
以上の結果から,ベースラインを20%上回る総合的な改善が見られた。
強い証拠は、タンパク質言語モデルの知識を取り入れることで、幾何学的ネットワークの能力が著しく向上することを示している。
論文 参考訳(メタデータ) (2022-12-07T04:04:04Z) - Contrastive Representation Learning for 3D Protein Structures [13.581113136149469]
本稿では3次元タンパク質構造のための新しい表現学習フレームワークを提案する。
我々のフレームワークは、教師なしのコントラスト学習を用いて、タンパク質構造の意味のある表現を学習する。
これらの表現は、タンパク質機能予測、タンパク質の折りたたみ分類、構造的類似性予測、タンパク質-リガンド結合親和性予測など、様々なタスクを解くためにどのように使用できるかを示す。
論文 参考訳(メタデータ) (2022-05-31T10:33:06Z) - Structure-aware Protein Self-supervised Learning [50.04673179816619]
本稿では,タンパク質の構造情報を取得するための構造認識型タンパク質自己教師学習法を提案する。
特に、タンパク質構造情報を保存するために、よく設計されたグラフニューラルネットワーク(GNN)モデルを事前訓練する。
タンパク質言語モデルにおける逐次情報と特別に設計されたGNNモデルにおける構造情報との関係を,新しい擬似二段階最適化手法を用いて同定する。
論文 参考訳(メタデータ) (2022-04-06T02:18:41Z) - Protein sequence-to-structure learning: Is this the end(-to-end
revolution)? [0.8399688944263843]
CASP14では、ディープラーニングにより、予想外のレベルがほぼ実験精度に達するまで、フィールドが強化された。
新しいアプローチには、(i)幾何学的学習、すなわち、
グラフ、3d voronoi tessellation、point cloudsといった表現について学ぶ。
我々は,過去2年間に開発され,CASP14で広く利用されている新しいディープラーニングアプローチの概要と展望について述べる。
論文 参考訳(メタデータ) (2021-05-16T10:46:44Z) - PersGNN: Applying Topological Data Analysis and Geometric Deep Learning
to Structure-Based Protein Function Prediction [0.07340017786387766]
本研究では,タンパク質構造を分離し,タンパク質データバンク内のタンパク質の機能的アノテーションを作成する。
本稿では,グラフ表現学習とトポロジカルデータ解析を組み合わせた,エンドツーエンドのトレーニング可能なディープラーニングモデルPersGNNを提案する。
論文 参考訳(メタデータ) (2020-10-30T02:24:35Z) - Transfer Learning for Protein Structure Classification at Low Resolution [124.5573289131546]
タンパク質のクラスとアーキテクチャの正確な(geq$80%)予測を、低い(leq$3A)解像度で決定された構造から行うことができることを示す。
本稿では, 高速で低コストなタンパク質構造を低解像度で分類するための概念実証と, 機能予測への拡張の基礎を提供する。
論文 参考訳(メタデータ) (2020-08-11T15:01:32Z) - BERTology Meets Biology: Interpreting Attention in Protein Language
Models [124.8966298974842]
注目レンズを用いたタンパク質トランスフォーマーモデルの解析方法を示す。
注意はタンパク質の折りたたみ構造を捉え、基礎となる配列では遠く離れているが、三次元構造では空間的に近接しているアミノ酸を接続する。
また、注意とタンパク質構造との相互作用を三次元的に可視化する。
論文 参考訳(メタデータ) (2020-06-26T21:50:17Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。