論文の概要: Enhancing Protein Language Models with Structure-based Encoder and
Pre-training
- arxiv url: http://arxiv.org/abs/2303.06275v1
- Date: Sat, 11 Mar 2023 01:24:10 GMT
- ステータス: 処理完了
- システム内更新日: 2023-03-14 19:54:08.948601
- Title: Enhancing Protein Language Models with Structure-based Encoder and
Pre-training
- Title(参考訳): 構造型エンコーダと事前学習によるタンパク質言語モデルの強化
- Authors: Zuobai Zhang, Minghao Xu, Vijil Chenthamarakshan, Aur\'elie Lozano,
Payel Das, Jian Tang
- Abstract要約: 大規模タンパク質配列コーパスで事前訓練されたタンパク質言語モデル(PLMs)は、下流タンパク質理解タスクにおいて顕著な性能を発揮した。
本研究では,構造ベースのエンコーダと事前学習によるPLMの強化を行う。
- 参考スコア(独自算出の注目度): 29.375830561817047
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Protein language models (PLMs) pre-trained on large-scale protein sequence
corpora have achieved impressive performance on various downstream protein
understanding tasks. Despite the ability to implicitly capture inter-residue
contact information, transformer-based PLMs cannot encode protein structures
explicitly for better structure-aware protein representations. Besides, the
power of pre-training on available protein structures has not been explored for
improving these PLMs, though structures are important to determine functions.
To tackle these limitations, in this work, we enhance the PLMs with
structure-based encoder and pre-training. We first explore feasible model
architectures to combine the advantages of a state-of-the-art PLM (i.e.,
ESM-1b1) and a state-of-the-art protein structure encoder (i.e., GearNet). We
empirically verify the ESM-GearNet that connects two encoders in a series way
as the most effective combination model. To further improve the effectiveness
of ESM-GearNet, we pre-train it on massive unlabeled protein structures with
contrastive learning, which aligns representations of co-occurring subsequences
so as to capture their biological correlation. Extensive experiments on EC and
GO protein function prediction benchmarks demonstrate the superiority of
ESM-GearNet over previous PLMs and structure encoders, and clear performance
gains are further achieved by structure-based pre-training upon ESM-GearNet.
Our implementation is available at
https://github.com/DeepGraphLearning/GearNet.
- Abstract(参考訳): 大規模タンパク質配列コーパスで事前訓練されたタンパク質言語モデル(PLMs)は、下流タンパク質理解タスクにおいて顕著な性能を発揮した。
トランスフォーマーベースのplmは、暗黙的にresidueコンタクト情報を取得する能力があるにもかかわらず、タンパク質構造を明示的にエンコードすることはできない。
さらに、これらのPLMを改善するために、利用可能なタンパク質構造に対する事前学習の力は検討されていないが、機能決定には構造が重要である。
これらの制約に対処するため,本研究では,構造ベースのエンコーダとプリトレーニングによりplmを強化する。
まず,最先端のplm(esm-1b1)と最先端のタンパク質構造エンコーダ(gearnet)の利点を組み合わせるために,実現可能なモデルアーキテクチャを検討する。
2つのエンコーダを連続的に接続するESM-GearNetを,最も効果的な組合せモデルとして実証的に検証する。
ESM-GearNetの有効性をさらに向上するために, 比較学習による大規模未ラベルタンパク質構造を事前学習し, 共起サブシーケンスの表現を協調させてそれらの生物学的相関を捉える。
EC および GO タンパク質関数予測ベンチマークの大規模な実験は、以前の PLM や構造エンコーダよりも ESM-GearNet の方が優れていることを示した。
実装はhttps://github.com/deepgraphlearning/gearnetで利用可能です。
関連論文リスト
- Protein Representation Learning with Sequence Information Embedding: Does it Always Lead to a Better Performance? [4.7077642423577775]
本稿では,アミノ酸構造表現のみに基づく局所幾何アライメント手法ProtLOCAを提案する。
本手法は,構造的に整合性のあるタンパク質ドメインとより迅速かつ正確にマッチングすることで,既存の配列および構造に基づく表現学習法より優れる。
論文 参考訳(メタデータ) (2024-06-28T08:54:37Z) - xTrimoPGLM: Unified 100B-Scale Pre-trained Transformer for Deciphering
the Language of Protein [76.18058946124111]
本稿では,タンパク質の理解と生成を同時に行うために,統一されたタンパク質言語モデル xTrimoPGLM を提案する。
xTrimoPGLMは、4つのカテゴリにわたる18のタンパク質理解ベンチマークにおいて、他の高度なベースラインを著しく上回っている。
また、自然の原理に従ってデノボタンパク質配列を生成でき、微調整を監督した後にプログラム可能な生成を行うことができる。
論文 参考訳(メタデータ) (2024-01-11T15:03:17Z) - Neural Embeddings for Protein Graphs [0.8258451067861933]
幾何学ベクトル空間にタンパク質グラフを埋め込む新しい枠組みを提案する。
タンパク質グラフ間の構造的距離を保存するエンコーダ関数を学習する。
本フレームワークは,タンパク質構造分類の課題において,顕著な結果をもたらす。
論文 参考訳(メタデータ) (2023-06-07T14:50:34Z) - Integration of Pre-trained Protein Language Models into Geometric Deep
Learning Networks [68.90692290665648]
我々は、タンパク質言語モデルから学んだ知識を、いくつかの最先端の幾何学的ネットワークに統合する。
以上の結果から,ベースラインを20%上回る総合的な改善が見られた。
強い証拠は、タンパク質言語モデルの知識を取り入れることで、幾何学的ネットワークの能力が著しく向上することを示している。
論文 参考訳(メタデータ) (2022-12-07T04:04:04Z) - Contrastive Representation Learning for 3D Protein Structures [13.581113136149469]
本稿では3次元タンパク質構造のための新しい表現学習フレームワークを提案する。
我々のフレームワークは、教師なしのコントラスト学習を用いて、タンパク質構造の意味のある表現を学習する。
これらの表現は、タンパク質機能予測、タンパク質の折りたたみ分類、構造的類似性予測、タンパク質-リガンド結合親和性予測など、様々なタスクを解くためにどのように使用できるかを示す。
論文 参考訳(メタデータ) (2022-05-31T10:33:06Z) - Structure-aware Protein Self-supervised Learning [50.04673179816619]
本稿では,タンパク質の構造情報を取得するための構造認識型タンパク質自己教師学習法を提案する。
特に、タンパク質構造情報を保存するために、よく設計されたグラフニューラルネットワーク(GNN)モデルを事前訓練する。
タンパク質言語モデルにおける逐次情報と特別に設計されたGNNモデルにおける構造情報との関係を,新しい擬似二段階最適化手法を用いて同定する。
論文 参考訳(メタデータ) (2022-04-06T02:18:41Z) - Protein sequence-to-structure learning: Is this the end(-to-end
revolution)? [0.8399688944263843]
CASP14では、ディープラーニングにより、予想外のレベルがほぼ実験精度に達するまで、フィールドが強化された。
新しいアプローチには、(i)幾何学的学習、すなわち、
グラフ、3d voronoi tessellation、point cloudsといった表現について学ぶ。
我々は,過去2年間に開発され,CASP14で広く利用されている新しいディープラーニングアプローチの概要と展望について述べる。
論文 参考訳(メタデータ) (2021-05-16T10:46:44Z) - PersGNN: Applying Topological Data Analysis and Geometric Deep Learning
to Structure-Based Protein Function Prediction [0.07340017786387766]
本研究では,タンパク質構造を分離し,タンパク質データバンク内のタンパク質の機能的アノテーションを作成する。
本稿では,グラフ表現学習とトポロジカルデータ解析を組み合わせた,エンドツーエンドのトレーニング可能なディープラーニングモデルPersGNNを提案する。
論文 参考訳(メタデータ) (2020-10-30T02:24:35Z) - Transfer Learning for Protein Structure Classification at Low Resolution [124.5573289131546]
タンパク質のクラスとアーキテクチャの正確な(geq$80%)予測を、低い(leq$3A)解像度で決定された構造から行うことができることを示す。
本稿では, 高速で低コストなタンパク質構造を低解像度で分類するための概念実証と, 機能予測への拡張の基礎を提供する。
論文 参考訳(メタデータ) (2020-08-11T15:01:32Z) - BERTology Meets Biology: Interpreting Attention in Protein Language
Models [124.8966298974842]
注目レンズを用いたタンパク質トランスフォーマーモデルの解析方法を示す。
注意はタンパク質の折りたたみ構造を捉え、基礎となる配列では遠く離れているが、三次元構造では空間的に近接しているアミノ酸を接続する。
また、注意とタンパク質構造との相互作用を三次元的に可視化する。
論文 参考訳(メタデータ) (2020-06-26T21:50:17Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。