論文の概要: Lightweight Contrastive Protein Structure-Sequence Transformation
- arxiv url: http://arxiv.org/abs/2303.11783v1
- Date: Sun, 19 Mar 2023 08:19:10 GMT
- ステータス: 処理完了
- システム内更新日: 2023-03-22 15:15:46.196345
- Title: Lightweight Contrastive Protein Structure-Sequence Transformation
- Title(参考訳): 軽量コントラストタンパク質構造-配列変換
- Authors: Jiangbin Zheng, Ge Wang, Yufei Huang, Bozhen Hu, Siyuan Li, Cheng Tan,
Xinwen Fan, Stan Z. Li
- Abstract要約: 堅牢なタンパク質言語モデルで事前学習する新規な教師なしタンパク質構造表現を導入する。
特に,既存の事前学習型言語モデルを用いて構造モデル学習を指導することを提案する。
光トレーニングデータのみにより、事前訓練された構造モデルはより優れた一般化能力を得ることができる。
- 参考スコア(独自算出の注目度): 40.983513907321615
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Pretrained protein structure models without labels are crucial foundations
for the majority of protein downstream applications. The conventional structure
pretraining methods follow the mature natural language pretraining methods such
as denoised reconstruction and masked language modeling but usually destroy the
real representation of spatial structures. The other common pretraining methods
might predict a fixed set of predetermined object categories, where a
restricted supervised manner limits their generality and usability as
additional labeled data is required to specify any other protein concepts. In
this work, we introduce a novel unsupervised protein structure representation
pretraining with a robust protein language model. In particular, we first
propose to leverage an existing pretrained language model to guide structure
model learning through an unsupervised contrastive alignment. In addition, a
self-supervised structure constraint is proposed to further learn the intrinsic
information about the structures. With only light training data, the pretrained
structure model can obtain better generalization ability. To quantitatively
evaluate the proposed structure models, we design a series of rational
evaluation methods, including internal tasks (e.g., contact map prediction,
distribution alignment quality) and external/downstream tasks (e.g., protein
design). The extensive experimental results conducted on multiple tasks and
specific datasets demonstrate the superiority of the proposed
sequence-structure transformation framework.
- Abstract(参考訳): ラベルのないタンパク質構造モデルが、下流のほとんどの用途において重要な基礎となっている。
従来の構造事前学習法では,非正規化復元やマスキング言語モデリングなどの成熟した自然言語事前学習法に従うが,通常は空間構造の実表現は破壊される。
他の一般的な事前訓練手法は、所定の対象カテゴリの固定セットを予測し、制限された教師付き方法でそれらの一般化と使用性を制限し、他のタンパク質の概念を指定するために追加ラベル付きデータが必要である。
本稿では,ロバストなタンパク質言語モデルを用いた新しい教師なしタンパク質構造表現について紹介する。
特に,既存の事前学習言語モデルを用いて,教師なしコントラストアライメントを通して構造モデル学習を指導することを提案する。
さらに,構造に関する本質的な情報を知るために,自己教師構造制約を提案する。
光トレーニングデータだけで、事前訓練された構造モデルはより優れた一般化能力を得ることができる。
提案する構造モデルを定量的に評価するために,内部タスク(コンタクトマップ予測,分布アライメント品質など)や外部/下流タスク(タンパク質設計など)を含む一連の合理的評価手法を設計する。
複数のタスクおよび特定のデータセット上で行った広範な実験結果から,提案するシーケンス構造変換フレームワークの優位性が示された。
関連論文リスト
- Long-context Protein Language Model [76.95505296417866]
言語モデル(LM)の自己教師による訓練は、有意義な表現の学習や創薬設計において、タンパク質配列に大きな成功を収めている。
ほとんどのタンパク質LMは、短い文脈長を持つ個々のタンパク質に基づいて訓練されたトランスフォーマーアーキテクチャに基づいている。
そこで我々は,選択的構造化状態空間モデルから構築した代替のタンパク質LMアーキテクチャであるBiMamba-Sに基づくLC-PLMを提案する。
また、第2段階のトレーニングのために、タンパク質-タンパク質相互作用グラフの文脈化を行うLC-PLM-Gも導入した。
論文 参考訳(メタデータ) (2024-10-29T16:43:28Z) - CPE-Pro: A Structure-Sensitive Deep Learning Method for Protein Representation and Origin Evaluation [7.161099050722313]
タンパク質構造評価用結晶対予測学習モデル(CPE-Pro)を開発した。
CPE-Proはタンパク質の構造情報を学習し、構造間の差異を捉え、4つのデータクラスの正確なトレーサビリティを実現する。
我々は Foldseek を用いてタンパク質構造を「構造配列」にエンコードし、タンパク質構造配列言語モデル SSLM を訓練した。
論文 参考訳(メタデータ) (2024-10-21T02:21:56Z) - Protein Representation Learning with Sequence Information Embedding: Does it Always Lead to a Better Performance? [4.7077642423577775]
本稿では,アミノ酸構造表現のみに基づく局所幾何アライメント手法ProtLOCAを提案する。
本手法は,構造的に整合性のあるタンパク質ドメインとより迅速かつ正確にマッチングすることで,既存の配列および構造に基づく表現学習法より優れる。
論文 参考訳(メタデータ) (2024-06-28T08:54:37Z) - Structure-Informed Protein Language Model [38.019425619750265]
本稿では、構造情報をタンパク質言語モデルに抽出するためのリモートホモロジー検出の統合について紹介する。
この構造インフォームドトレーニングが下流タンパク質機能予測タスクに与える影響を評価する。
論文 参考訳(メタデータ) (2024-02-07T09:32:35Z) - Endowing Protein Language Models with Structural Knowledge [5.587293092389789]
本稿では,タンパク質構造データを統合することにより,タンパク質言語モデルを強化する新しいフレームワークを提案する。
PST(Protein Structure Transformer)と呼ばれる精製モデルは、小さなタンパク質構造データベース上でさらに事前訓練されている。
PSTは、タンパク質配列の最先端基盤モデルであるESM-2を一貫して上回り、タンパク質機能予測の新しいベンチマークを設定している。
論文 参考訳(メタデータ) (2024-01-26T12:47:54Z) - Structure-informed Language Models Are Protein Designers [69.70134899296912]
配列ベースタンパク質言語モデル(pLM)の汎用的手法であるLM-Designを提案する。
pLMに軽量な構造アダプターを埋め込んだ構造手術を行い,構造意識を付加した構造手術を行った。
実験の結果,我々の手法は最先端の手法よりも大きなマージンで優れていることがわかった。
論文 参考訳(メタデータ) (2023-02-03T10:49:52Z) - Learning Geometrically Disentangled Representations of Protein Folding
Simulations [72.03095377508856]
この研究は、薬物標的タンパク質の構造的アンサンブルに基づいて生成ニューラルネットワークを学習することに焦点を当てている。
モデル課題は、様々な薬物分子に結合したタンパク質の構造的変動を特徴付けることである。
その結果,我々の幾何学的学習に基づく手法は,複雑な構造変化を生成するための精度と効率の両方を享受できることがわかった。
論文 参考訳(メタデータ) (2022-05-20T19:38:00Z) - Structure-aware Protein Self-supervised Learning [50.04673179816619]
本稿では,タンパク質の構造情報を取得するための構造認識型タンパク質自己教師学習法を提案する。
特に、タンパク質構造情報を保存するために、よく設計されたグラフニューラルネットワーク(GNN)モデルを事前訓練する。
タンパク質言語モデルにおける逐次情報と特別に設計されたGNNモデルにおける構造情報との関係を,新しい擬似二段階最適化手法を用いて同定する。
論文 参考訳(メタデータ) (2022-04-06T02:18:41Z) - Transfer Learning for Protein Structure Classification at Low Resolution [124.5573289131546]
タンパク質のクラスとアーキテクチャの正確な(geq$80%)予測を、低い(leq$3A)解像度で決定された構造から行うことができることを示す。
本稿では, 高速で低コストなタンパク質構造を低解像度で分類するための概念実証と, 機能予測への拡張の基礎を提供する。
論文 参考訳(メタデータ) (2020-08-11T15:01:32Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。