論文の概要: Multimodal Pre-Training Model for Sequence-based Prediction of
Protein-Protein Interaction
- arxiv url: http://arxiv.org/abs/2112.04814v1
- Date: Thu, 9 Dec 2021 10:21:52 GMT
- ステータス: 処理完了
- システム内更新日: 2021-12-10 20:52:31.932854
- Title: Multimodal Pre-Training Model for Sequence-based Prediction of
Protein-Protein Interaction
- Title(参考訳): タンパク質-タンパク質相互作用のシーケンスに基づく予測のためのマルチモーダル事前学習モデル
- Authors: Yang Xue, Zijing Liu, Xiaomin Fang, Fan Wang
- Abstract要約: タンパク質モデルによる効果的な表現の学習は、タンパク質とタンパク質の相互作用において重要である。
PPIの事前学習モデルのほとんどは配列ベースであり、自然言語処理で使用される言語モデルをアミノ酸配列に導入している。
本稿では, 配列, 構造, 機能という3つのモーダル性を持つマルチモーダルタンパク質事前学習モデルを提案する。
- 参考スコア(独自算出の注目度): 7.022012579173686
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Protein-protein interactions (PPIs) are essentials for many biological
processes where two or more proteins physically bind together to achieve their
functions. Modeling PPIs is useful for many biomedical applications, such as
vaccine design, antibody therapeutics, and peptide drug discovery. Pre-training
a protein model to learn effective representation is critical for PPIs. Most
pre-training models for PPIs are sequence-based, which naively adopt the
language models used in natural language processing to amino acid sequences.
More advanced works utilize the structure-aware pre-training technique, taking
advantage of the contact maps of known protein structures. However, neither
sequences nor contact maps can fully characterize structures and functions of
the proteins, which are closely related to the PPI problem. Inspired by this
insight, we propose a multimodal protein pre-training model with three
modalities: sequence, structure, and function (S2F). Notably, instead of using
contact maps to learn the amino acid-level rigid structures, we encode the
structure feature with the topology complex of point clouds of heavy atoms. It
allows our model to learn structural information about not only the backbones
but also the side chains. Moreover, our model incorporates the knowledge from
the functional description of proteins extracted from literature or manual
annotations. Our experiments show that the S2F learns protein embeddings that
achieve good performances on a variety of PPIs tasks, including cross-species
PPI, antibody-antigen affinity prediction, antibody neutralization prediction
for SARS-CoV-2, and mutation-driven binding affinity change prediction.
- Abstract(参考訳): タンパク質-タンパク質相互作用(PPIs)は、2つ以上のタンパク質が物理的に結合して機能を達成する多くの生物学的プロセスにおいて必須である。
PPIのモデリングは、ワクチン設計、抗体治療、ペプチドドラッグ発見など、多くのバイオメディカル応用に有用である。
効果的な表現を学ぶためにタンパク質モデルを事前訓練することは、PPIにとって重要である。
PPIの事前学習モデルのほとんどは配列ベースであり、自然言語処理で使用される言語モデルをアミノ酸配列に導入している。
より高度な研究は、既知のタンパク質構造の接触マップを利用して、構造認識事前学習技術を利用している。
しかし、配列や接触マップは、PPI問題と密接に関連するタンパク質の構造と機能を完全に特徴づけることができない。
この知見に触発されて,s2f(s sequence, structure, and function)の3つのモードを持つマルチモーダルタンパク質プレトレーニングモデルを提案する。
特に、接触マップを用いてアミノ酸レベルの剛性構造を学習する代わりに、重原子の点雲のトポロジー複合体で構造特徴を符号化する。
これにより、モデルがバックボーンだけでなく、サイドチェーンについても構造情報を学ぶことができます。
さらに,本モデルでは,文献や手動アノテーションから抽出したタンパク質の機能的記述から知識を取り入れた。
実験の結果、S2Fは多種多様なPPIタスクにおいて優れた性能を発揮するタンパク質埋め込みを学習し、例えば、クロス種PPI、抗体-抗原親和性予測、SARS-CoV-2の抗体中和予測、変異駆動性結合親和性変化予測などである。
関連論文リスト
- MAPE-PPI: Towards Effective and Efficient Protein-Protein Interaction
Prediction via Microenvironment-Aware Protein Embedding [82.31506767274841]
タンパク質-プロテイン相互作用(PPI)は、様々な生物学的過程において基本的であり、生命活動において重要な役割を果たしている。
MPAE-PPIは、十分に大きな「語彙」を介して、マイクロ環境を化学的に意味のある離散コードに符号化する
MPAE-PPIは、数百万のPPIでPPI予測にスケールでき、有効性と計算効率のトレードオフが優れている。
論文 参考訳(メタデータ) (2024-02-22T09:04:41Z) - PSC-CPI: Multi-Scale Protein Sequence-Structure Contrasting for
Efficient and Generalizable Compound-Protein Interaction Prediction [63.50967073653953]
化合物-タンパク質相互作用予測は、合理的な薬物発見のための化合物-タンパク質相互作用のパターンと強度を予測することを目的としている。
既存のディープラーニングベースの手法では、タンパク質配列や構造が単一のモダリティしか利用していない。
CPI予測のためのマルチスケールタンパク質配列構造コントラストフレームワークを提案する。
論文 参考訳(メタデータ) (2024-02-13T03:51:10Z) - Endowing Protein Language Models with Structural Knowledge [5.587293092389789]
本稿では,タンパク質構造データを統合することにより,タンパク質言語モデルを強化する新しいフレームワークを提案する。
PST(Protein Structure Transformer)と呼ばれる精製モデルは、小さなタンパク質構造データベース上でさらに事前訓練されている。
PSTは、タンパク質配列の最先端基盤モデルであるESM-2を一貫して上回り、タンパク質機能予測の新しいベンチマークを設定している。
論文 参考訳(メタデータ) (2024-01-26T12:47:54Z) - Learning to design protein-protein interactions with enhanced
generalization [15.429259676165913]
PPIRefは3Dタンパク質-タンパク質相互作用の最大かつ非冗長なデータセットである。
PPIRefデータセットをプレトレーニングPPIformerに利用し,多種多様なタンパク質結合変異体を対象とするSE(3)-同変モデルを提案する。
我々はPPIフォーマを微調整し,タンパク質とタンパク質の相互作用に対する変異の影響を予測する。
論文 参考訳(メタデータ) (2023-10-27T22:22:44Z) - Functional Geometry Guided Protein Sequence and Backbone Structure
Co-Design [12.585697288315846]
本稿では,自動検出機能部位に基づくタンパク質配列と構造を共同設計するモデルを提案する。
NAEProは、全シーケンスでグローバルな相関を捉えることができる、注目層と同変層のインターリービングネットワークによって駆動される。
実験結果から,本モデルは全競技種の中で,最高アミノ酸回収率,TMスコア,最低RMSDを実現していることがわかった。
論文 参考訳(メタデータ) (2023-10-06T16:08:41Z) - Structure-informed Language Models Are Protein Designers [69.70134899296912]
配列ベースタンパク質言語モデル(pLM)の汎用的手法であるLM-Designを提案する。
pLMに軽量な構造アダプターを埋め込んだ構造手術を行い,構造意識を付加した構造手術を行った。
実験の結果,我々の手法は最先端の手法よりも大きなマージンで優れていることがわかった。
論文 参考訳(メタデータ) (2023-02-03T10:49:52Z) - State-specific protein-ligand complex structure prediction with a
multi-scale deep generative model [68.28309982199902]
タンパク質-リガンド複合体構造を直接予測できる計算手法であるNeuralPLexerを提案する。
我々の研究は、データ駆動型アプローチがタンパク質と小分子の構造的協調性を捉え、酵素や薬物分子などの設計を加速させる可能性を示唆している。
論文 参考訳(メタデータ) (2022-09-30T01:46:38Z) - Deep Learning Methods for Protein Family Classification on PDB
Sequencing Data [0.0]
本稿では,新たな双方向LSTMや畳み込みモデルなどのディープラーニングフレームワークの性能を,広く利用可能なシークエンシングデータ上で実証し比較する。
我々のディープラーニングモデルは従来の機械学習手法よりも優れた性能を示し、畳み込みアーキテクチャは最も印象的な推論性能を提供する。
論文 参考訳(メタデータ) (2022-07-14T06:11:32Z) - Learning Geometrically Disentangled Representations of Protein Folding
Simulations [72.03095377508856]
この研究は、薬物標的タンパク質の構造的アンサンブルに基づいて生成ニューラルネットワークを学習することに焦点を当てている。
モデル課題は、様々な薬物分子に結合したタンパク質の構造的変動を特徴付けることである。
その結果,我々の幾何学的学習に基づく手法は,複雑な構造変化を生成するための精度と効率の両方を享受できることがわかった。
論文 参考訳(メタデータ) (2022-05-20T19:38:00Z) - DIPS-Plus: The Enhanced Database of Interacting Protein Structures for
Interface Prediction [2.697420611471228]
DIPS-Plusはタンパク質界面の幾何学的深層学習のための42,112複合体の強化された機能豊富なデータセットである。
DIPSの以前のバージョンは、与えられたタンパク質複合体を構成する原子のカルテシアン座標とタイプのみを含む。
DIPS-Plusには、プロテクション指標、半球アミノ酸組成、および各アミノ酸に対する新しいプロファイル隠れマルコフモデル(HMM)ベースの配列機能を含む、新しい残基レベルの特徴が多数含まれている。
論文 参考訳(メタデータ) (2021-06-06T23:56:27Z) - BERTology Meets Biology: Interpreting Attention in Protein Language
Models [124.8966298974842]
注目レンズを用いたタンパク質トランスフォーマーモデルの解析方法を示す。
注意はタンパク質の折りたたみ構造を捉え、基礎となる配列では遠く離れているが、三次元構造では空間的に近接しているアミノ酸を接続する。
また、注意とタンパク質構造との相互作用を三次元的に可視化する。
論文 参考訳(メタデータ) (2020-06-26T21:50:17Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。