論文の概要: Multimodal Pre-Training Model for Sequence-based Prediction of
Protein-Protein Interaction
- arxiv url: http://arxiv.org/abs/2112.04814v1
- Date: Thu, 9 Dec 2021 10:21:52 GMT
- ステータス: 処理完了
- システム内更新日: 2021-12-10 20:52:31.932854
- Title: Multimodal Pre-Training Model for Sequence-based Prediction of
Protein-Protein Interaction
- Title(参考訳): タンパク質-タンパク質相互作用のシーケンスに基づく予測のためのマルチモーダル事前学習モデル
- Authors: Yang Xue, Zijing Liu, Xiaomin Fang, Fan Wang
- Abstract要約: タンパク質モデルによる効果的な表現の学習は、タンパク質とタンパク質の相互作用において重要である。
PPIの事前学習モデルのほとんどは配列ベースであり、自然言語処理で使用される言語モデルをアミノ酸配列に導入している。
本稿では, 配列, 構造, 機能という3つのモーダル性を持つマルチモーダルタンパク質事前学習モデルを提案する。
- 参考スコア(独自算出の注目度): 7.022012579173686
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Protein-protein interactions (PPIs) are essentials for many biological
processes where two or more proteins physically bind together to achieve their
functions. Modeling PPIs is useful for many biomedical applications, such as
vaccine design, antibody therapeutics, and peptide drug discovery. Pre-training
a protein model to learn effective representation is critical for PPIs. Most
pre-training models for PPIs are sequence-based, which naively adopt the
language models used in natural language processing to amino acid sequences.
More advanced works utilize the structure-aware pre-training technique, taking
advantage of the contact maps of known protein structures. However, neither
sequences nor contact maps can fully characterize structures and functions of
the proteins, which are closely related to the PPI problem. Inspired by this
insight, we propose a multimodal protein pre-training model with three
modalities: sequence, structure, and function (S2F). Notably, instead of using
contact maps to learn the amino acid-level rigid structures, we encode the
structure feature with the topology complex of point clouds of heavy atoms. It
allows our model to learn structural information about not only the backbones
but also the side chains. Moreover, our model incorporates the knowledge from
the functional description of proteins extracted from literature or manual
annotations. Our experiments show that the S2F learns protein embeddings that
achieve good performances on a variety of PPIs tasks, including cross-species
PPI, antibody-antigen affinity prediction, antibody neutralization prediction
for SARS-CoV-2, and mutation-driven binding affinity change prediction.
- Abstract(参考訳): タンパク質-タンパク質相互作用(PPIs)は、2つ以上のタンパク質が物理的に結合して機能を達成する多くの生物学的プロセスにおいて必須である。
PPIのモデリングは、ワクチン設計、抗体治療、ペプチドドラッグ発見など、多くのバイオメディカル応用に有用である。
効果的な表現を学ぶためにタンパク質モデルを事前訓練することは、PPIにとって重要である。
PPIの事前学習モデルのほとんどは配列ベースであり、自然言語処理で使用される言語モデルをアミノ酸配列に導入している。
より高度な研究は、既知のタンパク質構造の接触マップを利用して、構造認識事前学習技術を利用している。
しかし、配列や接触マップは、PPI問題と密接に関連するタンパク質の構造と機能を完全に特徴づけることができない。
この知見に触発されて,s2f(s sequence, structure, and function)の3つのモードを持つマルチモーダルタンパク質プレトレーニングモデルを提案する。
特に、接触マップを用いてアミノ酸レベルの剛性構造を学習する代わりに、重原子の点雲のトポロジー複合体で構造特徴を符号化する。
これにより、モデルがバックボーンだけでなく、サイドチェーンについても構造情報を学ぶことができます。
さらに,本モデルでは,文献や手動アノテーションから抽出したタンパク質の機能的記述から知識を取り入れた。
実験の結果、S2Fは多種多様なPPIタスクにおいて優れた性能を発揮するタンパク質埋め込みを学習し、例えば、クロス種PPI、抗体-抗原親和性予測、SARS-CoV-2の抗体中和予測、変異駆動性結合親和性変化予測などである。
関連論文リスト
- SFM-Protein: Integrative Co-evolutionary Pre-training for Advanced Protein Sequence Representation [97.99658944212675]
タンパク質基盤モデルのための新しい事前学習戦略を導入する。
アミノ酸残基間の相互作用を強調し、短距離および長距離の共進化的特徴の抽出を強化する。
大規模タンパク質配列データセットを用いて学習し,より優れた一般化能力を示す。
論文 参考訳(メタデータ) (2024-10-31T15:22:03Z) - Long-context Protein Language Model [76.95505296417866]
言語モデル(LM)の自己教師による訓練は、有意義な表現の学習や創薬設計において、タンパク質配列に大きな成功を収めている。
ほとんどのタンパク質LMは、短い文脈長を持つ個々のタンパク質に基づいて訓練されたトランスフォーマーアーキテクチャに基づいている。
そこで我々は,選択的構造化状態空間モデルから構築した代替のタンパク質LMアーキテクチャであるBiMamba-Sに基づくLC-PLMを提案する。
また、第2段階のトレーニングのために、タンパク質-タンパク質相互作用グラフの文脈化を行うLC-PLM-Gも導入した。
論文 参考訳(メタデータ) (2024-10-29T16:43:28Z) - CPE-Pro: A Structure-Sensitive Deep Learning Method for Protein Representation and Origin Evaluation [7.161099050722313]
タンパク質構造評価用結晶対予測学習モデル(CPE-Pro)を開発した。
CPE-Proはタンパク質の構造情報を学習し、構造間の差異を捉え、4つのデータクラスの正確なトレーサビリティを実現する。
我々は Foldseek を用いてタンパク質構造を「構造配列」にエンコードし、タンパク質構造配列言語モデル SSLM を訓練した。
論文 参考訳(メタデータ) (2024-10-21T02:21:56Z) - Structure-Enhanced Protein Instruction Tuning: Towards General-Purpose Protein Understanding [43.811432723460534]
本稿では,このギャップを埋めるために,構造強化タンパク質インストラクションチューニング(SEPIT)フレームワークを紹介する。
提案手法では, 構造的知識を付加するため, 構造的知識を付加し, これらの拡張された pLM を大規模言語モデル (LLM) に接続し, タンパク質の理解を創出する。
我々はこれまでで最大かつ最も包括的なタンパク質命令データセットを構築し、汎用タンパク質理解モデルの訓練と評価を可能にした。
論文 参考訳(メタデータ) (2024-10-04T16:02:50Z) - Protein Representation Learning with Sequence Information Embedding: Does it Always Lead to a Better Performance? [4.7077642423577775]
本稿では,アミノ酸構造表現のみに基づく局所幾何アライメント手法ProtLOCAを提案する。
本手法は,構造的に整合性のあるタンパク質ドメインとより迅速かつ正確にマッチングすることで,既存の配列および構造に基づく表現学習法より優れる。
論文 参考訳(メタデータ) (2024-06-28T08:54:37Z) - ProLLM: Protein Chain-of-Thoughts Enhanced LLM for Protein-Protein Interaction Prediction [54.132290875513405]
タンパク質-タンパク質相互作用(PPI)の予測は、生物学的機能や疾患を理解する上で重要である。
PPI予測に対する従来の機械学習アプローチは、主に直接的な物理的相互作用に焦点を当てていた。
PPIに適したLLMを用いた新しいフレームワークProLLMを提案する。
論文 参考訳(メタデータ) (2024-03-30T05:32:42Z) - PSC-CPI: Multi-Scale Protein Sequence-Structure Contrasting for
Efficient and Generalizable Compound-Protein Interaction Prediction [63.50967073653953]
化合物-タンパク質相互作用予測は、合理的な薬物発見のための化合物-タンパク質相互作用のパターンと強度を予測することを目的としている。
既存のディープラーニングベースの手法では、タンパク質配列や構造が単一のモダリティしか利用していない。
CPI予測のためのマルチスケールタンパク質配列構造コントラストフレームワークを提案する。
論文 参考訳(メタデータ) (2024-02-13T03:51:10Z) - Functional Geometry Guided Protein Sequence and Backbone Structure
Co-Design [12.585697288315846]
本稿では,自動検出機能部位に基づくタンパク質配列と構造を共同設計するモデルを提案する。
NAEProは、全シーケンスでグローバルな相関を捉えることができる、注目層と同変層のインターリービングネットワークによって駆動される。
実験結果から,本モデルは全競技種の中で,最高アミノ酸回収率,TMスコア,最低RMSDを実現していることがわかった。
論文 参考訳(メタデータ) (2023-10-06T16:08:41Z) - Structure-informed Language Models Are Protein Designers [69.70134899296912]
配列ベースタンパク質言語モデル(pLM)の汎用的手法であるLM-Designを提案する。
pLMに軽量な構造アダプターを埋め込んだ構造手術を行い,構造意識を付加した構造手術を行った。
実験の結果,我々の手法は最先端の手法よりも大きなマージンで優れていることがわかった。
論文 参考訳(メタデータ) (2023-02-03T10:49:52Z) - State-specific protein-ligand complex structure prediction with a
multi-scale deep generative model [68.28309982199902]
タンパク質-リガンド複合体構造を直接予測できる計算手法であるNeuralPLexerを提案する。
我々の研究は、データ駆動型アプローチがタンパク質と小分子の構造的協調性を捉え、酵素や薬物分子などの設計を加速させる可能性を示唆している。
論文 参考訳(メタデータ) (2022-09-30T01:46:38Z) - Deep Learning Methods for Protein Family Classification on PDB
Sequencing Data [0.0]
本稿では,新たな双方向LSTMや畳み込みモデルなどのディープラーニングフレームワークの性能を,広く利用可能なシークエンシングデータ上で実証し比較する。
我々のディープラーニングモデルは従来の機械学習手法よりも優れた性能を示し、畳み込みアーキテクチャは最も印象的な推論性能を提供する。
論文 参考訳(メタデータ) (2022-07-14T06:11:32Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。