論文の概要: Learning to Predict Mutation Effects of Protein-Protein Interactions by Microenvironment-aware Hierarchical Prompt Learning
- arxiv url: http://arxiv.org/abs/2405.10348v1
- Date: Thu, 16 May 2024 03:53:21 GMT
- ステータス: 処理完了
- システム内更新日: 2024-05-20 17:52:48.479059
- Title: Learning to Predict Mutation Effects of Protein-Protein Interactions by Microenvironment-aware Hierarchical Prompt Learning
- Title(参考訳): 微小環境を考慮した階層型プロンプト学習によるタンパク質とタンパク質の相互作用の変異効果の予測
- Authors: Lirong Wu, Yijun Tian, Haitao Lin, Yufei Huang, Siyuan Li, Nitesh V Chawla, Stan Z. Li,
- Abstract要約: 我々は、新しいコードブック事前学習タスク、すなわちマスク付きマイクロ環境モデリングを開発する。
突然変異効果予測において、最先端の事前学習法よりも優れた性能と訓練効率を示す。
- 参考スコア(独自算出の注目度): 78.38442423223832
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Protein-protein bindings play a key role in a variety of fundamental biological processes, and thus predicting the effects of amino acid mutations on protein-protein binding is crucial. To tackle the scarcity of annotated mutation data, pre-training with massive unlabeled data has emerged as a promising solution. However, this process faces a series of challenges: (1) complex higher-order dependencies among multiple (more than paired) structural scales have not yet been fully captured; (2) it is rarely explored how mutations alter the local conformation of the surrounding microenvironment; (3) pre-training is costly, both in data size and computational burden. In this paper, we first construct a hierarchical prompt codebook to record common microenvironmental patterns at different structural scales independently. Then, we develop a novel codebook pre-training task, namely masked microenvironment modeling, to model the joint distribution of each mutation with their residue types, angular statistics, and local conformational changes in the microenvironment. With the constructed prompt codebook, we encode the microenvironment around each mutation into multiple hierarchical prompts and combine them to flexibly provide information to wild-type and mutated protein complexes about their microenvironmental differences. Such a hierarchical prompt learning framework has demonstrated superior performance and training efficiency over state-of-the-art pre-training-based methods in mutation effect prediction and a case study of optimizing human antibodies against SARS-CoV-2.
- Abstract(参考訳): タンパク質-タンパク質結合は、様々な基本的な生物学的過程において重要な役割を担っており、タンパク質-タンパク質結合に対するアミノ酸変異の影響を予測することが重要である。
注釈付き突然変異データの不足に対処するため、大量のラベルなしデータによる事前学習が有望な解決策として浮上した。
しかし、このプロセスは、(1)複数の(ペア以上の)構造スケール間の複雑な高次依存関係が完全に捕捉されていないこと、(2) 突然変異が周囲の微小環境の局所的構造をどのように変化させるか、(3) 事前学習は、データサイズと計算負荷の両方においてコストがかかること、といった課題に直面している。
本稿では,まず階層的なプロンプトコードブックを構築し,異なる構造スケールで共通環境パターンを個別に記録する。
そこで我々は,各変異の残基,角統計,局所構造変化をモデル化するために,新しいコードブック事前学習タスク,すなわちマスク付きマイクロ環境モデリングを開発した。
構築されたプロンプトコードブックを用いて、各突然変異の周囲の微小環境を複数の階層的なプロンプトにエンコードし、それらを組み合わせて、それらの微小環境の違いに関する野生型および変異タンパク質複合体に柔軟に情報を提供する。
このような階層的な素早い学習フレームワークは、SARS-CoV-2に対するヒト抗体の最適化を事例として、最先端の事前学習法よりも優れた性能と訓練効率を示した。
関連論文リスト
- SFM-Protein: Integrative Co-evolutionary Pre-training for Advanced Protein Sequence Representation [97.99658944212675]
タンパク質基盤モデルのための新しい事前学習戦略を導入する。
アミノ酸残基間の相互作用を強調し、短距離および長距離の共進化的特徴の抽出を強化する。
大規模タンパク質配列データセットを用いて学習し,より優れた一般化能力を示す。
論文 参考訳(メタデータ) (2024-10-31T15:22:03Z) - MutaPLM: Protein Language Modeling for Mutation Explanation and Engineering [12.738902517872509]
MutaPLMは、タンパク質変異をタンパク質言語モデルで解釈し、ナビゲートするための統一的なフレームワークである。
MutaPLMは、統一された特徴空間内で明示的なタンパク質突然変異表現をキャプチャするタンパク質デルタネットワークを導入する。
MutaPLMは、人為的に理解可能な突然変異効果の説明を提供し、望ましい性質を持つ新規な突然変異の優先順位付けに優れている。
論文 参考訳(メタデータ) (2024-10-30T12:05:51Z) - Structure Language Models for Protein Conformation Generation [66.42864253026053]
伝統的な物理学に基づくシミュレーション手法は、しばしばサンプリング平衡整合に苦しむ。
深い生成モデルは、より効率的な代替としてタンパク質のコンホメーションを生成することを約束している。
本稿では,効率的なタンパク質コンホメーション生成のための新しいフレームワークとして構造言語モデリングを紹介する。
論文 参考訳(メタデータ) (2024-10-24T03:38:51Z) - MAPE-PPI: Towards Effective and Efficient Protein-Protein Interaction
Prediction via Microenvironment-Aware Protein Embedding [82.31506767274841]
タンパク質-プロテイン相互作用(PPI)は、様々な生物学的過程において基本的であり、生命活動において重要な役割を果たしている。
MPAE-PPIは、十分に大きな「語彙」を介して、マイクロ環境を化学的に意味のある離散コードに符号化する
MPAE-PPIは、数百万のPPIでPPI予測にスケールでき、有効性と計算効率のトレードオフが優れている。
論文 参考訳(メタデータ) (2024-02-22T09:04:41Z) - Efficiently Predicting Protein Stability Changes Upon Single-point
Mutation with Large Language Models [51.57843608615827]
タンパク質の熱安定性を正確に予測する能力は、様々なサブフィールドや生化学への応用において重要である。
タンパク質配列と構造的特徴を統合したESMによる効率的なアプローチを導入し, 単一点突然変異によるタンパク質の熱安定性変化を予測する。
論文 参考訳(メタデータ) (2023-12-07T03:25:49Z) - Multi-level Protein Representation Learning for Blind Mutational Effect
Prediction [5.207307163958806]
本稿では,タンパク質構造解析のためのシーケンシャルおよび幾何学的アナライザをカスケードする,新しい事前学習フレームワークを提案する。
野生型タンパク質の自然選択をシミュレートすることにより、所望の形質に対する突然変異方向を誘導する。
提案手法は,多種多様な効果予測タスクに対して,パブリックデータベースと2つの新しいデータベースを用いて評価する。
論文 参考訳(メタデータ) (2023-06-08T03:00:50Z) - Accurate and Definite Mutational Effect Prediction with Lightweight
Equivariant Graph Neural Networks [2.381587712372268]
本研究では,野生型タンパク質の微小環境を効率的に解析する軽量なグラフ表現学習手法を提案する。
私たちのソリューションは、コミュニティにとって理想的な選択肢となる、幅広いメリットを提供します。
論文 参考訳(メタデータ) (2023-04-13T09:51:49Z) - SESNet: sequence-structure feature-integrated deep learning method for
data-efficient protein engineering [6.216757583450049]
タンパク質変異体の適合度を予測するための教師付きディープラーニングモデルであるSESNetを開発した。
SESNetは,シーケンスと関数の関係を予測するための最先端モデルよりも優れていることを示す。
我々のモデルは、タンパク質変異体の適合性の予測において、特に高次変異体に対して驚くほど高い精度を達成することができる。
論文 参考訳(メタデータ) (2022-12-29T01:49:52Z) - Learning Geometrically Disentangled Representations of Protein Folding
Simulations [72.03095377508856]
この研究は、薬物標的タンパク質の構造的アンサンブルに基づいて生成ニューラルネットワークを学習することに焦点を当てている。
モデル課題は、様々な薬物分子に結合したタンパク質の構造的変動を特徴付けることである。
その結果,我々の幾何学的学習に基づく手法は,複雑な構造変化を生成するための精度と効率の両方を享受できることがわかった。
論文 参考訳(メタデータ) (2022-05-20T19:38:00Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。