論文の概要: EMOCPD: Efficient Attention-based Models for Computational Protein Design Using Amino Acid Microenvironment
- arxiv url: http://arxiv.org/abs/2410.21069v2
- Date: Tue, 29 Oct 2024 05:45:14 GMT
- ステータス: 翻訳完了
- システム内更新日: 2024-10-30 13:41:29.905788
- Title: EMOCPD: Efficient Attention-based Models for Computational Protein Design Using Amino Acid Microenvironment
- Title(参考訳): EMOCPD:アミノ酸マイクロ環境を用いた計算タンパク質設計のための効率的な注意モデル
- Authors: Xiaoqi Ling, Cheng Cai, Demin Kong, Zhisheng Wei, Jing Wu, Lei Wang, Zhaohong Deng,
- Abstract要約: アミノ酸マイクロ環境(EMOCPD)を用いた効率的なタンパク質設計モデルの構築
アミノ酸を取り巻く3次元の原子環境を分析してタンパク質内の各アミノ酸のカテゴリを予測し、予測された高確率アミノ酸カテゴリに基づいてタンパク質を最適化することを目的としている。
トレーニングセットでは80%以上の精度、独立した2つのテストセットでは68.33%と62.32%の精度を実現している。
- 参考スコア(独自算出の注目度): 8.661662081290265
- License:
- Abstract: Computational protein design (CPD) refers to the use of computational methods to design proteins. Traditional methods relying on energy functions and heuristic algorithms for sequence design are inefficient and do not meet the demands of the big data era in biomolecules, with their accuracy limited by the energy functions and search algorithms. Existing deep learning methods are constrained by the learning capabilities of the networks, failing to extract effective information from sparse protein structures, which limits the accuracy of protein design. To address these shortcomings, we developed an Efficient attention-based Models for Computational Protein Design using amino acid microenvironment (EMOCPD). It aims to predict the category of each amino acid in a protein by analyzing the three-dimensional atomic environment surrounding the amino acids, and optimize the protein based on the predicted high-probability potential amino acid categories. EMOCPD employs a multi-head attention mechanism to focus on important features in the sparse protein microenvironment and utilizes an inverse residual structure to optimize the network architecture. The proposed EMOCPD achieves over 80% accuracy on the training set and 68.33% and 62.32% accuracy on two independent test sets, respectively, surpassing the best comparative methods by over 10%. In protein design, the thermal stability and protein expression of the predicted mutants from EMOCPD show significant improvements compared to the wild type, effectively validating EMOCPD's potential in designing superior proteins. Furthermore, the predictions of EMOCPD are influenced positively, negatively, or have minimal impact based on the content of the 20 amino acids, categorizing amino acids as positive, negative, or neutral. Research findings indicate that EMOCPD is more suitable for designing proteins with lower contents of negative amino acids.
- Abstract(参考訳): CPD(Computational protein design)は、タンパク質を設計するための計算手法である。
伝統的手法では、エネルギー関数とヒューリスティックアルゴリズムは非効率であり、その精度はエネルギー関数と探索アルゴリズムによって制限されるが、生物分子のビッグデータ時代の要求に合致しない。
既存のディープラーニング手法は、ネットワークの学習能力に制約され、スパースタンパク質構造から効果的な情報を抽出できないため、タンパク質設計の精度が制限される。
これらの欠点に対処するために,アミノ酸マイクロ環境(EMOCPD)を用いた効率的な注目型タンパク質設計モデルを開発した。
アミノ酸を取り巻く3次元の原子環境を分析してタンパク質内の各アミノ酸のカテゴリを予測し、予測された高確率アミノ酸カテゴリに基づいてタンパク質を最適化することを目的としている。
EMOCPDは、スパースタンパク質のミクロ環境における重要な特徴に焦点をあてるマルチヘッドアテンション機構を採用し、ネットワークアーキテクチャを最適化するために逆残基構造を利用する。
提案したEMOCPDは、トレーニングセットで80%以上、独立した2つのテストセットで68.33%と62.32%の精度を達成し、最高の比較手法を10%以上上回っている。
タンパク質設計において、EMOCPDの予測された変異体の熱安定性とタンパク質発現は野生型と比較して著しく改善され、優れたタンパク質を設計するEMOCPDの可能性が効果的に検証された。
さらに、EMOCPDの予測は、正、負、または、20アミノ酸の含有量に基づいて最小限の影響を受け、アミノ酸を正、負、中性と分類する。
EMOCPDは、負のアミノ酸の含有量が低いタンパク質を設計するのにより適していることが示された。
関連論文リスト
- SFM-Protein: Integrative Co-evolutionary Pre-training for Advanced Protein Sequence Representation [97.99658944212675]
タンパク質基盤モデルのための新しい事前学習戦略を導入する。
アミノ酸残基間の相互作用を強調し、短距離および長距離の共進化的特徴の抽出を強化する。
大規模タンパク質配列データセットを用いて学習し,より優れた一般化能力を示す。
論文 参考訳(メタデータ) (2024-10-31T15:22:03Z) - Long-context Protein Language Model [76.95505296417866]
言語モデル(LM)の自己教師による訓練は、有意義な表現の学習や創薬設計において、タンパク質配列に大きな成功を収めている。
ほとんどのタンパク質LMは、短い文脈長を持つ個々のタンパク質に基づいて訓練されたトランスフォーマーアーキテクチャに基づいている。
そこで我々は,選択的構造化状態空間モデルから構築した代替のタンパク質LMアーキテクチャであるBiMamba-Sに基づくLC-PLMを提案する。
また、第2段階のトレーニングのために、タンパク質-タンパク質相互作用グラフの文脈化を行うLC-PLM-Gも導入した。
論文 参考訳(メタデータ) (2024-10-29T16:43:28Z) - Advanced atom-level representations for protein flexibility prediction utilizing graph neural networks [0.0]
我々は,タンパク質の原子レベルでの表現を学習し,タンパク質3D構造からB因子を予測するグラフニューラルネットワーク(GNN)を提案する。
Meta-GNNモデルは、4k以上のタンパク質の大規模かつ多様なテストセット上での相関係数0.71を達成する。
論文 参考訳(メタデータ) (2024-08-22T16:15:13Z) - Beyond ESM2: Graph-Enhanced Protein Sequence Modeling with Efficient Clustering [24.415612744612773]
タンパク質は生命の過程に必須であり、進化と多様性を支えている。
シークエンシング技術の進歩により数百万のタンパク質が明らかにされ、生物学的分析とAI開発のための高度な事前学習されたタンパク質モデルの必要性が強調されている。
FacebookのESM2は、これまでで最も先進的なタンパク質言語モデルであり、教師なし学習にマスク付き予測タスクを活用し、顕著な生化学的精度でアミノ酸表現を作成する。
しかし、機能的なタンパク質の洞察の提供に欠けており、表現の質を高める機会を示唆している。
本研究は,タンパク質ファミリー分類をESM2のトレーニングに組み込むことにより,このギャップに対処する。
論文 参考訳(メタデータ) (2024-04-24T11:09:43Z) - Efficiently Predicting Mutational Effect on Homologous Proteins by Evolution Encoding [7.067145619709089]
EvolMPNNは進化を意識したタンパク質の埋め込みを学習するための効率的なモデルである。
我々のモデルは最先端の手法よりも最大6.4%向上し,36倍の高速化を実現している。
論文 参考訳(メタデータ) (2024-02-20T23:06:21Z) - Efficiently Predicting Protein Stability Changes Upon Single-point
Mutation with Large Language Models [51.57843608615827]
タンパク質の熱安定性を正確に予測する能力は、様々なサブフィールドや生化学への応用において重要である。
タンパク質配列と構造的特徴を統合したESMによる効率的なアプローチを導入し, 単一点突然変異によるタンパク質の熱安定性変化を予測する。
論文 参考訳(メタデータ) (2023-12-07T03:25:49Z) - Multi-level Protein Representation Learning for Blind Mutational Effect
Prediction [5.207307163958806]
本稿では,タンパク質構造解析のためのシーケンシャルおよび幾何学的アナライザをカスケードする,新しい事前学習フレームワークを提案する。
野生型タンパク質の自然選択をシミュレートすることにより、所望の形質に対する突然変異方向を誘導する。
提案手法は,多種多様な効果予測タスクに対して,パブリックデータベースと2つの新しいデータベースを用いて評価する。
論文 参考訳(メタデータ) (2023-06-08T03:00:50Z) - Structure-informed Language Models Are Protein Designers [69.70134899296912]
配列ベースタンパク質言語モデル(pLM)の汎用的手法であるLM-Designを提案する。
pLMに軽量な構造アダプターを埋め込んだ構造手術を行い,構造意識を付加した構造手術を行った。
実験の結果,我々の手法は最先端の手法よりも大きなマージンで優れていることがわかった。
論文 参考訳(メタデータ) (2023-02-03T10:49:52Z) - Learning Geometrically Disentangled Representations of Protein Folding
Simulations [72.03095377508856]
この研究は、薬物標的タンパク質の構造的アンサンブルに基づいて生成ニューラルネットワークを学習することに焦点を当てている。
モデル課題は、様々な薬物分子に結合したタンパク質の構造的変動を特徴付けることである。
その結果,我々の幾何学的学習に基づく手法は,複雑な構造変化を生成するための精度と効率の両方を享受できることがわかった。
論文 参考訳(メタデータ) (2022-05-20T19:38:00Z) - EBM-Fold: Fully-Differentiable Protein Folding Powered by Energy-based
Models [53.17320541056843]
本研究では,データ駆動型生成ネットワークを用いたタンパク質構造最適化手法を提案する。
EBM-Foldアプローチは,従来のロゼッタ構造最適化ルーチンと比較して,高品質なデコイを効率よく生成できる。
論文 参考訳(メタデータ) (2021-05-11T03:40:29Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。