Fugu-MT 論文翻訳(概要): EMOCPD: Efficient Attention-based Models for Computational Protein Design Using Amino Acid Microenvironment

論文の概要: EMOCPD: Efficient Attention-based Models for Computational Protein Design Using Amino Acid Microenvironment

arxiv url: http://arxiv.org/abs/2410.21069v1
Date: Mon, 28 Oct 2024 14:31:18 GMT
ステータス: 翻訳完了
システム内更新日: 2024-11-28 17:07:41.338973
Title: EMOCPD: Efficient Attention-based Models for Computational Protein Design Using Amino Acid Microenvironment
Title（参考訳）: EMOCPD:アミノ酸マイクロ環境を用いた計算タンパク質設計のための効率的な注意モデル
Authors: Xiaoqi Ling, Cheng Cai, Zhaohong Deng, Lei Wang, Zhisheng Wei, Jing Wu,
Abstract要約: アミノ酸マイクロ環境(EMOCPD)を用いた効率的なタンパク質設計モデルの構築アミノ酸を取り巻く3次元の原子環境を分析してタンパク質内の各アミノ酸のカテゴリを予測し、予測された高確率アミノ酸カテゴリに基づいてタンパク質を最適化することを目的としている。トレーニングセットでは80%以上の精度、独立した2つのテストセットでは68.33%と62.32%の精度を実現している。
参考スコア（独自算出の注目度）: 9.096007368344575
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: Computational protein design (CPD) refers to the use of computational methods to design proteins. Traditional methods relying on energy functions and heuristic algorithms for sequence design are inefficient and do not meet the demands of the big data era in biomolecules, with their accuracy limited by the energy functions and search algorithms. Existing deep learning methods are constrained by the learning capabilities of the networks, failing to extract effective information from sparse protein structures, which limits the accuracy of protein design. To address these shortcomings, we developed an Efficient attention-based Models for Computational Protein Design using amino acid microenvironment (EMOCPD). It aims to predict the category of each amino acid in a protein by analyzing the three-dimensional atomic environment surrounding the amino acids, and optimize the protein based on the predicted high-probability potential amino acid categories. EMOCPD employs a multi-head attention mechanism to focus on important features in the sparse protein microenvironment and utilizes an inverse residual structure to optimize the network architecture. The proposed EMOCPD achieves over 80% accuracy on the training set and 68.33% and 62.32% accuracy on two independent test sets, respectively, surpassing the best comparative methods by over 10%. In protein design, the thermal stability and protein expression of the predicted mutants from EMOCPD show significant improvements compared to the wild type, effectively validating EMOCPD's potential in designing superior proteins. Furthermore, the predictions of EMOCPD are influenced positively, negatively, or have minimal impact based on the content of the 20 amino acids, categorizing amino acids as positive, negative, or neutral. Research findings indicate that EMOCPD is more suitable for designing proteins with lower contents of negative amino acids.
Abstract（参考訳）: CPD(Computational protein design)は、タンパク質を設計するための計算手法である。伝統的手法では、エネルギー関数とヒューリスティックアルゴリズムは非効率であり、その精度はエネルギー関数と探索アルゴリズムによって制限されるが、生物分子のビッグデータ時代の要求に合致しない。既存のディープラーニング手法は、ネットワークの学習能力に制約され、スパースタンパク質構造から効果的な情報を抽出できないため、タンパク質設計の精度が制限される。これらの欠点に対処するために,アミノ酸マイクロ環境(EMOCPD)を用いた効率的な注目型タンパク質設計モデルを開発した。アミノ酸を取り巻く3次元の原子環境を分析してタンパク質内の各アミノ酸のカテゴリを予測し、予測された高確率アミノ酸カテゴリに基づいてタンパク質を最適化することを目的としている。 EMOCPDは、スパースタンパク質のミクロ環境における重要な特徴に焦点をあてるマルチヘッドアテンション機構を採用し、ネットワークアーキテクチャを最適化するために逆残基構造を利用する。提案したEMOCPDは、トレーニングセットで80%以上、独立した2つのテストセットで68.33%と62.32%の精度を達成し、最高の比較手法を10%以上上回っている。タンパク質設計において、EMOCPDの予測された変異体の熱安定性とタンパク質発現は野生型と比較して著しく改善され、優れたタンパク質を設計するEMOCPDの可能性が効果的に検証された。さらに、EMOCPDの予測は、正、負、または、20アミノ酸の含有量に基づいて最小限の影響を受け、アミノ酸を正、負、中性と分類する。 EMOCPDは、負のアミノ酸の含有量が低いタンパク質を設計するのにより適していることが示された。

関連論文リスト

Sparse Autoencoders for Low-$N$ Protein Function Prediction and Design [0.0]
アミノ酸配列からのタンパク質機能の予測は、データスカース機構における中心的な課題である。タンパク質言語モデル(pLM)は進化的インフォームド埋め込みとスパースオートエンコーダ(SAE)を提供することによって分野を進歩させた。 SAEは、24のシーケンスしか持たないが、フィットネス予測において、ESM2ベースラインよりも一貫して優れているか、競争している。
論文参考訳（メタデータ） (2025-08-25T23:56:39Z)
Deep Learning Model for Amyloidogenicity Prediction using a Pre-trained Protein LLM [0.0]
タンパク質のアミロイド生成性を予測する最近のアプローチは、進化のモチーフとアミノ酸の個々の性質に強く基づいている。本研究では,事前学習したタンパク質大言語モデルから得られたタンパク質配列の文脈的特徴について検討した。本手法は,10倍のクロスバリデーションで84.5%,テストデータセットで83%の精度を達成した。
論文参考訳（メタデータ） (2025-08-18T02:21:48Z)
ProteinZero: Self-Improving Protein Generation via Online Reinforcement Learning [49.2607661375311]
本稿では,逆折り畳みモデルの計算的拡張性,自動化,継続的な自己改善を可能にする新しいフレームワークであるProteinZeroを提案する。 ProteinZeroは、タンパク質設計のすべての主要な指標において、既存の手法を大幅に上回っている。特に、CATH-4.3上で実行されるRL全体は、報酬を含む3日以内に1つの8X GPUノードで実行できる。
論文参考訳（メタデータ） (2025-06-09T06:08:59Z)
Leveraging Multi-modal Representations to Predict Protein Melting Temperatures [4.105077436212467]
我々はESM-2、ESM-3、AlphaFoldなどの強力なタンパク質言語モデルに基づくモデルを開発する。我々は、s571テストデータセット上で新しい最先端性能を求め、ピアソン相関係数(PCC)0.50を得る。
論文参考訳（メタデータ） (2024-12-05T16:03:09Z)
ProtDAT: A Unified Framework for Protein Sequence Design from Any Protein Text Description [7.198238666986253]
記述型テキスト入力からタンパク質を設計できるde novo微細化フレームワークを提案する。 Prot DATは、タンパク質データの本質的な特性に基づいて、配列とテキストを分離されたエンティティではなく、結合的な全体として統一する。実験の結果,Prot DATはタンパク質配列生成の最先端性能を実現し,有理性,機能,構造的類似性,妥当性に優れていた。
論文参考訳（メタデータ） (2024-12-05T11:05:46Z)
SFM-Protein: Integrative Co-evolutionary Pre-training for Advanced Protein Sequence Representation [97.99658944212675]
タンパク質基盤モデルのための新しい事前学習戦略を導入する。アミノ酸残基間の相互作用を強調し、短距離および長距離の共進化的特徴の抽出を強化する。大規模タンパク質配列データセットを用いて学習し,より優れた一般化能力を示す。
論文参考訳（メタデータ） (2024-10-31T15:22:03Z)
Long-context Protein Language Model [76.95505296417866]
言語モデル(LM)の自己教師による訓練は、有意義な表現の学習や創薬設計において、タンパク質配列に大きな成功を収めている。ほとんどのタンパク質LMは、短い文脈長を持つ個々のタンパク質に基づいて訓練されたトランスフォーマーアーキテクチャに基づいている。そこで我々は,選択的構造化状態空間モデルから構築した代替のタンパク質LMアーキテクチャであるBiMamba-Sに基づくLC-PLMを提案する。また、第2段階のトレーニングのために、タンパク質-タンパク質相互作用グラフの文脈化を行うLC-PLM-Gも導入した。
論文参考訳（メタデータ） (2024-10-29T16:43:28Z)
Advanced atom-level representations for protein flexibility prediction utilizing graph neural networks [0.0]
我々は,タンパク質の原子レベルでの表現を学習し,タンパク質3D構造からB因子を予測するグラフニューラルネットワーク(GNN)を提案する。 Meta-GNNモデルは、4k以上のタンパク質の大規模かつ多様なテストセット上での相関係数0.71を達成する。
論文参考訳（メタデータ） (2024-08-22T16:15:13Z)
Beyond ESM2: Graph-Enhanced Protein Sequence Modeling with Efficient Clustering [24.415612744612773]
タンパク質は生命の過程に必須であり、進化と多様性を支えている。シークエンシング技術の進歩により数百万のタンパク質が明らかにされ、生物学的分析とAI開発のための高度な事前学習されたタンパク質モデルの必要性が強調されている。 FacebookのESM2は、これまでで最も先進的なタンパク質言語モデルであり、教師なし学習にマスク付き予測タスクを活用し、顕著な生化学的精度でアミノ酸表現を作成する。しかし、機能的なタンパク質の洞察の提供に欠けており、表現の質を高める機会を示唆している。本研究は,タンパク質ファミリー分類をESM2のトレーニングに組み込むことにより,このギャップに対処する。
論文参考訳（メタデータ） (2024-04-24T11:09:43Z)
Efficiently Predicting Mutational Effect on Homologous Proteins by Evolution Encoding [7.067145619709089]
EvolMPNNは進化を意識したタンパク質の埋め込みを学習するための効率的なモデルである。我々のモデルは最先端の手法よりも最大6.4%向上し,36倍の高速化を実現している。
論文参考訳（メタデータ） (2024-02-20T23:06:21Z)
Efficiently Predicting Protein Stability Changes Upon Single-point Mutation with Large Language Models [51.57843608615827]
タンパク質の熱安定性を正確に予測する能力は、様々なサブフィールドや生化学への応用において重要である。タンパク質配列と構造的特徴を統合したESMによる効率的なアプローチを導入し, 単一点突然変異によるタンパク質の熱安定性変化を予測する。
論文参考訳（メタデータ） (2023-12-07T03:25:49Z)
Multi-level Protein Representation Learning for Blind Mutational Effect Prediction [5.207307163958806]
本稿では,タンパク質構造解析のためのシーケンシャルおよび幾何学的アナライザをカスケードする,新しい事前学習フレームワークを提案する。野生型タンパク質の自然選択をシミュレートすることにより、所望の形質に対する突然変異方向を誘導する。提案手法は,多種多様な効果予測タスクに対して,パブリックデータベースと2つの新しいデータベースを用いて評価する。
論文参考訳（メタデータ） (2023-06-08T03:00:50Z)
Structure-informed Language Models Are Protein Designers [69.70134899296912]
配列ベースタンパク質言語モデル(pLM)の汎用的手法であるLM-Designを提案する。 pLMに軽量な構造アダプターを埋め込んだ構造手術を行い,構造意識を付加した構造手術を行った。実験の結果,我々の手法は最先端の手法よりも大きなマージンで優れていることがわかった。
論文参考訳（メタデータ） (2023-02-03T10:49:52Z)
Learning Geometrically Disentangled Representations of Protein Folding Simulations [72.03095377508856]
この研究は、薬物標的タンパク質の構造的アンサンブルに基づいて生成ニューラルネットワークを学習することに焦点を当てている。モデル課題は、様々な薬物分子に結合したタンパク質の構造的変動を特徴付けることである。その結果,我々の幾何学的学習に基づく手法は,複雑な構造変化を生成するための精度と効率の両方を享受できることがわかった。
論文参考訳（メタデータ） (2022-05-20T19:38:00Z)
EBM-Fold: Fully-Differentiable Protein Folding Powered by Energy-based Models [53.17320541056843]
本研究では,データ駆動型生成ネットワークを用いたタンパク質構造最適化手法を提案する。 EBM-Foldアプローチは,従来のロゼッタ構造最適化ルーチンと比較して,高品質なデコイを効率よく生成できる。
論文参考訳（メタデータ） (2021-05-11T03:40:29Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。