論文の概要: MutaPLM: Protein Language Modeling for Mutation Explanation and Engineering
- arxiv url: http://arxiv.org/abs/2410.22949v1
- Date: Wed, 30 Oct 2024 12:05:51 GMT
- ステータス: 翻訳完了
- システム内更新日: 2024-10-31 14:26:17.536560
- Title: MutaPLM: Protein Language Modeling for Mutation Explanation and Engineering
- Title(参考訳): MutaPLM:変異説明と工学のためのタンパク質言語モデリング
- Authors: Yizhen Luo, Zikun Nie, Massimo Hong, Suyuan Zhao, Hao Zhou, Zaiqing Nie,
- Abstract要約: MutaPLMは、タンパク質変異をタンパク質言語モデルで解釈し、ナビゲートするための統一的なフレームワークである。
MutaPLMは、統一された特徴空間内で明示的なタンパク質突然変異表現をキャプチャするタンパク質デルタネットワークを導入する。
MutaPLMは、人為的に理解可能な突然変異効果の説明を提供し、望ましい性質を持つ新規な突然変異の優先順位付けに優れている。
- 参考スコア(独自算出の注目度): 12.738902517872509
- License:
- Abstract: Studying protein mutations within amino acid sequences holds tremendous significance in life sciences. Protein language models (PLMs) have demonstrated strong capabilities in broad biological applications. However, due to architectural design and lack of supervision, PLMs model mutations implicitly with evolutionary plausibility, which is not satisfactory to serve as explainable and engineerable tools in real-world studies. To address these issues, we present MutaPLM, a unified framework for interpreting and navigating protein mutations with protein language models. MutaPLM introduces a protein delta network that captures explicit protein mutation representations within a unified feature space, and a transfer learning pipeline with a chain-of-thought (CoT) strategy to harvest protein mutation knowledge from biomedical texts. We also construct MutaDescribe, the first large-scale protein mutation dataset with rich textual annotations, which provides cross-modal supervision signals. Through comprehensive experiments, we demonstrate that MutaPLM excels at providing human-understandable explanations for mutational effects and prioritizing novel mutations with desirable properties. Our code, model, and data are open-sourced at https://github.com/PharMolix/MutaPLM.
- Abstract(参考訳): アミノ酸配列内のタンパク質変異の研究は、生命科学において極めて重要である。
タンパク質言語モデル(PLM)は、幅広い生物学的応用において強力な機能を示した。
しかしながら、アーキテクチャ設計と監督の欠如により、PLMは進化的妥当性に暗黙的に変異をモデル化し、現実世界の研究において説明可能で工学的なツールとして機能するには不十分である。
これらの問題に対処するため,タンパク質変異をタンパク質言語モデルで解釈・ナビゲートするための統合フレームワークであるMutaPLMを提案する。
MutaPLMは、統一された特徴空間内で明確なタンパク質突然変異の表現をキャプチャするタンパク質デルタネットワークと、生物医学的なテキストからタンパク質突然変異の知識を抽出するためのチェーン・オブ・シント(CoT)戦略による伝達学習パイプラインを導入する。
また,テキストアノテーションを多用した最初の大規模タンパク質変異データセットである MutaDescribe も構築した。
総合的な実験を通じて、ミュータPLMはヒトが理解可能な突然変異効果の説明を提供し、望ましい性質を持つ新規変異の優先順位付けに優れていることを実証した。
私たちのコード、モデル、データはhttps://github.com/PharMolix/MutaPLM.comでオープンソース化されています。
関連論文リスト
- SFM-Protein: Integrative Co-evolutionary Pre-training for Advanced Protein Sequence Representation [97.99658944212675]
タンパク質基盤モデルのための新しい事前学習戦略を導入する。
アミノ酸残基間の相互作用を強調し、短距離および長距離の共進化的特徴の抽出を強化する。
大規模タンパク質配列データセットを用いて学習し,より優れた一般化能力を示す。
論文 参考訳(メタデータ) (2024-10-31T15:22:03Z) - Learning to Predict Mutation Effects of Protein-Protein Interactions by Microenvironment-aware Hierarchical Prompt Learning [78.38442423223832]
我々は、新しいコードブック事前学習タスク、すなわちマスク付きマイクロ環境モデリングを開発する。
突然変異効果予測において、最先端の事前学習法よりも優れた性能と訓練効率を示す。
論文 参考訳(メタデータ) (2024-05-16T03:53:21Z) - ProLLM: Protein Chain-of-Thoughts Enhanced LLM for Protein-Protein Interaction Prediction [54.132290875513405]
タンパク質-タンパク質相互作用(PPI)の予測は、生物学的機能や疾患を理解する上で重要である。
PPI予測に対する従来の機械学習アプローチは、主に直接的な物理的相互作用に焦点を当てていた。
PPIに適したLLMを用いた新しいフレームワークProLLMを提案する。
論文 参考訳(メタデータ) (2024-03-30T05:32:42Z) - Efficiently Predicting Mutational Effect on Homologous Proteins by Evolution Encoding [7.067145619709089]
EvolMPNNは進化を意識したタンパク質の埋め込みを学習するための効率的なモデルである。
我々のモデルは最先端の手法よりも最大6.4%向上し,36倍の高速化を実現している。
論文 参考訳(メタデータ) (2024-02-20T23:06:21Z) - Efficiently Predicting Protein Stability Changes Upon Single-point
Mutation with Large Language Models [51.57843608615827]
タンパク質の熱安定性を正確に予測する能力は、様々なサブフィールドや生化学への応用において重要である。
タンパク質配列と構造的特徴を統合したESMによる効率的なアプローチを導入し, 単一点突然変異によるタンパク質の熱安定性変化を予測する。
論文 参考訳(メタデータ) (2023-12-07T03:25:49Z) - A Latent Diffusion Model for Protein Structure Generation [50.74232632854264]
本稿では,タンパク質モデリングの複雑さを低減できる潜在拡散モデルを提案する。
提案手法は, 高い設計性と効率性を有する新規なタンパク質のバックボーン構造を効果的に生成できることを示す。
論文 参考訳(メタデータ) (2023-05-06T19:10:19Z) - Accurate and Definite Mutational Effect Prediction with Lightweight
Equivariant Graph Neural Networks [2.381587712372268]
本研究では,野生型タンパク質の微小環境を効率的に解析する軽量なグラフ表現学習手法を提案する。
私たちのソリューションは、コミュニティにとって理想的な選択肢となる、幅広いメリットを提供します。
論文 参考訳(メタデータ) (2023-04-13T09:51:49Z) - Plug & Play Directed Evolution of Proteins with Gradient-based Discrete
MCMC [1.0499611180329804]
機械学習ベースのタンパク質工学の長年の目標は、新しい突然変異の発見を加速することである。
本稿では,シリコにおけるタンパク質の進化のためのサンプリングフレームワークについて紹介する。
これらのモデルを構成することで、未知の突然変異を評価し、機能的タンパク質を含む可能性のある配列空間の領域を探索する能力を向上させることを目指している。
論文 参考訳(メタデータ) (2022-12-20T00:26:23Z) - Learning Geometrically Disentangled Representations of Protein Folding
Simulations [72.03095377508856]
この研究は、薬物標的タンパク質の構造的アンサンブルに基づいて生成ニューラルネットワークを学習することに焦点を当てている。
モデル課題は、様々な薬物分子に結合したタンパク質の構造的変動を特徴付けることである。
その結果,我々の幾何学的学習に基づく手法は,複雑な構造変化を生成するための精度と効率の両方を享受できることがわかった。
論文 参考訳(メタデータ) (2022-05-20T19:38:00Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。