論文の概要: Efficiently Predicting Protein Stability Changes Upon Single-point
Mutation with Large Language Models
- arxiv url: http://arxiv.org/abs/2312.04019v1
- Date: Thu, 7 Dec 2023 03:25:49 GMT
- ステータス: 処理完了
- システム内更新日: 2023-12-08 16:16:14.733972
- Title: Efficiently Predicting Protein Stability Changes Upon Single-point
Mutation with Large Language Models
- Title(参考訳): 大規模言語モデルを用いた単一点変異によるタンパク質の安定性変化の予測
- Authors: Yijie Zhang, Zhangyang Gao, Cheng Tan, Stan Z.Li
- Abstract要約: タンパク質の熱安定性を正確に予測する能力は、様々なサブフィールドや生化学への応用において重要である。
タンパク質配列と構造的特徴を統合したESMによる効率的なアプローチを導入し, 単一点突然変異によるタンパク質の熱安定性変化を予測する。
- 参考スコア(独自算出の注目度): 51.57843608615827
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Predicting protein stability changes induced by single-point mutations has
been a persistent challenge over the years, attracting immense interest from
numerous researchers. The ability to precisely predict protein thermostability
is pivotal for various subfields and applications in biochemistry, including
drug development, protein evolution analysis, and enzyme synthesis. Despite the
proposition of multiple methodologies aimed at addressing this issue, few
approaches have successfully achieved optimal performance coupled with high
computational efficiency. Two principal hurdles contribute to the existing
challenges in this domain. The first is the complexity of extracting and
aggregating sufficiently representative features from proteins. The second
refers to the limited availability of experimental data for protein mutation
analysis, further complicating the comprehensive evaluation of model
performance on unseen data samples. With the advent of Large Language
Models(LLM), such as the ESM models in protein research, profound
interpretation of protein features is now accessibly aided by enormous training
data. Therefore, LLMs are indeed to facilitate a wide range of protein
research. In our study, we introduce an ESM-assisted efficient approach that
integrates protein sequence and structural features to predict the
thermostability changes in protein upon single-point mutations. Furthermore, we
have curated a dataset meticulously designed to preclude data leakage,
corresponding to two extensively employed test datasets, to facilitate a more
equitable model comparison.
- Abstract(参考訳): 単一点突然変異によるタンパク質の安定性の変化を予測することは、長年にわたって絶え間ない課題であり、多くの研究者から大きな関心を集めてきた。
タンパク質の熱安定性を正確に予測する能力は、薬物開発、タンパク質進化分析、酵素合成など、様々なサブフィールドや生化学への応用において重要である。
この問題に対処するための複数の方法論が提案されているが、高い計算効率と最適な性能を達成する方法はほとんどない。
2つの主要なハードルがこのドメインの既存の課題に寄与します。
1つ目はタンパク質から十分な代表的特徴を抽出・集約する複雑さである。
第2に、タンパク質変異解析のための実験データの限定的利用について言及し、さらに、未知のデータサンプルに対するモデル性能の包括的評価を複雑化する。
タンパク質研究におけるESMモデルのようなLarge Language Models(LLM)の出現に伴い、タンパク質の特徴の深い解釈は巨大なトレーニングデータによってアクセス可能になった。
したがって、LSMは確かに幅広いタンパク質の研究を促進する。
本研究では, タンパク質配列と構造的特徴を統合し, 単一点変異によるタンパク質の熱安定性変化を予測するESMによる効率的なアプローチを提案する。
さらに,より公平なモデル比較を容易にするために,広く採用されている2つのテストデータセットに対応するデータ漏洩を防止すべく,細心の注意を払ってデータセットのキュレーションを行った。
関連論文リスト
- SFM-Protein: Integrative Co-evolutionary Pre-training for Advanced Protein Sequence Representation [97.99658944212675]
タンパク質基盤モデルのための新しい事前学習戦略を導入する。
アミノ酸残基間の相互作用を強調し、短距離および長距離の共進化的特徴の抽出を強化する。
大規模タンパク質配列データセットを用いて学習し,より優れた一般化能力を示す。
論文 参考訳(メタデータ) (2024-10-31T15:22:03Z) - Learning to Predict Mutation Effects of Protein-Protein Interactions by Microenvironment-aware Hierarchical Prompt Learning [78.38442423223832]
我々は、新しいコードブック事前学習タスク、すなわちマスク付きマイクロ環境モデリングを開発する。
突然変異効果予測において、最先端の事前学習法よりも優れた性能と訓練効率を示す。
論文 参考訳(メタデータ) (2024-05-16T03:53:21Z) - Beyond ESM2: Graph-Enhanced Protein Sequence Modeling with Efficient Clustering [24.415612744612773]
タンパク質は生命の過程に必須であり、進化と多様性を支えている。
シークエンシング技術の進歩により数百万のタンパク質が明らかにされ、生物学的分析とAI開発のための高度な事前学習されたタンパク質モデルの必要性が強調されている。
FacebookのESM2は、これまでで最も先進的なタンパク質言語モデルであり、教師なし学習にマスク付き予測タスクを活用し、顕著な生化学的精度でアミノ酸表現を作成する。
しかし、機能的なタンパク質の洞察の提供に欠けており、表現の質を高める機会を示唆している。
本研究は,タンパク質ファミリー分類をESM2のトレーニングに組み込むことにより,このギャップに対処する。
論文 参考訳(メタデータ) (2024-04-24T11:09:43Z) - Enhancing Protein Predictive Models via Proteins Data Augmentation: A
Benchmark and New Directions [58.819567030843025]
本稿では,これまで画像やテキストに用いたデータ拡張手法をタンパク質に拡張し,タンパク質関連タスクでこれらの手法をベンチマークする。
本稿では,2つの新規な意味レベルタンパク質増強法,すなわち,統合的グラディエント置換法とバック翻訳置換法を提案する。
最後に、拡張および提案された拡張を拡張プールに統合し、シンプルで効果的なフレームワークであるAutomated Protein Augmentation (APA)を提案する。
論文 参考訳(メタデータ) (2024-03-01T07:58:29Z) - ProtLLM: An Interleaved Protein-Language LLM with Protein-as-Word Pre-Training [82.37346937497136]
本稿では,タンパク質中心タスクとタンパク質言語タスクの両方を対象とした多機能多言語多言語言語モデル (LLM) を提案する。
ProtLLMはユニークな動的タンパク質実装機構を備えており、複雑な入力を処理できる。
専門的なタンパク質語彙を開発することで、自然言語だけでなく、膨大な候補からタンパク質を予測できる能力をモデルに装備する。
論文 参考訳(メタデータ) (2024-02-28T01:29:55Z) - Multi-level Protein Representation Learning for Blind Mutational Effect
Prediction [5.207307163958806]
本稿では,タンパク質構造解析のためのシーケンシャルおよび幾何学的アナライザをカスケードする,新しい事前学習フレームワークを提案する。
野生型タンパク質の自然選択をシミュレートすることにより、所望の形質に対する突然変異方向を誘導する。
提案手法は,多種多様な効果予測タスクに対して,パブリックデータベースと2つの新しいデータベースを用いて評価する。
論文 参考訳(メタデータ) (2023-06-08T03:00:50Z) - A Latent Diffusion Model for Protein Structure Generation [50.74232632854264]
本稿では,タンパク質モデリングの複雑さを低減できる潜在拡散モデルを提案する。
提案手法は, 高い設計性と効率性を有する新規なタンパク質のバックボーン構造を効果的に生成できることを示す。
論文 参考訳(メタデータ) (2023-05-06T19:10:19Z) - Accurate and Definite Mutational Effect Prediction with Lightweight
Equivariant Graph Neural Networks [2.381587712372268]
本研究では,野生型タンパク質の微小環境を効率的に解析する軽量なグラフ表現学習手法を提案する。
私たちのソリューションは、コミュニティにとって理想的な選択肢となる、幅広いメリットを提供します。
論文 参考訳(メタデータ) (2023-04-13T09:51:49Z) - SESNet: sequence-structure feature-integrated deep learning method for
data-efficient protein engineering [6.216757583450049]
タンパク質変異体の適合度を予測するための教師付きディープラーニングモデルであるSESNetを開発した。
SESNetは,シーケンスと関数の関係を予測するための最先端モデルよりも優れていることを示す。
我々のモデルは、タンパク質変異体の適合性の予測において、特に高次変異体に対して驚くほど高い精度を達成することができる。
論文 参考訳(メタデータ) (2022-12-29T01:49:52Z) - Plug & Play Directed Evolution of Proteins with Gradient-based Discrete
MCMC [1.0499611180329804]
機械学習ベースのタンパク質工学の長年の目標は、新しい突然変異の発見を加速することである。
本稿では,シリコにおけるタンパク質の進化のためのサンプリングフレームワークについて紹介する。
これらのモデルを構成することで、未知の突然変異を評価し、機能的タンパク質を含む可能性のある配列空間の領域を探索する能力を向上させることを目指している。
論文 参考訳(メタデータ) (2022-12-20T00:26:23Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。