論文の概要: Efficiently Predicting Protein Stability Changes Upon Single-point
Mutation with Large Language Models
- arxiv url: http://arxiv.org/abs/2312.04019v1
- Date: Thu, 7 Dec 2023 03:25:49 GMT
- ステータス: 処理完了
- システム内更新日: 2023-12-08 16:16:14.733972
- Title: Efficiently Predicting Protein Stability Changes Upon Single-point
Mutation with Large Language Models
- Title(参考訳): 大規模言語モデルを用いた単一点変異によるタンパク質の安定性変化の予測
- Authors: Yijie Zhang, Zhangyang Gao, Cheng Tan, Stan Z.Li
- Abstract要約: タンパク質の熱安定性を正確に予測する能力は、様々なサブフィールドや生化学への応用において重要である。
タンパク質配列と構造的特徴を統合したESMによる効率的なアプローチを導入し, 単一点突然変異によるタンパク質の熱安定性変化を予測する。
- 参考スコア(独自算出の注目度): 51.57843608615827
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Predicting protein stability changes induced by single-point mutations has
been a persistent challenge over the years, attracting immense interest from
numerous researchers. The ability to precisely predict protein thermostability
is pivotal for various subfields and applications in biochemistry, including
drug development, protein evolution analysis, and enzyme synthesis. Despite the
proposition of multiple methodologies aimed at addressing this issue, few
approaches have successfully achieved optimal performance coupled with high
computational efficiency. Two principal hurdles contribute to the existing
challenges in this domain. The first is the complexity of extracting and
aggregating sufficiently representative features from proteins. The second
refers to the limited availability of experimental data for protein mutation
analysis, further complicating the comprehensive evaluation of model
performance on unseen data samples. With the advent of Large Language
Models(LLM), such as the ESM models in protein research, profound
interpretation of protein features is now accessibly aided by enormous training
data. Therefore, LLMs are indeed to facilitate a wide range of protein
research. In our study, we introduce an ESM-assisted efficient approach that
integrates protein sequence and structural features to predict the
thermostability changes in protein upon single-point mutations. Furthermore, we
have curated a dataset meticulously designed to preclude data leakage,
corresponding to two extensively employed test datasets, to facilitate a more
equitable model comparison.
- Abstract(参考訳): 単一点突然変異によるタンパク質の安定性の変化を予測することは、長年にわたって絶え間ない課題であり、多くの研究者から大きな関心を集めてきた。
タンパク質の熱安定性を正確に予測する能力は、薬物開発、タンパク質進化分析、酵素合成など、様々なサブフィールドや生化学への応用において重要である。
この問題に対処するための複数の方法論が提案されているが、高い計算効率と最適な性能を達成する方法はほとんどない。
2つの主要なハードルがこのドメインの既存の課題に寄与します。
1つ目はタンパク質から十分な代表的特徴を抽出・集約する複雑さである。
第2に、タンパク質変異解析のための実験データの限定的利用について言及し、さらに、未知のデータサンプルに対するモデル性能の包括的評価を複雑化する。
タンパク質研究におけるESMモデルのようなLarge Language Models(LLM)の出現に伴い、タンパク質の特徴の深い解釈は巨大なトレーニングデータによってアクセス可能になった。
したがって、LSMは確かに幅広いタンパク質の研究を促進する。
本研究では, タンパク質配列と構造的特徴を統合し, 単一点変異によるタンパク質の熱安定性変化を予測するESMによる効率的なアプローチを提案する。
さらに,より公平なモデル比較を容易にするために,広く採用されている2つのテストデータセットに対応するデータ漏洩を防止すべく,細心の注意を払ってデータセットのキュレーションを行った。
関連論文リスト
- Enhancing Protein Predictive Models via Proteins Data Augmentation: A
Benchmark and New Directions [58.819567030843025]
本稿では,これまで画像やテキストに用いたデータ拡張手法をタンパク質に拡張し,タンパク質関連タスクでこれらの手法をベンチマークする。
本稿では,2つの新規な意味レベルタンパク質増強法,すなわち,統合的グラディエント置換法とバック翻訳置換法を提案する。
最後に、拡張および提案された拡張を拡張プールに統合し、シンプルで効果的なフレームワークであるAutomated Protein Augmentation (APA)を提案する。
論文 参考訳(メタデータ) (2024-03-01T07:58:29Z) - PSC-CPI: Multi-Scale Protein Sequence-Structure Contrasting for
Efficient and Generalizable Compound-Protein Interaction Prediction [63.50967073653953]
化合物-タンパク質相互作用予測は、合理的な薬物発見のための化合物-タンパク質相互作用のパターンと強度を予測することを目的としている。
既存のディープラーニングベースの手法では、タンパク質配列や構造が単一のモダリティしか利用していない。
CPI予測のためのマルチスケールタンパク質配列構造コントラストフレームワークを提案する。
論文 参考訳(メタデータ) (2024-02-13T03:51:10Z) - Multi-level Protein Representation Learning for Blind Mutational Effect
Prediction [5.207307163958806]
本稿では,タンパク質構造解析のためのシーケンシャルおよび幾何学的アナライザをカスケードする,新しい事前学習フレームワークを提案する。
野生型タンパク質の自然選択をシミュレートすることにより、所望の形質に対する突然変異方向を誘導する。
提案手法は,多種多様な効果予測タスクに対して,パブリックデータベースと2つの新しいデータベースを用いて評価する。
論文 参考訳(メタデータ) (2023-06-08T03:00:50Z) - A Latent Diffusion Model for Protein Structure Generation [50.74232632854264]
本稿では,タンパク質モデリングの複雑さを低減できる潜在拡散モデルを提案する。
提案手法は, 高い設計性と効率性を有する新規なタンパク質のバックボーン構造を効果的に生成できることを示す。
論文 参考訳(メタデータ) (2023-05-06T19:10:19Z) - Accurate and Definite Mutational Effect Prediction with Lightweight
Equivariant Graph Neural Networks [2.381587712372268]
本研究では,野生型タンパク質の微小環境を効率的に解析する軽量なグラフ表現学習手法を提案する。
私たちのソリューションは、コミュニティにとって理想的な選択肢となる、幅広いメリットを提供します。
論文 参考訳(メタデータ) (2023-04-13T09:51:49Z) - Reprogramming Pretrained Language Models for Protein Sequence
Representation Learning [68.75392232599654]
エンドツーエンドの表現学習フレームワークである辞書学習(R2DL)による表現学習を提案する。
R2DLは、タンパク質配列の埋め込みを学ぶために、事前訓練された英語モデルを再プログラムする。
我々のモデルは,事前訓練および標準教師付き手法によって設定されたベースラインに対して,最大105ドルの精度でデータ効率を大幅に向上させることができる。
論文 参考訳(メタデータ) (2023-01-05T15:55:18Z) - SESNet: sequence-structure feature-integrated deep learning method for
data-efficient protein engineering [6.216757583450049]
タンパク質変異体の適合度を予測するための教師付きディープラーニングモデルであるSESNetを開発した。
SESNetは,シーケンスと関数の関係を予測するための最先端モデルよりも優れていることを示す。
我々のモデルは、タンパク質変異体の適合性の予測において、特に高次変異体に対して驚くほど高い精度を達成することができる。
論文 参考訳(メタデータ) (2022-12-29T01:49:52Z) - Plug & Play Directed Evolution of Proteins with Gradient-based Discrete
MCMC [1.0499611180329804]
機械学習ベースのタンパク質工学の長年の目標は、新しい突然変異の発見を加速することである。
本稿では,シリコにおけるタンパク質の進化のためのサンプリングフレームワークについて紹介する。
これらのモデルを構成することで、未知の突然変異を評価し、機能的タンパク質を含む可能性のある配列空間の領域を探索する能力を向上させることを目指している。
論文 参考訳(メタデータ) (2022-12-20T00:26:23Z) - Machine learning can guide experimental approaches for protein
digestibility estimations [1.447032077887874]
本稿では,食品の本当の回腸消化率を予測するための機械学習手法を提案する。
食品タンパク質の消化率を予測する最初のAIベースのモデルは、既存のモデルと比較して90%の精度を持つ。
論文 参考訳(メタデータ) (2022-11-01T17:43:58Z) - Learning Geometrically Disentangled Representations of Protein Folding
Simulations [72.03095377508856]
この研究は、薬物標的タンパク質の構造的アンサンブルに基づいて生成ニューラルネットワークを学習することに焦点を当てている。
モデル課題は、様々な薬物分子に結合したタンパク質の構造的変動を特徴付けることである。
その結果,我々の幾何学的学習に基づく手法は,複雑な構造変化を生成するための精度と効率の両方を享受できることがわかった。
論文 参考訳(メタデータ) (2022-05-20T19:38:00Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。