論文の概要: SESNet: sequence-structure feature-integrated deep learning method for
data-efficient protein engineering
- arxiv url: http://arxiv.org/abs/2301.00004v1
- Date: Thu, 29 Dec 2022 01:49:52 GMT
- ステータス: 処理完了
- システム内更新日: 2023-01-03 16:06:39.137418
- Title: SESNet: sequence-structure feature-integrated deep learning method for
data-efficient protein engineering
- Title(参考訳): SESNet:データ効率の良いタンパク質工学のためのシーケンス構造特徴統合ディープラーニング手法
- Authors: Mingchen Li, Liqi Kang, Yi Xiong, Yu Guang Wang, Guisheng Fan, Pan
Tan, Liang Hong
- Abstract要約: タンパク質変異体の適合度を予測するための教師付きディープラーニングモデルであるSESNetを開発した。
SESNetは,シーケンスと関数の関係を予測するための最先端モデルよりも優れていることを示す。
我々のモデルは、タンパク質変異体の適合性の予測において、特に高次変異体に対して驚くほど高い精度を達成することができる。
- 参考スコア(独自算出の注目度): 6.216757583450049
- License: http://creativecommons.org/licenses/by-nc-sa/4.0/
- Abstract: Deep learning has been widely used for protein engineering. However, it is
limited by the lack of sufficient experimental data to train an accurate model
for predicting the functional fitness of high-order mutants. Here, we develop
SESNet, a supervised deep-learning model to predict the fitness for protein
mutants by leveraging both sequence and structure information, and exploiting
attention mechanism. Our model integrates local evolutionary context from
homologous sequences, the global evolutionary context encoding rich semantic
from the universal protein sequence space and the structure information
accounting for the microenvironment around each residue in a protein. We show
that SESNet outperforms state-of-the-art models for predicting the
sequence-function relationship on 26 deep mutational scanning datasets. More
importantly, we propose a data augmentation strategy by leveraging the data
from unsupervised models to pre-train our model. After that, our model can
achieve strikingly high accuracy in prediction of the fitness of protein
mutants, especially for the higher order variants (> 4 mutation sites), when
finetuned by using only a small number of experimental mutation data (<50). The
strategy proposed is of great practical value as the required experimental
effort, i.e., producing a few tens of experimental mutation data on a given
protein, is generally affordable by an ordinary biochemical group and can be
applied on almost any protein.
- Abstract(参考訳): 深層学習はタンパク質工学に広く用いられている。
しかし、高次変異体の機能的適合性を予測するための正確なモデルを訓練するための十分な実験データがないことで制限される。
本稿では,シーケンス情報と構造情報を利用してタンパク質変異体の適合性を予測するための教師付きディープラーニングモデルであるsesnetを開発した。
本モデルでは, 相同配列からの局所的進化的コンテキスト, 普遍的なタンパク質配列空間からリッチな意味をコードするグローバルな進化的コンテキスト, タンパク質の各残基の周囲の微小環境を考慮した構造情報を統合する。
SESNetは26の深部突然変異スキャンデータセットにおけるシーケンス-関数関係を予測するための最先端モデルより優れていることを示す。
さらに,教師なしモデルからのデータを利用して事前学習することにより,データ拡張戦略を提案する。
その後, タンパク質変異体の適合性の予測において, 特に高次変異点(→4変異点)において, 少数の実験突然変異データのみを用いて微調整した場合に, 極めて高い精度で精度が得られた(50)。
提案する戦略は、要求される実験的な努力、すなわち、与えられたタンパク質上で数万の実験突然変異データを生成すること、一般の生化学グループによって一般的に手頃な価格で、ほぼあらゆるタンパク質に適用できるため、非常に実用的価値がある。
関連論文リスト
- Efficiently Predicting Protein Stability Changes Upon Single-point
Mutation with Large Language Models [51.57843608615827]
タンパク質の熱安定性を正確に予測する能力は、様々なサブフィールドや生化学への応用において重要である。
タンパク質配列と構造的特徴を統合したESMによる効率的なアプローチを導入し, 単一点突然変異によるタンパク質の熱安定性変化を予測する。
論文 参考訳(メタデータ) (2023-12-07T03:25:49Z) - Fast and Functional Structured Data Generators Rooted in
Out-of-Equilibrium Physics [62.997667081978825]
エネルギーモデルを用いて、構造化データセットで高品質なラベル特化データを生成するという課題に対処する。
伝統的な訓練方法は、マルコフ連鎖モンテカルロ混合による困難に遭遇する。
非平衡効果を利用した新しいトレーニングアルゴリズムを用いる。
論文 参考訳(メタデータ) (2023-07-13T15:08:44Z) - A Latent Diffusion Model for Protein Structure Generation [50.74232632854264]
本稿では,タンパク質モデリングの複雑さを低減できる潜在拡散モデルを提案する。
提案手法は, 高い設計性と効率性を有する新規なタンパク質のバックボーン構造を効果的に生成できることを示す。
論文 参考訳(メタデータ) (2023-05-06T19:10:19Z) - Accurate and Definite Mutational Effect Prediction with Lightweight
Equivariant Graph Neural Networks [2.381587712372268]
本研究では,野生型タンパク質の微小環境を効率的に解析する軽量なグラフ表現学習手法を提案する。
私たちのソリューションは、コミュニティにとって理想的な選択肢となる、幅広いメリットを提供します。
論文 参考訳(メタデータ) (2023-04-13T09:51:49Z) - Reprogramming Pretrained Language Models for Protein Sequence
Representation Learning [68.75392232599654]
エンドツーエンドの表現学習フレームワークである辞書学習(R2DL)による表現学習を提案する。
R2DLは、タンパク質配列の埋め込みを学ぶために、事前訓練された英語モデルを再プログラムする。
我々のモデルは,事前訓練および標準教師付き手法によって設定されたベースラインに対して,最大105ドルの精度でデータ効率を大幅に向上させることができる。
論文 参考訳(メタデータ) (2023-01-05T15:55:18Z) - Plug & Play Directed Evolution of Proteins with Gradient-based Discrete
MCMC [1.0499611180329804]
機械学習ベースのタンパク質工学の長年の目標は、新しい突然変異の発見を加速することである。
本稿では,シリコにおけるタンパク質の進化のためのサンプリングフレームワークについて紹介する。
これらのモデルを構成することで、未知の突然変異を評価し、機能的タンパク質を含む可能性のある配列空間の領域を探索する能力を向上させることを目指している。
論文 参考訳(メタデータ) (2022-12-20T00:26:23Z) - ProGen2: Exploring the Boundaries of Protein Language Models [15.82416400246896]
タンパク質言語モデルであるProGen2を導入し、最大6.4Bのパラメータに拡張する。
ProGen2モデルは、観察された進化系列の分布を捉える際に、最先端の性能を示す。
モデルのサイズが大きくなり, タンパク質配列の数が多くなりつつあるため, タンパク質配列モデルに提供されるデータ分布に重点を置く必要があることが示唆された。
論文 参考訳(メタデータ) (2022-06-27T17:55:02Z) - Learning Geometrically Disentangled Representations of Protein Folding
Simulations [72.03095377508856]
この研究は、薬物標的タンパク質の構造的アンサンブルに基づいて生成ニューラルネットワークを学習することに焦点を当てている。
モデル課題は、様々な薬物分子に結合したタンパク質の構造的変動を特徴付けることである。
その結果,我々の幾何学的学習に基づく手法は,複雑な構造変化を生成するための精度と効率の両方を享受できることがわかった。
論文 参考訳(メタデータ) (2022-05-20T19:38:00Z) - Modeling Protein Using Large-scale Pretrain Language Model [12.568452480689578]
学際的な研究者は、大規模な生物学的データセットをモデル化するためにディープラーニング手法を活用し始めている。
自然言語とタンパク質配列の類似性から着想を得て,進化的タンパク質配列をモデル化するために大規模言語モデルを用いた。
本モデルでは,進化規模個別配列の事前学習から進化情報を正確に捉えることができる。
論文 参考訳(メタデータ) (2021-08-17T04:13:11Z) - EBM-Fold: Fully-Differentiable Protein Folding Powered by Energy-based
Models [53.17320541056843]
本研究では,データ駆動型生成ネットワークを用いたタンパク質構造最適化手法を提案する。
EBM-Foldアプローチは,従来のロゼッタ構造最適化ルーチンと比較して,高品質なデコイを効率よく生成できる。
論文 参考訳(メタデータ) (2021-05-11T03:40:29Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。