論文の概要: Importance Weighted Expectation-Maximization for Protein Sequence Design
- arxiv url: http://arxiv.org/abs/2305.00386v3
- Date: Wed, 17 Jul 2024 16:21:28 GMT
- ステータス: 処理完了
- システム内更新日: 2024-07-18 23:50:47.885967
- Title: Importance Weighted Expectation-Maximization for Protein Sequence Design
- Title(参考訳): タンパク質配列設計における重み付け期待値の最大化
- Authors: Zhenqiao Song, Lei Li,
- Abstract要約: そこで本研究では,IsEM-Proという,特定の適合基準に向けてタンパク質配列を生成する手法を提案する。
中心となるIsEM-Proは、独立に学習されたマルコフランダムフィールド(MRF)の構造特徴によって強化された潜在生成モデルである。
8つのタンパク質配列設計タスクの実験により、我々のIsEM-Proは、平均的なフィットネススコアで少なくとも55%以上のパフォーマンスで過去のベストメソッドよりも優れていたことが示される。
- 参考スコア(独自算出の注目度): 8.731580091353523
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Designing protein sequences with desired biological function is crucial in biology and chemistry. Recent machine learning methods use a surrogate sequence-function model to replace the expensive wet-lab validation. How can we efficiently generate diverse and novel protein sequences with high fitness? In this paper, we propose IsEM-Pro, an approach to generate protein sequences towards a given fitness criterion. At its core, IsEM-Pro is a latent generative model, augmented by combinatorial structure features from a separately learned Markov random fields (MRFs). We develop an Monte Carlo Expectation-Maximization method (MCEM) to learn the model. During inference, sampling from its latent space enhances diversity while its MRFs features guide the exploration in high fitness regions. Experiments on eight protein sequence design tasks show that our IsEM-Pro outperforms the previous best methods by at least 55% on average fitness score and generates more diverse and novel protein sequences.
- Abstract(参考訳): 所望の生物学的機能を持つタンパク質配列を設計することは、生物学や化学において重要である。
最近の機械学習手法では、高価なウェットラブ検証を置き換えるために、サロゲートシーケンス関数モデルを使用している。
高度に適合した多種多様な新規タンパク質配列を効率的に生成する方法
本稿では,特定の適合基準に対するタンパク質配列生成手法であるIsEM-Proを提案する。
中心となるIsEM-Proは、独立に学習されたマルコフランダムフィールド(MRF)の組合せ構造特徴によって強化された潜在生成モデルである。
モデル学習のためのモンテカルロ予測最大化法(MCEM)を開発した。
推論中、潜伏空間からのサンプリングは多様性を高め、MDFの特徴は高いフィットネス領域での探索を導く。
8つのタンパク質配列設計タスクの実験により、我々のIsEM-Proは、平均適合度スコアを55%以上上回り、より多様な新しいタンパク質配列を生成する。
関連論文リスト
- SFM-Protein: Integrative Co-evolutionary Pre-training for Advanced Protein Sequence Representation [97.99658944212675]
タンパク質基盤モデルのための新しい事前学習戦略を導入する。
アミノ酸残基間の相互作用を強調し、短距離および長距離の共進化的特徴の抽出を強化する。
大規模タンパク質配列データセットを用いて学習し,より優れた一般化能力を示す。
論文 参考訳(メタデータ) (2024-10-31T15:22:03Z) - Reinforcement Learning for Sequence Design Leveraging Protein Language Models [14.477268882311991]
本稿では,タンパク質言語モデル(PLM)を報酬関数として利用し,新たな配列を生成することを提案する。
我々はRLベースのアプローチをベンチマークするために、様々なシーケンス長に関する広範な実験を行う。
生物学的妥当性とタンパク質の多様性に関する総合的な評価を行った。
論文 参考訳(メタデータ) (2024-07-03T14:31:36Z) - Diffusion on language model embeddings for protein sequence generation [0.5442686600296733]
連続拡散を利用したアミノ酸配列生成モデルであるDiMAを導入する。
優れたパフォーマンスをもたらす設計選択の影響を定量的に説明します。
我々のアプローチは、タンパク質空間の構造的および機能的多様性を正確に反映する、新規で多様なタンパク質配列を一貫して生成する。
論文 参考訳(メタデータ) (2024-03-06T14:15:20Z) - Diffusion Language Models Are Versatile Protein Learners [75.98083311705182]
本稿では,タンパク質配列の強い生成および予測能力を示す多目的なタンパク質言語モデルである拡散タンパク質言語モデル(DPLM)を紹介する。
まず, 自己制御型離散拡散確率フレームワークを用いて, 進化的タンパク質配列からのスケーラブルDPLMの事前学習を行った。
プレトレーニング後、DPLMは非条件生成のための構造的に可塑性で新規で多様なタンパク質配列を生成する能力を示す。
論文 参考訳(メタデータ) (2024-02-28T18:57:56Z) - xTrimoPGLM: Unified 100B-Scale Pre-trained Transformer for Deciphering
the Language of Protein [76.18058946124111]
本稿では,タンパク質の理解と生成を同時に行うために,統一されたタンパク質言語モデル xTrimoPGLM を提案する。
xTrimoPGLMは、4つのカテゴリにわたる18のタンパク質理解ベンチマークにおいて、他の高度なベースラインを著しく上回っている。
また、自然の原理に従ってデノボタンパク質配列を生成でき、微調整を監督した後にプログラム可能な生成を行うことができる。
論文 参考訳(メタデータ) (2024-01-11T15:03:17Z) - A Latent Diffusion Model for Protein Structure Generation [50.74232632854264]
本稿では,タンパク質モデリングの複雑さを低減できる潜在拡散モデルを提案する。
提案手法は, 高い設計性と効率性を有する新規なタンパク質のバックボーン構造を効果的に生成できることを示す。
論文 参考訳(メタデータ) (2023-05-06T19:10:19Z) - Protein Sequence Design with Batch Bayesian Optimisation [0.0]
タンパク質配列設計は、有用な生物学的機能を持つ新規タンパク質の発見を目的とした、タンパク質工学における挑戦的な問題である。
有向進化は、実験室環境における進化のサイクルを模倣し、反復的プロトコルを実行する、タンパク質配列設計のための広く使われているアプローチである。
本稿では,タンパク質配列設計のための最適化手法であるBatch Bayesian Optimization (Batch BO) に基づく新しい手法を提案する。
論文 参考訳(メタデータ) (2023-03-18T14:53:20Z) - Plug & Play Directed Evolution of Proteins with Gradient-based Discrete
MCMC [1.0499611180329804]
機械学習ベースのタンパク質工学の長年の目標は、新しい突然変異の発見を加速することである。
本稿では,シリコにおけるタンパク質の進化のためのサンプリングフレームワークについて紹介する。
これらのモデルを構成することで、未知の突然変異を評価し、機能的タンパク質を含む可能性のある配列空間の領域を探索する能力を向上させることを目指している。
論文 参考訳(メタデータ) (2022-12-20T00:26:23Z) - Diversifying Design of Nucleic Acid Aptamers Using Unsupervised Machine
Learning [54.247560894146105]
短い一本鎖RNAとDNA配列(アプタマー)の逆設計は、一連の望ましい基準を満たす配列を見つけるタスクである。
我々は、Pottsモデルとして知られる教師なし機械学習モデルを用いて、制御可能なシーケンスの多様性を持つ新しい有用なシーケンスを発見することを提案する。
論文 参考訳(メタデータ) (2022-08-10T13:30:58Z) - Few Shot Protein Generation [4.7210697296108926]
マルチシークエンスアライメント(MSA)で表されるタンパク質ファミリーに条件付けられたタンパク質配列の生成モデルであるMSA-to-タンパク質トランスフォーマーについて述べる。
タンパク質ファミリーの生成モデルを学習するための既存のアプローチとは異なり、MSA-to-タンパク質トランスフォーマー条件は、多重配列アライメントの学習エンコーディングを直接生成する。
我々の生成的アプローチは、エピスタシスとインデルを正確にモデル化し、他のアプローチとは異なり、正確な推論と効率的なサンプリングを可能にします。
論文 参考訳(メタデータ) (2022-04-03T22:14:02Z) - EBM-Fold: Fully-Differentiable Protein Folding Powered by Energy-based
Models [53.17320541056843]
本研究では,データ駆動型生成ネットワークを用いたタンパク質構造最適化手法を提案する。
EBM-Foldアプローチは,従来のロゼッタ構造最適化ルーチンと比較して,高品質なデコイを効率よく生成できる。
論文 参考訳(メタデータ) (2021-05-11T03:40:29Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。