論文の概要: ProSpero: Active Learning for Robust Protein Design Beyond Wild-Type Neighborhoods
- arxiv url: http://arxiv.org/abs/2505.22494v1
- Date: Wed, 28 May 2025 15:45:43 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-05-29 17:35:50.704893
- Title: ProSpero: Active Learning for Robust Protein Design Beyond Wild-Type Neighborhoods
- Title(参考訳): ProSpero:Wild-Type Neighborhoodsを超えるロバストなタンパク質設計のためのアクティブラーニング
- Authors: Michal Kmicikiewicz, Vincent Fortuin, Ewa Szczurek,
- Abstract要約: 本稿では,タンパク質工学の能動的学習フレームワークであるProSperoを提案する。
適合性関連残基選択と生物学的に制約されたシークエンシャルモンテカルロサンプリングを統合することにより,本手法は野生型近傍の探索を可能にする。
ProSperoは、さまざまなタンパク質工学タスクで既存のメソッドを一貫して上回るか、マッチする。
- 参考スコア(独自算出の注目度): 6.272841340448698
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Designing protein sequences of both high fitness and novelty is a challenging task in data-efficient protein engineering. Exploration beyond wild-type neighborhoods often leads to biologically implausible sequences or relies on surrogate models that lose fidelity in novel regions. Here, we propose ProSpero, an active learning framework in which a frozen pre-trained generative model is guided by a surrogate updated from oracle feedback. By integrating fitness-relevant residue selection with biologically-constrained Sequential Monte Carlo sampling, our approach enables exploration beyond wild-type neighborhoods while preserving biological plausibility. We show that our framework remains effective even when the surrogate is misspecified. ProSpero consistently outperforms or matches existing methods across diverse protein engineering tasks, retrieving sequences of both high fitness and novelty.
- Abstract(参考訳): 高適合性と新規性の両方のタンパク質配列を設計することは、データ効率のよいタンパク質工学において難しい課題である。
野生型近傍の探索は、しばしば生物学的に証明不可能な配列をもたらすか、新しい領域における忠実さを失う代理モデルに依存している。
本稿では, オラクルフィードバックから更新したサロゲートを用いて, 凍結した事前学習生成モデルを誘導する能動的学習フレームワークProSperoを提案する。
適合性関連残基選択と生物学的に制約された連続モンテカルロサンプリングを組み合わせることにより,本手法は生物の可視性を保ちながら野生型近傍の探索を可能にする。
我々は,サロゲートが誤って特定された場合でも,我々の枠組みが有効であることを示す。
ProSperoは、さまざまなタンパク質工学タスクにまたがる既存の手法を一貫して上回り、適合性と新規性の両方のシーケンスを検索する。
関連論文リスト
- Reinforcement Learning for Sequence Design Leveraging Protein Language Models [14.477268882311991]
本稿では,タンパク質言語モデル(PLM)を報酬関数として利用し,新たな配列を生成することを提案する。
我々はRLベースのアプローチをベンチマークするために、様々なシーケンス長に関する広範な実験を行う。
生物学的妥当性とタンパク質の多様性に関する総合的な評価を行った。
論文 参考訳(メタデータ) (2024-07-03T14:31:36Z) - xTrimoPGLM: Unified 100B-Scale Pre-trained Transformer for Deciphering the Language of Protein [74.64101864289572]
本稿では,タンパク質の理解と生成を同時に行うために,統一されたタンパク質言語モデル xTrimoPGLM を提案する。
xTrimoPGLMは、4つのカテゴリにわたる18のタンパク質理解ベンチマークにおいて、他の高度なベースラインを著しく上回っている。
また、自然の原理に従ってデノボタンパク質配列を生成でき、微調整を監督した後にプログラム可能な生成を行うことができる。
論文 参考訳(メタデータ) (2024-01-11T15:03:17Z) - Improving few-shot learning-based protein engineering with evolutionary
sampling [0.0]
本稿では,高価なウェットラボテストサイクルを加速することを目的とした,新規なタンパク質設計のための数発の学習手法を提案する。
提案手法は, 所望のタンパク質機能に対する個別のフィットネスランドスケープを生成する半教師ありトランスファー学習法と, 新たな進化的モンテカルロ連鎖サンプリングアルゴリズムとから構成される。
予測された高適合性遺伝子アクチベーターを実験的にスクリーニングすることにより,本手法の有効性を実証した。
論文 参考訳(メタデータ) (2023-05-23T23:07:53Z) - Robust Model-Based Optimization for Challenging Fitness Landscapes [96.63655543085258]
タンパク質の設計には、フィットネスのランドスケープの最適化が含まれる。
指導法は, トレーニングセットにおける高適合度サンプルの多彩さに課題を呈する。
デザイン空間における「分離」というこの問題は、既存のモデルベース最適化ツールにおいて重大なボトルネックとなっていることを示す。
本稿では,新しいVAEを検索モデルとして利用して問題を克服する手法を提案する。
論文 参考訳(メタデータ) (2023-05-23T03:47:32Z) - A Latent Diffusion Model for Protein Structure Generation [50.74232632854264]
本稿では,タンパク質モデリングの複雑さを低減できる潜在拡散モデルを提案する。
提案手法は, 高い設計性と効率性を有する新規なタンパク質のバックボーン構造を効果的に生成できることを示す。
論文 参考訳(メタデータ) (2023-05-06T19:10:19Z) - Plug & Play Directed Evolution of Proteins with Gradient-based Discrete
MCMC [1.0499611180329804]
機械学習ベースのタンパク質工学の長年の目標は、新しい突然変異の発見を加速することである。
本稿では,シリコにおけるタンパク質の進化のためのサンプリングフレームワークについて紹介する。
これらのモデルを構成することで、未知の突然変異を評価し、機能的タンパク質を含む可能性のある配列空間の領域を探索する能力を向上させることを目指している。
論文 参考訳(メタデータ) (2022-12-20T00:26:23Z) - Designing Biological Sequences via Meta-Reinforcement Learning and
Bayesian Optimization [68.28697120944116]
メタ強化学習を用いて自己回帰生成モデルを訓練し、選択のための有望なシーケンスを提案する。
我々は,データのサブセットのサンプリングによって誘導されるMDPの分布に対する最適ポリシーを求める問題として,この問題を提起する。
このようなアンサンブルに対するメタラーニングは,報酬の過小評価に対して頑健であり,競争的な結果が得られることを示す。
論文 参考訳(メタデータ) (2022-09-13T18:37:27Z) - AdaLead: A simple and robust adaptive greedy search algorithm for
sequence design [55.41644538483948]
我々は、容易で、拡張性があり、堅牢な進化的欲求アルゴリズム(AdaLead)を開発した。
AdaLeadは、様々な生物学的に動機づけられたシーケンスデザインの課題において、アートアプローチのより複雑な状態を克服する、驚くほど強力なベンチマークである。
論文 参考訳(メタデータ) (2020-10-05T16:40:38Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。