論文の概要: Low-N Protein Activity Optimization with FolDE
- arxiv url: http://arxiv.org/abs/2510.24053v1
- Date: Tue, 28 Oct 2025 04:24:39 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-10-29 15:35:36.753731
- Title: Low-N Protein Activity Optimization with FolDE
- Title(参考訳): FolDEによる低Nタンパク質活性最適化
- Authors: Jacob B. Roberts, Catherine R. Ji, Isaac Donnell, Thomas D. Young, Allison N. Pearson, Graham A. Hudson, Leah S. Keiser, Mia Wesselkamper, Peter H. Winegar, Janik Ludwig, Sarah H. Klass, Isha V. Sheth, Ezechinyere C. Ukabiala, Maria C. T. Astolfi, Benjamin Eysenbach, Jay D. Keasling,
- Abstract要約: 本稿では,終末成功を最大化するALDE法であるFolDEを提案する。
20のタンパク質標的のシミュレーションにおいて、FolDEは最高のベースライン法よりも上位10%の変異体を23%多く発見している。
また、バッチの多様性を向上させる定数線形バッチセレクタも導入する。
- 参考スコア(独自算出の注目度): 15.733324207723328
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Proteins are traditionally optimized through the costly construction and measurement of many mutants. Active Learning-assisted Directed Evolution (ALDE) alleviates that cost by predicting the best improvements and iteratively testing mutants to inform predictions. However, existing ALDE methods face a critical limitation: selecting the highest-predicted mutants in each round yields homogeneous training data insufficient for accurate prediction models in subsequent rounds. Here we present FolDE, an ALDE method designed to maximize end-of-campaign success. In simulations across 20 protein targets, FolDE discovers 23% more top 10% mutants than the best baseline ALDE method (p=0.005) and is 55% more likely to find top 1% mutants. FolDE achieves this primarily through naturalness-based warm-starting, which augments limited activity measurements with protein language model outputs to improve activity prediction. We also introduce a constant-liar batch selector, which improves batch diversity; this is important in multi-mutation campaigns but had limited effect in our benchmarks. The complete workflow is freely available as open-source software, making efficient protein optimization accessible to any laboratory.
- Abstract(参考訳): タンパク質は伝統的に多くの変異体のコストの高い構築と測定によって最適化される。
Active Learning-assisted Directed Evolution (ALDE)は、最良の改善を予測することによってコストを軽減し、予測を知らせるためにミュータントを反復的にテストする。
しかし、既存のALDE法では、各ラウンドにおける最も高い予測されたミュータントの選択は、その後のラウンドにおける正確な予測モデルに不十分な均一なトレーニングデータをもたらす。
本稿では,終末成功を最大化するALDE法であるFolDEを提案する。
20のタンパク質標的のシミュレーションにおいて、FolDEは最高のベースラインALDE法(p=0.005)よりも上位10%の変異体を23%多く発見し、上位1%の変異体を見つける可能性が55%高い。
FolDEは、自然度に基づくウォームスタートによってこれを達成し、タンパク質言語モデル出力による限られた活動測定を増強し、活動予測を改善する。
また、バッチの多様性を向上させる定数線形バッチセレクタを導入し、これはマルチミューテーションキャンペーンにおいて重要であるが、ベンチマークでは限定的な効果を示した。
完全なワークフローはオープンソースソフトウェアとして自由に利用可能であり、効率的なタンパク質最適化をあらゆる実験室で利用できる。
関連論文リスト
- Meta-Learning for Cross-Task Generalization in Protein Mutation Property Prediction [9.083239192939661]
モデル非依存型メタラーニング(MAML)のタンパク質突然変異特性予測への応用について紹介する。
また,シークエンスに変異を直接組み込むために,セパレータトークンを用いた新規な突然変異符号化戦略を導入する。
我々の突然変異エンコーディングは、標準的なトランスフォーマーが未知のトークンとして突然変異位置を扱い、性能を著しく低下させる限界に対処する。
論文 参考訳(メタデータ) (2025-10-23T19:09:06Z) - ProteinZero: Self-Improving Protein Generation via Online Reinforcement Learning [49.2607661375311]
本稿では,逆折り畳みモデルの計算的拡張性,自動化,継続的な自己改善を可能にする新しいフレームワークであるProteinZeroを提案する。
ProteinZeroは、タンパク質設計のすべての主要な指標において、既存の手法を大幅に上回っている。
特に、CATH-4.3上で実行されるRL全体は、報酬を含む3日以内に1つの8X GPUノードで実行できる。
論文 参考訳(メタデータ) (2025-06-09T06:08:59Z) - A Simple yet Effective DDG Predictor is An Unsupervised Antibody Optimizer and Explainer [53.85265022754878]
高速な突然変異スクリーニングのための軽量DDG予測器(Light-DDG)を提案する。
また、Light-DDGを事前学習するための数百万の突然変異データを含む大規模データセットもリリースした。
対象抗体について,変異選好を学習するための新しい変異説明器を提案する。
論文 参考訳(メタデータ) (2025-02-10T09:26:57Z) - Efficiently Predicting Protein Stability Changes Upon Single-point
Mutation with Large Language Models [51.57843608615827]
タンパク質の熱安定性を正確に予測する能力は、様々なサブフィールドや生化学への応用において重要である。
タンパク質配列と構造的特徴を統合したESMによる効率的なアプローチを導入し, 単一点突然変異によるタンパク質の熱安定性変化を予測する。
論文 参考訳(メタデータ) (2023-12-07T03:25:49Z) - Accurate and Definite Mutational Effect Prediction with Lightweight
Equivariant Graph Neural Networks [2.381587712372268]
本研究では,野生型タンパク質の微小環境を効率的に解析する軽量なグラフ表現学習手法を提案する。
私たちのソリューションは、コミュニティにとって理想的な選択肢となる、幅広いメリットを提供します。
論文 参考訳(メタデータ) (2023-04-13T09:51:49Z) - Adaptive Selection of the Optimal Strategy to Improve Precision and
Power in Randomized Trials [2.048226951354646]
精度を最大化するために、どの変数とどの形式で調整アプローチを選択するかを示す。
このアプローチは、(nullの下で)Type-Iエラー制御を維持し、精度を大幅に向上させる。
実データに適用すると、全体およびサブグループ内で有意義な効率改善が見られる。
論文 参考訳(メタデータ) (2022-10-31T16:25:38Z) - Tranception: protein fitness prediction with autoregressive transformers
and inference-time retrieval [23.49976148784686]
タンパク質配列のフィットネスランドスケープを正確にモデル化する能力は、幅広い応用に不可欠である。
複数の配列アライメントに基づいて訓練されたタンパク質配列の深い生成モデルが、これらの課題に対処するための最も成功したアプローチである。
多様なファミリーから大量の非整合タンパク質配列を訓練した大規模な言語モデルは、これらの問題に対処する。
論文 参考訳(メタデータ) (2022-05-27T04:51:15Z) - EBM-Fold: Fully-Differentiable Protein Folding Powered by Energy-based
Models [53.17320541056843]
本研究では,データ駆動型生成ネットワークを用いたタンパク質構造最適化手法を提案する。
EBM-Foldアプローチは,従来のロゼッタ構造最適化ルーチンと比較して,高品質なデコイを効率よく生成できる。
論文 参考訳(メタデータ) (2021-05-11T03:40:29Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。