論文の概要: Boosting In-Silicon Directed Evolution with Fine-Tuned Protein Language Model and Tree Search
- arxiv url: http://arxiv.org/abs/2511.09900v2
- Date: Wed, 19 Nov 2025 08:00:47 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-11-20 13:41:21.066109
- Title: Boosting In-Silicon Directed Evolution with Fine-Tuned Protein Language Model and Tree Search
- Title(参考訳): 微細構造タンパク質言語モデルと木探索によるシリコン内直接進化の促進
- Authors: Yaodong Yang, Yang Wang, Jinpeng Li, Pei Guo, Da Han, Guangyong Chen, Pheng-Ann Heng,
- Abstract要約: 大規模言語モデルの革新的パラダイムを活用することにより,タンパク質配列を最適化する新しいフレームワークであるAlphaDEを提案する。
第一に、AlphaDEファインチューンは、タンパク質配列のマスク言語モデルを用いて、関心のあるタンパク質クラスの進化的妥当性を活性化するタンパク質言語モデルである。
第二に、AlphaDEはモンテカルロ木探索に基づくテスト時間推論を導入し、微調整されたタンパク質言語モデルからの進化誘導でタンパク質を効果的に進化させる。
- 参考スコア(独自算出の注目度): 67.15159962819979
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Protein evolution through amino acid sequence mutations is a cornerstone of life sciences. While current in-silicon directed evolution algorithms largely focus on designing heuristic search strategies, they overlook how to integrate the transformative protein language models, which encode rich evolutionary patterns, with reinforcement learning to learn to directly evolve proteins. To bridge this gap, we propose AlphaDE, a novel framework to optimize protein sequences by harnessing the innovative paradigms of large language models such as fine-tuning and test-time inference. First, AlphaDE fine-tunes pretrained protein language models using masked language modeling on homologous protein sequences to activate the evolutionary plausibility for the interested protein class. Second, AlphaDE introduces test-time inference based on Monte Carlo tree search, which effectively evolves proteins with evolutionary guidance from the fine-tuned protein language model. Extensive benchmark experiments show that AlphaDE remarkably outperforms previous state-of-the-art methods even with few-shot fine-tuning. A further case study demonstrates that AlphaDE supports condensing the protein sequence space of avGFP through computational evolution.
- Abstract(参考訳): アミノ酸配列変異によるタンパク質の進化は生命科学の基盤となっている。
現在のシリコン内指向の進化アルゴリズムは主にヒューリスティックな検索戦略の設計に重点を置いているが、彼らはタンパク質を直接進化させるための強化学習とリッチな進化パターンをエンコードする変換タンパク質言語モデルをどのように統合するかを見落としている。
このギャップを埋めるため、我々は、微細チューニングやテストタイム推論といった大規模言語モデルの革新的なパラダイムを活用することにより、タンパク質配列を最適化する新しいフレームワークであるAlphaDEを提案する。
第一に、AlphaDEファインチューンを用いたタンパク質言語モデルにおいて、相同性タンパク質配列のマスク言語モデルを用いて、興味のあるタンパク質クラスの進化的妥当性を活性化する。
第二に、AlphaDEはモンテカルロ木探索に基づくテスト時間推論を導入し、微調整されたタンパク質言語モデルから進化誘導されたタンパク質を効果的に進化させる。
大規模なベンチマーク実験により、AlphaDEは数発の微調整でも従来の最先端手法よりも著しく優れていることが示された。
さらなるケーススタディでは、AlphaDEが計算進化を通じてavGFPのタンパク質配列空間の凝縮を支援することが示されている。
関連論文リスト
- Lightweight MSA Design Advances Protein Folding From Evolutionary Embeddings [51.731441632457226]
マルチシークエンスアライメント(MSA)は低ホモロジーおよび孤児タンパク質で機能する。
我々は、下流の折り畳みをより良くサポートするMSAを生成する軽量なMSA設計フレームワークPLAMEを紹介する。
AlphaFold2の低ホモロジー/孤児ベンチマークでは、PLAMEは構造精度の最先端の改善を提供する。
論文 参考訳(メタデータ) (2025-06-17T04:11:30Z) - Large Language Model is Secretly a Protein Sequence Optimizer [24.55348363931866]
本研究では,与えられた野生型配列から,高い適合度を持つタンパク質配列を見つけることを目的としたタンパク質配列工学的問題を考える。
大規模言語モデル(LLM)は、大量のテキストで訓練されているにもかかわらず、秘密裏にタンパク質配列であることを示す。
論文 参考訳(メタデータ) (2025-01-16T03:44:16Z) - SFM-Protein: Integrative Co-evolutionary Pre-training for Advanced Protein Sequence Representation [97.99658944212675]
タンパク質基盤モデルのための新しい事前学習戦略を導入する。
アミノ酸残基間の相互作用を強調し、短距離および長距離の共進化的特徴の抽出を強化する。
大規模タンパク質配列データセットを用いて学習し,より優れた一般化能力を示す。
論文 参考訳(メタデータ) (2024-10-31T15:22:03Z) - Efficiently Predicting Mutational Effect on Homologous Proteins by Evolution Encoding [7.067145619709089]
EvolMPNNは進化を意識したタンパク質の埋め込みを学習するための効率的なモデルである。
我々のモデルは最先端の手法よりも最大6.4%向上し,36倍の高速化を実現している。
論文 参考訳(メタデータ) (2024-02-20T23:06:21Z) - A Latent Diffusion Model for Protein Structure Generation [50.74232632854264]
本稿では,タンパク質モデリングの複雑さを低減できる潜在拡散モデルを提案する。
提案手法は, 高い設計性と効率性を有する新規なタンパク質のバックボーン構造を効果的に生成できることを示す。
論文 参考訳(メタデータ) (2023-05-06T19:10:19Z) - Plug & Play Directed Evolution of Proteins with Gradient-based Discrete
MCMC [1.0499611180329804]
機械学習ベースのタンパク質工学の長年の目標は、新しい突然変異の発見を加速することである。
本稿では,シリコにおけるタンパク質の進化のためのサンプリングフレームワークについて紹介する。
これらのモデルを構成することで、未知の突然変異を評価し、機能的タンパク質を含む可能性のある配列空間の領域を探索する能力を向上させることを目指している。
論文 参考訳(メタデータ) (2022-12-20T00:26:23Z) - Learning Geometrically Disentangled Representations of Protein Folding
Simulations [72.03095377508856]
この研究は、薬物標的タンパク質の構造的アンサンブルに基づいて生成ニューラルネットワークを学習することに焦点を当てている。
モデル課題は、様々な薬物分子に結合したタンパク質の構造的変動を特徴付けることである。
その結果,我々の幾何学的学習に基づく手法は,複雑な構造変化を生成するための精度と効率の両方を享受できることがわかった。
論文 参考訳(メタデータ) (2022-05-20T19:38:00Z) - Using Genetic Programming to Predict and Optimize Protein Function [65.25258357832584]
我々は,進化的手法に基づく遺伝的プログラミングツールPOETを提案し,方向性進化におけるスクリーニングと変異原性を高める。
概念実証として, 化学交換飽和移動機構によって検出されたMRIコントラストを生成するペプチドを用いる。
以上の結果から,POETのような計算モデリングツールは,従来よりも400%優れた機能性を持つペプチドを見つけるのに有効であることが示唆された。
論文 参考訳(メタデータ) (2022-02-08T18:08:08Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。