論文の概要: EvoFlows: Evolutionary Edit-Based Flow-Matching for Protein Engineering
- arxiv url: http://arxiv.org/abs/2603.11703v1
- Date: Thu, 12 Mar 2026 09:10:36 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-03-13 14:46:25.986168
- Title: EvoFlows: Evolutionary Edit-Based Flow-Matching for Protein Engineering
- Title(参考訳): EvoFlows: タンパク質工学のための進化的編集ベースのフローマッチング
- Authors: Nicolas Deutschmann, Constance Ferragu, Jonathan D. Ziegler, Shayan Aziznejad, Eli Bixby,
- Abstract要約: EvoFlowsは可変長配列から配列へのタンパク質モデリング手法である。
自己回帰型およびマスキング型言語モデルとは異なり、EvoFlowsはテンプレートタンパク質配列の挿入、削除、置換の制限された制御可能な数を実行する。
- 参考スコア(独自算出の注目度): 2.446672595462589
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: We introduce EvoFlows, a variable-length sequence-to-sequence protein modeling approach uniquely suited to protein engineering. Unlike autoregressive and masked language models, EvoFlows perform a limited, controllable number of insertions, deletions, and substitutions on a template protein sequence. In other words, EvoFlows predict not only _which_ mutation to perform, but also _where_ it should occur. Our approach leverages edit flows to learn mutational trajectories between evolutionarily-related protein sequences, simultaneously modeling distributions of related natural proteins and the mutational paths connecting them. Through extensive _in silico_ evaluation on diverse protein communities from UNIREF and OAS, we demonstrate that EvoFlows capture protein sequence distributions with a quality comparable to leading masked language models commonly used in protein engineering, while showing improved ability to generate non-trivial yet natural-like mutants from a given template protein.
- Abstract(参考訳): タンパク質工学に特有な可変長配列列配列タンパク質モデリング手法であるEvoFlowsを紹介する。
自己回帰型およびマスキング型言語モデルとは異なり、EvoFlowsはテンプレートタンパク質配列の挿入、削除、置換の制限された制御可能な数を実行する。
言い換えれば、EvoFlowsは、実行すべき_which_の突然変異だけでなく、_where_の発生も予測する。
本手法は, 編集フローを利用して, 進化的関連タンパク質配列間の変異経路を学習し, 関連する天然タンパク質の分布とそれらを結合する突然変異経路を同時にモデル化する。
UNIREF と OAS の多種多様なタンパク質群に対する _in silico_ の評価を通じて,EvoFlows がタンパク質工学でよく用いられる主要なマスキング言語モデルに匹敵する品質でタンパク質配列の分布を捉えるとともに,与えられたテンプレートタンパク質から非自明で自然な変異体を生成する能力の向上を示した。
関連論文リスト
- Self Distillation Fine-Tuning of Protein Language Models Improves Versatility in Protein Design [61.2846583160056]
Supervised Fine-tuning (SFT) は、大規模言語モデルを特殊なドメインに適応するための標準的なアプローチである。
これは、高品質なアノテートされたデータは、自然言語よりもタンパク質の入手がはるかに難しいためである。
生成したタンパク質配列の忠実度,信頼性,新規性を改善するために設計された,PLMの高速SFTのための簡易かつ汎用的なレシピを提案する。
論文 参考訳(メタデータ) (2025-12-10T05:34:47Z) - Boosting In-Silicon Directed Evolution with Fine-Tuned Protein Language Model and Tree Search [67.15159962819979]
大規模言語モデルの革新的パラダイムを活用することにより,タンパク質配列を最適化する新しいフレームワークであるAlphaDEを提案する。
第一に、AlphaDEファインチューンは、タンパク質配列のマスク言語モデルを用いて、関心のあるタンパク質クラスの進化的妥当性を活性化するタンパク質言語モデルである。
第二に、AlphaDEはモンテカルロ木探索に基づくテスト時間推論を導入し、微調整されたタンパク質言語モデルからの進化誘導でタンパク質を効果的に進化させる。
論文 参考訳(メタデータ) (2025-11-13T03:00:52Z) - evoBPE: Evolutionary Protein Sequence Tokenization [3.4196611972116786]
現在のサブワードトークン化技術は主に自然言語処理のために開発されたが、タンパク質配列の複雑な構造と機能的特性を適切に表現できないことが多い。
本研究は、進化的突然変異パターンを配列分割に統合する新しいトークン化手法であるevoBPEを紹介する。
evoBPEは、タンパク質機能予測、構造モデリング、進化解析における機械学習応用の新しい可能性を開く。
論文 参考訳(メタデータ) (2025-03-11T19:19:48Z) - Sequence-Augmented SE(3)-Flow Matching For Conditional Protein Backbone Generation [55.93511121486321]
タンパク質構造生成のための新しいシーケンス条件付きフローマッチングモデルFoldFlow-2を紹介する。
我々は、以前の作業のPDBデータセットよりも桁違いに大きい新しいデータセットでFoldFlow-2を大規模にトレーニングします。
我々はFoldFlow-2が従来のタンパク質構造に基づく生成モデルよりも優れていることを実証的に観察した。
論文 参考訳(メタデータ) (2024-05-30T17:53:50Z) - Learning to Predict Mutation Effects of Protein-Protein Interactions by Microenvironment-aware Hierarchical Prompt Learning [78.38442423223832]
我々は、新しいコードブック事前学習タスク、すなわちマスク付きマイクロ環境モデリングを開発する。
突然変異効果予測において、最先端の事前学習法よりも優れた性能と訓練効率を示す。
論文 参考訳(メタデータ) (2024-05-16T03:53:21Z) - Efficiently Predicting Mutational Effect on Homologous Proteins by Evolution Encoding [7.067145619709089]
EvolMPNNは進化を意識したタンパク質の埋め込みを学習するための効率的なモデルである。
我々のモデルは最先端の手法よりも最大6.4%向上し,36倍の高速化を実現している。
論文 参考訳(メタデータ) (2024-02-20T23:06:21Z) - Plug & Play Directed Evolution of Proteins with Gradient-based Discrete
MCMC [1.0499611180329804]
機械学習ベースのタンパク質工学の長年の目標は、新しい突然変異の発見を加速することである。
本稿では,シリコにおけるタンパク質の進化のためのサンプリングフレームワークについて紹介する。
これらのモデルを構成することで、未知の突然変異を評価し、機能的タンパク質を含む可能性のある配列空間の領域を探索する能力を向上させることを目指している。
論文 参考訳(メタデータ) (2022-12-20T00:26:23Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。