論文の概要: Towards A Generative Protein Evolution Machine with DPLM-Evo
- arxiv url: http://arxiv.org/abs/2605.00182v1
- Date: Thu, 30 Apr 2026 19:59:07 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-05-04 17:43:28.733852
- Title: Towards A Generative Protein Evolution Machine with DPLM-Evo
- Title(参考訳): DPLM-Evoを用いた生成タンパク質進化機械の実現に向けて
- Authors: Xinyou Wang, Liang Hong, Jiasheng Ye, Zaixiang Zheng, Yu Li, Shujian Huang, Quanquan Gu,
- Abstract要約: 本報告では,denoising中の置換,挿入,削除操作を明示的に予測する進化的離散拡散フレームワークDPLM-Evoについて述べる。
DPLM-Evoは、単一シーケンス設定におけるProteinGymのシーケンス理解と最先端の突然変異効果予測性能を改善した。
- 参考スコア(独自算出の注目度): 73.57855006698269
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Proteins are shaped by gradual evolution under biophysical and functional constraints. Protein language models learn rich evolutionary constraints from large-scale sequences, and discrete diffusion-based protein language models~(\eg, DPLMs) are promising for both understanding and generation. However, existing DPLMs typically rely on masking-based absorbing diffusion that contradicts a simple biological intuition: proteins evolve through accumulated edits, not by emerging from masks. Consequently, these frameworks lack explicit pretraining objectives for substitution and insertion/deletion (indel) operations, limiting both optimization-style post-editing and flexible guided generation. To address these limitations, we present DPLM-Evo, an evolutionary discrete diffusion framework that explicitly predicts substitution, insertion, and deletion operations during denoising. DPLM-Evo decouples an upsampled-length latent alignment space from the variable-length observed sequence space, which makes indel-aware generation tractable and enables adaptive scaffold growth throughout the process with negligible computational overhead. To better align substitutions with real evolution, we further introduce a contextualized evolutionary noising kernel that produces biologically informed, context-dependent mutation patterns. Across tasks, DPLM-Evo improves sequence understanding and achieves state-of-the-art mutation effect prediction performance on ProteinGym in the single-sequence setting. It also enables variable-length simulated evolution, and post-editing/optimization of existing proteins via explicit edit trajectories.
- Abstract(参考訳): タンパク質は、生物学的および機能的制約の下で段階的な進化によって形成される。
タンパク質言語モデルは大規模配列から豊富な進化的制約を学習し、離散拡散に基づくタンパク質言語モデル~(\eg, DPLM)は理解と生成の両方に有望である。
しかし、既存のDPLMは一般的に、単純な生物学的直観に反するマスクベースの吸収拡散に依存している。
その結果、これらのフレームワークには置換と挿入/削除(インデル)操作のための明示的な事前訓練の目的がなく、最適化スタイルのポスト編集と柔軟なガイド生成の両方が制限されている。
これらの制約に対処するため,denoising中の置換,挿入,削除操作を明示的に予測する進化的離散拡散フレームワークDPLM-Evoを提案する。
DPLM-Evoは、可変長の観測シーケンス空間から、アップサンプリング長の遅延アライメント空間を分離し、インデル・アウェア・ジェネレーションを抽出可能とし、計算オーバーヘッドが無視できるプロセス全体を通して適応的な足場成長を可能にする。
置換と実際の進化をよりよく整合させるために、生物学的に情報を得た文脈依存突然変異パターンを生成する文脈化された進化的ノイズ発生カーネルを導入する。
タスク全体にわたって、DPLM-Evoはシーケンス理解を改善し、単一シーケンス設定におけるProteinGymの最先端の突然変異効果予測性能を達成する。
また、可変長のシミュレートされた進化や、明示的な編集軌跡による既存のタンパク質の編集/最適化も可能である。
関連論文リスト
- Evolutionary Profiles for Protein Fitness Prediction [45.945064429964084]
EvoIFは、配列構造表現を進化的信号と融合させ、ログノードスコアリングのキャリブレーションされた確率を得る。
タンパク質Gym (217変異アッセイ; >2.5M変異株)について、EvoIFとそのMSA対応変異体は、トレーニング深度のわずか0.1%を使用しながら、最先端または競争的な性能を達成する。
論文 参考訳(メタデータ) (2025-10-08T17:46:02Z) - evoBPE: Evolutionary Protein Sequence Tokenization [3.4196611972116786]
現在のサブワードトークン化技術は主に自然言語処理のために開発されたが、タンパク質配列の複雑な構造と機能的特性を適切に表現できないことが多い。
本研究は、進化的突然変異パターンを配列分割に統合する新しいトークン化手法であるevoBPEを紹介する。
evoBPEは、タンパク質機能予測、構造モデリング、進化解析における機械学習応用の新しい可能性を開く。
論文 参考訳(メタデータ) (2025-03-11T19:19:48Z) - A Simple yet Effective DDG Predictor is An Unsupervised Antibody Optimizer and Explainer [53.85265022754878]
高速な突然変異スクリーニングのための軽量DDG予測器(Light-DDG)を提案する。
また、Light-DDGを事前学習するための数百万の突然変異データを含む大規模データセットもリリースした。
対象抗体について,変異選好を学習するための新しい変異説明器を提案する。
論文 参考訳(メタデータ) (2025-02-10T09:26:57Z) - MutaPLM: Protein Language Modeling for Mutation Explanation and Engineering [12.738902517872509]
MutaPLMは、タンパク質変異をタンパク質言語モデルで解釈し、ナビゲートするための統一的なフレームワークである。
MutaPLMは、統一された特徴空間内で明示的なタンパク質突然変異表現をキャプチャするタンパク質デルタネットワークを導入する。
MutaPLMは、人為的に理解可能な突然変異効果の説明を提供し、望ましい性質を持つ新規な突然変異の優先順位付けに優れている。
論文 参考訳(メタデータ) (2024-10-30T12:05:51Z) - Structure Language Models for Protein Conformation Generation [66.42864253026053]
伝統的な物理学に基づくシミュレーション手法は、しばしばサンプリング平衡整合に苦しむ。
深い生成モデルは、より効率的な代替としてタンパク質のコンホメーションを生成することを約束している。
本稿では,効率的なタンパク質コンホメーション生成のための新しいフレームワークとして構造言語モデリングを紹介する。
論文 参考訳(メタデータ) (2024-10-24T03:38:51Z) - Diffusion Language Models Are Versatile Protein Learners [75.98083311705182]
本稿では,タンパク質配列の強い生成および予測能力を示す多目的なタンパク質言語モデルである拡散タンパク質言語モデル(DPLM)を紹介する。
まず, 自己制御型離散拡散確率フレームワークを用いて, 進化的タンパク質配列からのスケーラブルDPLMの事前学習を行った。
プレトレーニング後、DPLMは非条件生成のための構造的に可塑性で新規で多様なタンパク質配列を生成する能力を示す。
論文 参考訳(メタデータ) (2024-02-28T18:57:56Z) - Efficiently Predicting Mutational Effect on Homologous Proteins by Evolution Encoding [7.067145619709089]
EvolMPNNは進化を意識したタンパク質の埋め込みを学習するための効率的なモデルである。
我々のモデルは最先端の手法よりも最大6.4%向上し,36倍の高速化を実現している。
論文 参考訳(メタデータ) (2024-02-20T23:06:21Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。