論文の概要: Evolutionary Profiles for Protein Fitness Prediction
- arxiv url: http://arxiv.org/abs/2510.07286v1
- Date: Wed, 08 Oct 2025 17:46:02 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-10-09 16:41:20.673513
- Title: Evolutionary Profiles for Protein Fitness Prediction
- Title(参考訳): タンパク質の繊維度予測のための進化的プロファイル
- Authors: Jigang Fan, Xiaoran Jiao, Shengdong Lin, Zhanming Liang, Weian Mao, Chenchen Jing, Hao Chen, Chunhua Shen,
- Abstract要約: EvoIFは、配列構造表現を進化的信号と融合させ、ログノードスコアリングのキャリブレーションされた確率を得る。
タンパク質Gym (217変異アッセイ; >2.5M変異株)について、EvoIFとそのMSA対応変異体は、トレーニング深度のわずか0.1%を使用しながら、最先端または競争的な性能を達成する。
- 参考スコア(独自算出の注目度): 45.945064429964084
- License: http://creativecommons.org/licenses/by-nc-nd/4.0/
- Abstract: Predicting the fitness impact of mutations is central to protein engineering but constrained by limited assays relative to the size of sequence space. Protein language models (pLMs) trained with masked language modeling (MLM) exhibit strong zero-shot fitness prediction; we provide a unifying view by interpreting natural evolution as implicit reward maximization and MLM as inverse reinforcement learning (IRL), in which extant sequences act as expert demonstrations and pLM log-odds serve as fitness estimates. Building on this perspective, we introduce EvoIF, a lightweight model that integrates two complementary sources of evolutionary signal: (i) within-family profiles from retrieved homologs and (ii) cross-family structural-evolutionary constraints distilled from inverse folding logits. EvoIF fuses sequence-structure representations with these profiles via a compact transition block, yielding calibrated probabilities for log-odds scoring. On ProteinGym (217 mutational assays; >2.5M mutants), EvoIF and its MSA-enabled variant achieve state-of-the-art or competitive performance while using only 0.15% of the training data and fewer parameters than recent large models. Ablations confirm that within-family and cross-family profiles are complementary, improving robustness across function types, MSA depths, taxa, and mutation depths. The codes will be made publicly available at https://github.com/aim-uofa/EvoIF.
- Abstract(参考訳): 突然変異の適合性の影響を予測することは、タンパク質工学の中心であるが、配列空間の大きさに対する限られたアッセイによって制限される。
マスク言語モデリング(MLM)で訓練されたタンパク質言語モデル(pLM)は、強いゼロショット適合性予測を示し、自然進化を暗黙の報酬最大化として解釈し、MLMを逆強化学習(IRL)として解釈することで統一的な視点を提供する。
この観点から、進化的信号の相補的な2つの源を統合する軽量モデルであるEvoIFを導入する。
(i)検索されたホモログ及び家族内プロファイル
(II)逆折りたたみロジットから蒸留したクロスファミリー構造進化的制約。
EvoIFはこれらのプロファイルをコンパクトなトランジションブロックを通じて融合し、ログノードスコアリングのキャリブレーションされた確率を得る。
ProteinGym (217変異アッセイ; >2.5M変異株)について、EvoIFとそのMSA対応変異体は、最近の大規模モデルに比べて、トレーニングデータのわずか0.1%と少ないパラメータを使用しながら、最先端または競争的な性能を達成する。
アブレーションは、家族内および家族間のプロファイルが相補的であることを確認し、機能タイプ、MSA深さ、分類、突然変異深さの堅牢性を改善している。
コードはhttps://github.com/aim-uofa/EvoIF.comで公開される。
関連論文リスト
- Understanding protein function with a multimodal retrieval-augmented foundation model [4.281723404774888]
PoET-2は、家族固有の進化的制約の文脈内学習を取り入れた検索強化タンパク質基盤モデルである。
PoET-2はゼロショット変動効果予測において最先端の性能を達成する。
論文 参考訳(メタデータ) (2025-08-05T15:11:25Z) - Lightweight MSA Design Advances Protein Folding From Evolutionary Embeddings [51.731441632457226]
マルチシークエンスアライメント(MSA)は低ホモロジーおよび孤児タンパク質で機能する。
我々は、下流の折り畳みをより良くサポートするMSAを生成する軽量なMSA設計フレームワークPLAMEを紹介する。
AlphaFold2の低ホモロジー/孤児ベンチマークでは、PLAMEは構造精度の最先端の改善を提供する。
論文 参考訳(メタデータ) (2025-06-17T04:11:30Z) - Retrieval-Enhanced Mutation Mastery: Augmenting Zero-Shot Prediction of Protein Language Model [3.4494754789770186]
タンパク質モデリングの深層学習法は従来の手法に比べて低コストで優れた結果を示した。
突然変異効果予測において、事前学習されたディープラーニングモデルの鍵は、タンパク質配列、構造、機能の間の複雑な関係を正確に解釈することにある。
本研究では,配列と局所構造相互作用から自然特性を包括的に解析する検索強化タンパク質言語モデルを提案する。
論文 参考訳(メタデータ) (2024-10-28T15:28:51Z) - MSAGPT: Neural Prompting Protein Structure Prediction via MSA Generative Pre-Training [48.398329286769304]
マルチシークエンスアライメント(MSA)は、タンパク質ファミリーの進化的軌道を明らかにする上で重要な役割を担っている。
MSAGPTは、低MSA状態下でのMSA生成前訓練を通じてタンパク質構造予測を促進する新しいアプローチである。
論文 参考訳(メタデータ) (2024-06-08T04:23:57Z) - Diffusion Language Models Are Versatile Protein Learners [75.98083311705182]
本稿では,タンパク質配列の強い生成および予測能力を示す多目的なタンパク質言語モデルである拡散タンパク質言語モデル(DPLM)を紹介する。
まず, 自己制御型離散拡散確率フレームワークを用いて, 進化的タンパク質配列からのスケーラブルDPLMの事前学習を行った。
プレトレーニング後、DPLMは非条件生成のための構造的に可塑性で新規で多様なタンパク質配列を生成する能力を示す。
論文 参考訳(メタデータ) (2024-02-28T18:57:56Z) - Efficiently Predicting Mutational Effect on Homologous Proteins by Evolution Encoding [7.067145619709089]
EvolMPNNは進化を意識したタンパク質の埋め込みを学習するための効率的なモデルである。
我々のモデルは最先端の手法よりも最大6.4%向上し,36倍の高速化を実現している。
論文 参考訳(メタデータ) (2024-02-20T23:06:21Z) - Unsupervisedly Prompting AlphaFold2 for Few-Shot Learning of Accurate
Folding Landscape and Protein Structure Prediction [28.630603355510324]
そこで我々は,メタ生成モデルであるEvoGenを提案し,貧弱なMSAターゲットに対するAlphaFold2のアンダーパフォーマンスを改善する。
EvoGenは、キャリブレーションまたは実質的に生成されたホモログシーケンスでモデルにプロンプトすることで、AlphaFold2を低データで正確に折り畳むのに役立つ。
論文 参考訳(メタデータ) (2022-08-20T10:23:17Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。