論文の概要: Few-shot Protein Fitness Prediction via In-context Learning and Test-time Training
- arxiv url: http://arxiv.org/abs/2512.02315v1
- Date: Tue, 02 Dec 2025 01:20:40 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-12-03 21:04:45.672055
- Title: Few-shot Protein Fitness Prediction via In-context Learning and Test-time Training
- Title(参考訳): インコンテクスト学習とテストタイムトレーニングによるタンパク質の適合度予測
- Authors: Felix Teufel, Aaron W. Kollasch, Yining Huang, Ole Winther, Kevin K. Yang, Pascal Notin, Debora S. Marks,
- Abstract要約: PRIMOは、コンテクスト内学習とテストタイムトレーニングを活用して、新しいタンパク質に迅速に適応するトランスフォーマーベースのフレームワークである。
PRIMOは、嗜好に基づく損失関数を通じて、有望な変種を優先することを学ぶ。
この研究は、大規模事前学習と効率的なテスト時間適応を組み合わせることで、挑戦的なタンパク質設計課題に取り組む力を強調している。
- 参考スコア(独自算出の注目度): 16.300177286668475
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Accurately predicting protein fitness with minimal experimental data is a persistent challenge in protein engineering. We introduce PRIMO (PRotein In-context Mutation Oracle), a transformer-based framework that leverages in-context learning and test-time training to adapt rapidly to new proteins and assays without large task-specific datasets. By encoding sequence information, auxiliary zero-shot predictions, and sparse experimental labels from many assays as a unified token set in a pre-training masked-language modeling paradigm, PRIMO learns to prioritize promising variants through a preference-based loss function. Across diverse protein families and properties-including both substitution and indel mutations-PRIMO outperforms zero-shot and fully supervised baselines. This work underscores the power of combining large-scale pre-training with efficient test-time adaptation to tackle challenging protein design tasks where data collection is expensive and label availability is limited.
- Abstract(参考訳): 最小の実験データでタンパク質の適合性を正確に予測することは、タンパク質工学において永続的な課題である。
PRIMO(Prootein In-context Mutation Oracle)は、インコンテクスト学習とテストタイムトレーニングを活用して、タスク固有のデータセットを持たない新しいタンパク質やアッセイに迅速に適応するトランスフォーマーベースのフレームワークである。
PRIMOは、事前学習されたマスク付き言語モデリングパラダイムにセットされた統一トークンとして多くのアッセイから得られたシーケンス情報、補助的なゼロショット予測、スパース実験ラベルを符号化することにより、嗜好に基づく損失関数を通じて有望な変種を優先順位付けすることを学ぶ。
置換とインデル突然変異を含む多種多様なタンパク質ファミリーと性質-PRIMOはゼロショットと完全教師付き塩基性に優れる。
この研究は、大規模な事前学習と効率的なテスト時間適応を組み合わせることで、データ収集が高価でラベルの可用性が制限されたタンパク質設計タスクに挑戦する能力を強調している。
関連論文リスト
- S$^2$Drug: Bridging Protein Sequence and 3D Structure in Contrastive Representation Learning for Virtual Screening [72.89086338778098]
タンパク質リガンドコントラスト表現学習のための2段階フレームワークを提案する。
最初の段階では、ESM2ベースのバックボーンを用いて、ChemBLでタンパク質配列を事前訓練する。
第2段階では、残基レベルゲーティングモジュールを介して配列と構造情報を融合することでPDBBindを微調整する。
この補助的なタスクは、モデルを誘導し、タンパク質配列内の結合残基を正確に局在させ、それらの3次元空間配列をキャプチャする。
論文 参考訳(メタデータ) (2025-11-10T11:57:47Z) - Meta-Learning for Cross-Task Generalization in Protein Mutation Property Prediction [9.083239192939661]
モデル非依存型メタラーニング(MAML)のタンパク質突然変異特性予測への応用について紹介する。
また,シークエンスに変異を直接組み込むために,セパレータトークンを用いた新規な突然変異符号化戦略を導入する。
我々の突然変異エンコーディングは、標準的なトランスフォーマーが未知のトークンとして突然変異位置を扱い、性能を著しく低下させる限界に対処する。
論文 参考訳(メタデータ) (2025-10-23T19:09:06Z) - One protein is all you need [17.551862138613405]
トレーニングデータ以外の一般化は、生物学における機械学習における中心的な課題である。
タンパク質テストタイムトレーニング(ProteinTTT)法は,異なるモデル,サイズ,データセット間の一般化を一貫して促進することを示す。
論文 参考訳(メタデータ) (2024-11-04T14:23:59Z) - Learning to Predict Mutation Effects of Protein-Protein Interactions by Microenvironment-aware Hierarchical Prompt Learning [78.38442423223832]
我々は、新しいコードブック事前学習タスク、すなわちマスク付きマイクロ環境モデリングを開発する。
突然変異効果予測において、最先端の事前学習法よりも優れた性能と訓練効率を示す。
論文 参考訳(メタデータ) (2024-05-16T03:53:21Z) - Efficiently Predicting Protein Stability Changes Upon Single-point
Mutation with Large Language Models [51.57843608615827]
タンパク質の熱安定性を正確に予測する能力は、様々なサブフィールドや生化学への応用において重要である。
タンパク質配列と構造的特徴を統合したESMによる効率的なアプローチを導入し, 単一点突然変異によるタンパク質の熱安定性変化を予測する。
論文 参考訳(メタデータ) (2023-12-07T03:25:49Z) - Reprogramming Pretrained Language Models for Protein Sequence
Representation Learning [68.75392232599654]
エンドツーエンドの表現学習フレームワークである辞書学習(R2DL)による表現学習を提案する。
R2DLは、タンパク質配列の埋め込みを学ぶために、事前訓練された英語モデルを再プログラムする。
我々のモデルは,事前訓練および標準教師付き手法によって設定されたベースラインに対して,最大105ドルの精度でデータ効率を大幅に向上させることができる。
論文 参考訳(メタデータ) (2023-01-05T15:55:18Z) - Structure-aware Protein Self-supervised Learning [50.04673179816619]
本稿では,タンパク質の構造情報を取得するための構造認識型タンパク質自己教師学習法を提案する。
特に、タンパク質構造情報を保存するために、よく設計されたグラフニューラルネットワーク(GNN)モデルを事前訓練する。
タンパク質言語モデルにおける逐次情報と特別に設計されたGNNモデルにおける構造情報との関係を,新しい擬似二段階最適化手法を用いて同定する。
論文 参考訳(メタデータ) (2022-04-06T02:18:41Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。