論文の概要: Training on test proteins improves fitness, structure, and function prediction
- arxiv url: http://arxiv.org/abs/2411.02109v1
- Date: Mon, 04 Nov 2024 14:23:59 GMT
- ステータス: 翻訳完了
- システム内更新日: 2024-11-28 17:07:44.087684
- Title: Training on test proteins improves fitness, structure, and function prediction
- Title(参考訳): テストタンパク質の訓練は適合性、構造、機能予測を改善する
- Authors: Anton Bushuiev, Roman Bushuiev, Nikola Zadorozhny, Raman Samusevich, Hannes Stärk, Jiri Sedlar, Tomáš Pluskal, Josef Sivic,
- Abstract要約: 大規模データセット上での自己教師付き事前トレーニングは、一般化を強化するための一般的な方法である。
そこで本研究では,テスト時に自己教師型微調整を行う手法を導入し,モデルがハエの関心を持つテストタンパク質に適応できるようにした。
本手法は,タンパク質の適合度予測のための標準ベンチマークにおいて,新しい最先端結果をもたらすことを示す。
- 参考スコア(独自算出の注目度): 18.176929152066872
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Data scarcity and distribution shifts often hinder the ability of machine learning models to generalize when applied to proteins and other biological data. Self-supervised pre-training on large datasets is a common method to enhance generalization. However, striving to perform well on all possible proteins can limit model's capacity to excel on any specific one, even though practitioners are often most interested in accurate predictions for the individual protein they study. To address this limitation, we propose an orthogonal approach to achieve generalization. Building on the prevalence of self-supervised pre-training, we introduce a method for self-supervised fine-tuning at test time, allowing models to adapt to the test protein of interest on the fly and without requiring any additional data. We study our test-time training (TTT) method through the lens of perplexity minimization and show that it consistently enhances generalization across different models, their scales, and datasets. Notably, our method leads to new state-of-the-art results on the standard benchmark for protein fitness prediction, improves protein structure prediction for challenging targets, and enhances function prediction accuracy.
- Abstract(参考訳): データ不足と分散シフトは、しばしば、タンパク質やその他の生物学的データに適用した場合に、機械学習モデルが一般化する能力を妨げている。
大規模データセット上での自己教師付き事前トレーニングは、一般化を強化するための一般的な方法である。
しかしながら、あらゆる可能なタンパク質でうまく機能するように努力することは、モデルが特定のタンパク質に優れた能力を発揮できる能力を制限することができるが、実践者は研究する個々のタンパク質の正確な予測に最も関心がある。
この制限に対処するため、一般化を実現するための直交的アプローチを提案する。
自己教師型プレトレーニングの頻度に基づいて,テスト時に自己教師型微調整を行う手法を導入する。
我々は, パープレキシティ最小化のレンズを用いてテスト時間トレーニング(TTT)法について検討し, 異なるモデル, スケール, データセット間の一般化を継続的に向上することを示す。
特に,本手法は,タンパク質の適合度予測の標準ベンチマークに新たな最先端結果をもたらし,タンパク質構造予測の改善と機能予測の精度の向上に寄与する。
関連論文リスト
- Few-shot Protein Fitness Prediction via In-context Learning and Test-time Training [16.300177286668475]
PRIMOは、コンテクスト内学習とテストタイムトレーニングを活用して、新しいタンパク質に迅速に適応するトランスフォーマーベースのフレームワークである。
PRIMOは、嗜好に基づく損失関数を通じて、有望な変種を優先することを学ぶ。
この研究は、大規模事前学習と効率的なテスト時間適応を組み合わせることで、挑戦的なタンパク質設計課題に取り組む力を強調している。
論文 参考訳(メタデータ) (2025-12-02T01:20:40Z) - Exploring zero-shot structure-based protein fitness prediction [0.5524804393257919]
我々は、事前学習された機械学習モデルを用いて、タンパク質配列の変化による適合性についてゼロショット予測を行う。
構造モデルに対するいくつかのモデル選択と、下流の適合度予測に対する影響を評価する。
論文 参考訳(メタデータ) (2025-04-23T17:01:09Z) - Protein Large Language Models: A Comprehensive Survey [71.65899614084853]
タンパク質特異的な大規模言語モデル(Protein LLMs)は、より効率的なタンパク質構造予測、機能アノテーション、設計を可能にすることで、タンパク質科学に革命をもたらしている。
この作業は、アーキテクチャ、データセットのトレーニング、評価メトリクス、さまざまなアプリケーションをカバーする、Protein LLMの最初の包括的な概要を提供する。
論文 参考訳(メタデータ) (2025-02-21T19:22:10Z) - SFM-Protein: Integrative Co-evolutionary Pre-training for Advanced Protein Sequence Representation [97.99658944212675]
タンパク質基盤モデルのための新しい事前学習戦略を導入する。
アミノ酸残基間の相互作用を強調し、短距離および長距離の共進化的特徴の抽出を強化する。
大規模タンパク質配列データセットを用いて学習し,より優れた一般化能力を示す。
論文 参考訳(メタデータ) (2024-10-31T15:22:03Z) - Metalic: Meta-Learning In-Context with Protein Language Models [5.868595531658237]
このような予測タスクの有望なテクニックとして機械学習が登場した。
データ不足のため、私たちはメタラーニングがタンパク質工学の進歩に重要な役割を果たすと信じています。
論文 参考訳(メタデータ) (2024-10-10T20:19:35Z) - Protein-Mamba: Biological Mamba Models for Protein Function Prediction [18.642511763423048]
タンパク質-マンバは、タンパク質機能予測を改善するために、自己教師付き学習と微調整の両方を活用する新しい2段階モデルである。
実験の結果,Protein-Mambaはいくつかの最先端手法と比較して,競争力を発揮することが示された。
論文 参考訳(メタデータ) (2024-09-22T22:51:56Z) - ProtLLM: An Interleaved Protein-Language LLM with Protein-as-Word Pre-Training [82.37346937497136]
本稿では,タンパク質中心タスクとタンパク質言語タスクの両方を対象とした多機能多言語多言語言語モデル (LLM) を提案する。
ProtLLMはユニークな動的タンパク質実装機構を備えており、複雑な入力を処理できる。
専門的なタンパク質語彙を開発することで、自然言語だけでなく、膨大な候補からタンパク質を予測できる能力をモデルに装備する。
論文 参考訳(メタデータ) (2024-02-28T01:29:55Z) - xTrimoPGLM: Unified 100B-Scale Pre-trained Transformer for Deciphering the Language of Protein [74.64101864289572]
本稿では,タンパク質の理解と生成を同時に行うために,統一されたタンパク質言語モデル xTrimoPGLM を提案する。
xTrimoPGLMは、4つのカテゴリにわたる18のタンパク質理解ベンチマークにおいて、他の高度なベースラインを著しく上回っている。
また、自然の原理に従ってデノボタンパク質配列を生成でき、微調整を監督した後にプログラム可能な生成を行うことができる。
論文 参考訳(メタデータ) (2024-01-11T15:03:17Z) - Efficiently Predicting Protein Stability Changes Upon Single-point
Mutation with Large Language Models [51.57843608615827]
タンパク質の熱安定性を正確に予測する能力は、様々なサブフィールドや生化学への応用において重要である。
タンパク質配列と構造的特徴を統合したESMによる効率的なアプローチを導入し, 単一点突然変異によるタンパク質の熱安定性変化を予測する。
論文 参考訳(メタデータ) (2023-12-07T03:25:49Z) - DeepGATGO: A Hierarchical Pretraining-Based Graph-Attention Model for
Automatic Protein Function Prediction [4.608328575930055]
自動タンパク質機能予測(AFP)は大規模多ラベル分類問題に分類される。
現在、一般的な手法は主にタンパク質関連情報と遺伝子オントロジー(GO)の用語を組み合わせて、最終的な機能予測を生成する。
本稿では,タンパク質配列とGO項ラベルを階層的に処理するシークエンスベースの階層予測手法であるDeepGATGOを提案する。
論文 参考訳(メタデータ) (2023-07-24T07:01:32Z) - CCPL: Cross-modal Contrastive Protein Learning [47.095862120116976]
我々は、新しい教師なしタンパク質構造表現事前学習法、クロスモーダルコントラスト型タンパク質学習(CCPL)を導入する。
CCPLは堅牢なタンパク質言語モデルを活用し、教師なしのコントラストアライメントを用いて構造学習を強化する。
さまざまなベンチマークでモデルを評価し,フレームワークの優位性を実証した。
論文 参考訳(メタデータ) (2023-03-19T08:19:10Z) - Reprogramming Pretrained Language Models for Protein Sequence
Representation Learning [68.75392232599654]
エンドツーエンドの表現学習フレームワークである辞書学習(R2DL)による表現学習を提案する。
R2DLは、タンパク質配列の埋め込みを学ぶために、事前訓練された英語モデルを再プログラムする。
我々のモデルは,事前訓練および標準教師付き手法によって設定されたベースラインに対して,最大105ドルの精度でデータ効率を大幅に向上させることができる。
論文 参考訳(メタデータ) (2023-01-05T15:55:18Z) - SESNet: sequence-structure feature-integrated deep learning method for
data-efficient protein engineering [6.216757583450049]
タンパク質変異体の適合度を予測するための教師付きディープラーニングモデルであるSESNetを開発した。
SESNetは,シーケンスと関数の関係を予測するための最先端モデルよりも優れていることを示す。
我々のモデルは、タンパク質変異体の適合性の予測において、特に高次変異体に対して驚くほど高い精度を達成することができる。
論文 参考訳(メタデータ) (2022-12-29T01:49:52Z) - PSP: Million-level Protein Sequence Dataset for Protein Structure
Prediction [34.11168458572554]
PSPと命名された,高いカバレッジと多様性を持つ最初の100万レベルのタンパク質構造予測データセットを提示する。
このデータセットは570k真構造配列(10TB)と745k相補的蒸留配列(15TB)からなる。
また、このデータセット上でのSOTAタンパク質構造予測モデルのベンチマークトレーニング手順も提供する。
論文 参考訳(メタデータ) (2022-06-24T14:08:44Z) - Structure-aware Protein Self-supervised Learning [50.04673179816619]
本稿では,タンパク質の構造情報を取得するための構造認識型タンパク質自己教師学習法を提案する。
特に、タンパク質構造情報を保存するために、よく設計されたグラフニューラルネットワーク(GNN)モデルを事前訓練する。
タンパク質言語モデルにおける逐次情報と特別に設計されたGNNモデルにおける構造情報との関係を,新しい擬似二段階最適化手法を用いて同定する。
論文 参考訳(メタデータ) (2022-04-06T02:18:41Z) - Protein Representation Learning by Geometric Structure Pretraining [27.723095456631906]
既存のアプローチは通常、多くの未ラベルアミノ酸配列で事前訓練されたタンパク質言語モデルである。
まず,タンパク質の幾何学的特徴を学習するための単純かつ効果的なエンコーダを提案する。
関数予測と折り畳み分類の両タスクの実験結果から,提案した事前学習法は,より少ないデータを用いた最先端のシーケンスベース手法と同等あるいは同等であることがわかった。
論文 参考訳(メタデータ) (2022-03-11T17:52:13Z) - Conformal Prediction Under Feedback Covariate Shift for Biomolecular Design [56.86533144730384]
本稿では,トレーニングデータとテストデータが統計的に依存した環境での予測不確実性を定量化する手法を提案する。
モチベーション・ユースケースとして,本手法が設計したタンパク質の適合性予測の不確かさを定量化する方法を実データで示す。
論文 参考訳(メタデータ) (2022-02-08T02:59:12Z) - EBM-Fold: Fully-Differentiable Protein Folding Powered by Energy-based
Models [53.17320541056843]
本研究では,データ駆動型生成ネットワークを用いたタンパク質構造最適化手法を提案する。
EBM-Foldアプローチは,従来のロゼッタ構造最適化ルーチンと比較して,高品質なデコイを効率よく生成できる。
論文 参考訳(メタデータ) (2021-05-11T03:40:29Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。