論文の概要: Protap: A Benchmark for Protein Modeling on Realistic Downstream Applications
- arxiv url: http://arxiv.org/abs/2506.02052v2
- Date: Sat, 07 Jun 2025 04:13:29 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-06-10 14:13:04.115567
- Title: Protap: A Benchmark for Protein Modeling on Realistic Downstream Applications
- Title(参考訳): Protap: 現実的な下流アプリケーションにおけるタンパク質モデリングのベンチマーク
- Authors: Shuo Yan, Yuliang Yan, Bin Ma, Chenao Li, Haochun Tang, Jiahua Lu, Minhua Lin, Yuyuan Feng, Hui Xiong, Enyan Dai,
- Abstract要約: $textbfProtap$は、バックボーンアーキテクチャ、事前トレーニング戦略、ドメイン固有のモデルを体系的に比較するベンチマークである。
Protapは3つの一般的なタスクと2つの新しい特殊タスクの5つのアプリケーションをカバーする。
- 参考スコア(独自算出の注目度): 21.206717185450852
- License: http://creativecommons.org/licenses/by-nc-sa/4.0/
- Abstract: Recently, extensive deep learning architectures and pretraining strategies have been explored to support downstream protein applications. Additionally, domain-specific models incorporating biological knowledge have been developed to enhance performance in specialized tasks. In this work, we introduce $\textbf{Protap}$, a comprehensive benchmark that systematically compares backbone architectures, pretraining strategies, and domain-specific models across diverse and realistic downstream protein applications. Specifically, Protap covers five applications: three general tasks and two novel specialized tasks, i.e., enzyme-catalyzed protein cleavage site prediction and targeted protein degradation, which are industrially relevant yet missing from existing benchmarks. For each application, Protap compares various domain-specific models and general architectures under multiple pretraining settings. Our empirical studies imply that: (i) Though large-scale pretraining encoders achieve great results, they often underperform supervised encoders trained on small downstream training sets. (ii) Incorporating structural information during downstream fine-tuning can match or even outperform protein language models pretrained on large-scale sequence corpora. (iii) Domain-specific biological priors can enhance performance on specialized downstream tasks. Code and datasets are publicly available at https://github.com/Trust-App-AI-Lab/protap.
- Abstract(参考訳): 近年,下流タンパク質アプリケーションを支援するため,広範囲なディープラーニングアーキテクチャと事前学習戦略が検討されている。
さらに, 生物知識を組み込んだドメイン固有モデルも開発され, 特化タスクの性能向上が図られている。
本稿では,バックボーンアーキテクチャ,事前学習戦略,ドメイン固有モデルなど,多様な,現実的な下流タンパク質アプリケーションを対象とした総合的なベンチマークである$\textbf{Protap}$を紹介する。
具体的には、Protapは5つの応用をカバーしている:3つの一般的なタスクと2つの新しい特殊タスク、すなわち酵素触媒によるタンパク質切断部位の予測と標的タンパク質の分解。
各アプリケーションについて、Protapは複数の事前トレーニング設定の下で、さまざまなドメイン固有のモデルと一般的なアーキテクチャを比較します。
私たちの実証研究は、こう示唆しています。
(i)大規模な事前学習エンコーダは大きな成果を上げるが,小型下流トレーニングセットで訓練された教師ありエンコーダは性能が劣ることが多い。
二 下流の微調整中に構造情報を組み込むことは、大規模配列コーパスで事前訓練したタンパク質言語モデルに適合し、さらに優れる。
三 特化下流タスクの性能を高めることができる。
コードとデータセットはhttps://github.com/Trust-App-AI-Lab/protapで公開されている。
関連論文リスト
- Prot2Token: A Unified Framework for Protein Modeling via Next-Token Prediction [19.164841536081568]
Prot2Tokenは、タンパク質関連予測の幅広い範囲を変換することで、課題を克服する統合フレームワークである。
Prot2Tokenのコアは自動回帰デコーダで、事前訓練されたタンパク質エンコーダの埋め込みを条件とし、学習可能なタスクトークンでガイドされる。
Prot2Tokensは様々な種類のタンパク質予測タスクにおいて強い予測力を示す。
論文 参考訳(メタデータ) (2025-05-26T23:50:36Z) - OneProt: Towards Multi-Modal Protein Foundation Models [5.440531199006399]
我々は、構造、シーケンス、テキスト、結合サイトデータを統合したタンパク質のためのマルチモーダルAIであるOneProtを紹介する。
ImageBindフレームワークを使用して、OneProtは軽量な微調整方式でタンパク質モダリティエンコーダの潜在空間を整列する。
この研究はマルチモーダルタンパク質モデルの地平線を広げ、薬物発見、生物触媒反応計画、タンパク質工学における変革的応用の道を開く。
論文 参考訳(メタデータ) (2024-11-07T16:54:54Z) - Progressive Multi-Modality Learning for Inverse Protein Folding [47.095862120116976]
マルチモーダルトランスファー学習を利用するMMDesignと呼ばれる新しいタンパク質設計パラダイムを提案する。
MMDesignは、事前訓練された構造モジュールと事前訓練されたコンテキストモジュールを組み合わせる最初のフレームワークである。
実験結果は、小さなデータセットでのみトレーニングした結果、MMDesignが様々な公開ベンチマークのベースラインを一貫して上回っていることを示している。
論文 参考訳(メタデータ) (2023-12-11T10:59:23Z) - A Systematic Study of Joint Representation Learning on Protein Sequences
and Structures [38.94729758958265]
効果的なタンパク質表現の学習は、タンパク質機能の予測のような生物学の様々なタスクにおいて重要である。
近年, タンパク質言語モデル(PLM)に基づく配列表現学習法は, 配列ベースタスクでは優れているが, タンパク質構造に関わるタスクへの直接適応は依然として困難である。
本研究は、最先端のPLMと異なる構造エンコーダを統合することで、結合タンパク質表現学習の包括的研究を行う。
論文 参考訳(メタデータ) (2023-03-11T01:24:10Z) - Reprogramming Pretrained Language Models for Protein Sequence
Representation Learning [68.75392232599654]
エンドツーエンドの表現学習フレームワークである辞書学習(R2DL)による表現学習を提案する。
R2DLは、タンパク質配列の埋め込みを学ぶために、事前訓練された英語モデルを再プログラムする。
我々のモデルは,事前訓練および標準教師付き手法によって設定されたベースラインに対して,最大105ドルの精度でデータ効率を大幅に向上させることができる。
論文 参考訳(メタデータ) (2023-01-05T15:55:18Z) - PEER: A Comprehensive and Multi-Task Benchmark for Protein Sequence
Understanding [17.770721291090258]
PEERは、Protein sEquence undERstandingの包括的なマルチタスクベンチマークである。
タンパク質機能予測、タンパク質局在予測、タンパク質構造予測、タンパク質-リガンド相互作用予測を含む、多様なタンパク質理解タスクのセットを提供する。
我々は,従来の特徴工学的手法,異なる配列符号化手法,および大規模事前学習されたタンパク質言語モデルなど,各タスクに対するシーケンスベース手法の評価を行った。
論文 参考訳(メタデータ) (2022-06-05T05:21:56Z) - Unified Instance and Knowledge Alignment Pretraining for Aspect-based
Sentiment Analysis [96.53859361560505]
Aspect-based Sentiment Analysis (ABSA) は、ある側面に対する感情の極性を決定することを目的としている。
事前トレーニングと下流ABSAデータセットの間には、常に深刻なドメインシフトが存在する。
我々は,バニラ・プレトレイン・ファインチューンパイプラインにアライメント事前訓練フレームワークを導入する。
論文 参考訳(メタデータ) (2021-10-26T04:03:45Z) - Few-Shot Named Entity Recognition: A Comprehensive Study [92.40991050806544]
マルチショット設定のモデル一般化能力を向上させるための3つの手法を検討する。
ラベル付きデータの比率の異なる10の公開nerデータセットについて経験的比較を行う。
マルチショットとトレーニングフリーの両方の設定で最新の結果を作成します。
論文 参考訳(メタデータ) (2020-12-29T23:43:16Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。