論文の概要: CoPeP: Benchmarking Continual Pretraining for Protein Language Models
- arxiv url: http://arxiv.org/abs/2603.00253v2
- Date: Tue, 03 Mar 2026 17:50:01 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-03-04 14:54:12.523343
- Title: CoPeP: Benchmarking Continual Pretraining for Protein Language Models
- Title(参考訳): CoPeP: タンパク質言語モデルの継続的な事前トレーニングのベンチマーク
- Authors: Darshan Patil, Pranshu Malviya, Mathieu Reymond, Quentin Fournier, Sarath Chandar,
- Abstract要約: 本稿では,タンパク質言語モデルベンチマークの継続事前学習について紹介する。
我々は31のタンパク質理解タスクにおけるpLM性能を評価するための指標を定義した。
我々は,リプレイ,未学習,可塑性に基づく手法など,連続的な学習文献からいくつかの手法を評価する。
- 参考スコア(独自算出の注目度): 16.835651059100595
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Protein language models (pLMs) have recently gained significant attention for their ability to uncover relationships between sequence, structure, and function from evolutionary statistics, thereby accelerating therapeutic drug discovery. These models learn from large protein databases that are continuously updated by the biology community and whose dynamic nature motivates the application of continual learning, not only to keep up with the ever-growing data, but also as an opportunity to take advantage of the temporal meta-information that is created during this process. As a result, we introduce the Continual Pretraining of Protein Language Models (CoPeP) benchmark, a novel benchmark for evaluating continual learning approaches on pLMs. Specifically, we curate a sequence of protein datasets derived from the UniProt Knowledgebase spanning a decade and define metrics to assess pLM performance across 31 protein understanding tasks. We evaluate several methods from the continual learning literature, including replay, unlearning, and plasticity-based methods, some of which have never been applied to models and data of this scale. Our findings reveal that incorporating temporal meta-information improves perplexity by up to 7% even when compared to training on data from all tasks jointly. Moreover, even at scale, several continual learning methods outperform naive continual pretraining. The CoPeP benchmark offers an exciting opportunity to study these methods at scale in an impactful real-world application.
- Abstract(参考訳): タンパク質言語モデル(pLM)は、進化統計から配列、構造、機能の関係を解明し、治療薬の発見を加速する能力において、近年大きな注目を集めている。
これらのモデルは、生物学コミュニティによって継続的に更新され、ダイナミックな性質が継続的な学習の応用を動機付けている大きなタンパク質データベースから学習する。
その結果,タンパク質言語モデルの継続事前学習(CoPeP)ベンチマークが導入された。
具体的には、10年間にわたるUniProt Knowledgebaseから派生したタンパク質データセットのシーケンスをキュレートし、31のタンパク質理解タスクにおけるpLM性能を評価するメトリクスを定義する。
リプレイ,アンラーニング,塑性に基づく手法など,連続的な学習文献からいくつかの手法を評価し,その一部はこのスケールのモデルやデータに適用されたことがない。
その結果, 時間的メタ情報の導入は, 全タスクからのデータのトレーニングを併用した場合と比較して, パープレキシティを最大7%向上させることがわかった。
さらに、大規模でも、いくつかの連続学習法は、ナイーブな継続事前学習よりも優れている。
CoPePベンチマークは、インパクトのある現実世界のアプリケーションでこれらの手法を大規模に研究するエキサイティングな機会を提供する。
関連論文リスト
- Zero-Shot Learning with Subsequence Reordering Pretraining for Compound-Protein Interaction [39.13469810619366]
そこで本研究では,CPI予測タスクのためのタンパク質表現をサブシーケンスリオーダーを用いて事前訓練する手法を提案する。
トレーニングデータセットのトレーニング前性能を向上させるために,長さ可変タンパク質増強法を適用した。
既存の事前学習モデルと比較して,本モデルでは特にデータスカースシナリオにおいて,優れた性能を示す。
論文 参考訳(メタデータ) (2025-07-28T15:31:15Z) - Test-time Offline Reinforcement Learning on Goal-related Experience [50.94457794664909]
基礎モデルの研究では、テストタイムトレーニングによってパフォーマンスが大幅に改善できることが示されている。
本稿では、オフラインデータセットから現在の状態への関連性に応じて遷移を選択する、新しい自己教師型データ選択基準を提案する。
目標条件付きテストタイムトレーニング(GC-TTT)アルゴリズムは、評価中にこのルーチンを後退水平方式で適用し、現在の軌道にポリシーを適用する。
論文 参考訳(メタデータ) (2025-07-24T21:11:39Z) - Curriculum Learning for Biological Sequence Prediction: The Case of De Novo Peptide Sequencing [21.01399785232482]
本稿では,構造的タンパク質配列学習戦略を取り入れた非自己回帰ペプチドシークエンシングモデルを提案する。
我々のカリキュラム学習戦略は、様々なデータ分布に対するサンプルトレーニングに基づいて、NATトレーニング失敗頻度を90%以上削減する。
論文 参考訳(メタデータ) (2025-06-16T13:44:25Z) - Rethinking Text-based Protein Understanding: Retrieval or LLM? [35.322164434180365]
タンパク質テキストモデルは、タンパク質の生成と理解において大きな注目を集めている。
現在のアプローチでは、タンパク質関連の知識を、継続した事前学習とマルチモーダルアライメントを通じて、大きな言語モデルに統合することに重点を置いている。
そこで本研究では,タンパク質間テキスト生成のための微調整LDMを著しく上回り,学習不要シナリオにおける精度と効率性を示す検索強化手法を提案する。
論文 参考訳(メタデータ) (2025-05-26T06:25:43Z) - Multi-Epoch learning with Data Augmentation for Deep Click-Through Rate Prediction [53.88231294380083]
非連続的な学習シナリオと連続的な学習シナリオの両方に適合する、新しいMulti-Epoch Learning with Data Augmentation (MEDA)フレームワークを導入する。
MEDAは、その後のトレーニングデータへの埋め込み層の依存性を減らし、過度な適合を最小化する。
実験の結果,プレトレーニングした層が新しい埋め込み空間に適応し,過度に適合することなく性能を向上できることが確認された。
論文 参考訳(メタデータ) (2024-06-27T04:00:15Z) - Continual Learning with Pre-Trained Models: A Survey [61.97613090666247]
継続的な学習は、新しい知識を学ぶ際に、かつての知識の破滅的な忘れを克服することを目的としている。
本稿では, PTM を用いた CL の最近の進歩を包括的に調査する。
論文 参考訳(メタデータ) (2024-01-29T18:27:52Z) - ALP: Action-Aware Embodied Learning for Perception [60.64801970249279]
認知のための行動認識型身体学習(ALP)について紹介する。
ALPは、強化学習ポリシーと逆ダイナミクス予測目標を最適化することにより、行動情報を表現学習に組み込む。
ALPは、複数の下流認識タスクにおいて、既存のベースラインよりも優れていることを示す。
論文 参考訳(メタデータ) (2023-06-16T21:51:04Z) - Reprogramming Pretrained Language Models for Protein Sequence
Representation Learning [68.75392232599654]
エンドツーエンドの表現学習フレームワークである辞書学習(R2DL)による表現学習を提案する。
R2DLは、タンパク質配列の埋め込みを学ぶために、事前訓練された英語モデルを再プログラムする。
我々のモデルは,事前訓練および標準教師付き手法によって設定されたベースラインに対して,最大105ドルの精度でデータ効率を大幅に向上させることができる。
論文 参考訳(メタデータ) (2023-01-05T15:55:18Z) - LifeLonger: A Benchmark for Continual Disease Classification [59.13735398630546]
MedMNISTコレクションの連続的な疾患分類のためのベンチマークであるLifeLongerを紹介する。
タスクとクラスでの病気の漸進的な学習は、モデルをスクラッチから再トレーニングすることなく、新しいサンプルを分類する問題に対処する。
クロスドメインインクリメンタル学習は、これまで得られた知識を維持しながら、異なる機関から派生したデータセットを扱う問題に対処する。
論文 参考訳(メタデータ) (2022-04-12T12:25:05Z) - Lifelong Pretraining: Continually Adapting Language Models to Emerging
Corpora [31.136334214818305]
本稿では,PTLMが更新され続けている言語モデル事前学習課題について検討する。
ドメインインクリメンタルな研究論文ストリームと時系列に順序付けられたつぶやきストリームを通じて、PTLMを異なる連続学習アルゴリズムで段階的に事前訓練する。
本実験は,ロジット蒸留を最も効果的に行うことにより,学習アルゴリズムが知識保存を改善することを示す。
論文 参考訳(メタデータ) (2021-10-16T09:59:33Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。