論文の概要: Metalic: Meta-Learning In-Context with Protein Language Models
- arxiv url: http://arxiv.org/abs/2410.08355v1
- Date: Thu, 10 Oct 2024 20:19:35 GMT
- ステータス: 処理完了
- システム内更新日: 2024-10-31 03:56:20.232046
- Title: Metalic: Meta-Learning In-Context with Protein Language Models
- Title(参考訳): Metalic: メタラーニングインコンテキストとタンパク質言語モデル
- Authors: Jacob Beck, Shikha Surana, Manus McAuliffe, Oliver Bent, Thomas D. Barrett, Juan Jose Garau Luis, Paul Duckworth,
- Abstract要約: このような予測タスクの有望なテクニックとして機械学習が登場した。
データ不足のため、私たちはメタラーニングがタンパク質工学の進歩に重要な役割を果たすと信じています。
- 参考スコア(独自算出の注目度): 5.868595531658237
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Predicting the biophysical and functional properties of proteins is essential for in silico protein design. Machine learning has emerged as a promising technique for such prediction tasks. However, the relative scarcity of in vitro annotations means that these models often have little, or no, specific data on the desired fitness prediction task. As a result of limited data, protein language models (PLMs) are typically trained on general protein sequence modeling tasks, and then fine-tuned, or applied zero-shot, to protein fitness prediction. When no task data is available, the models make strong assumptions about the correlation between the protein sequence likelihood and fitness scores. In contrast, we propose meta-learning over a distribution of standard fitness prediction tasks, and demonstrate positive transfer to unseen fitness prediction tasks. Our method, called Metalic (Meta-Learning In-Context), uses in-context learning and fine-tuning, when data is available, to adapt to new tasks. Crucially, fine-tuning enables considerable generalization, even though it is not accounted for during meta-training. Our fine-tuned models achieve strong results with 18 times fewer parameters than state-of-the-art models. Moreover, our method sets a new state-of-the-art in low-data settings on ProteinGym, an established fitness-prediction benchmark. Due to data scarcity, we believe meta-learning will play a pivotal role in advancing protein engineering.
- Abstract(参考訳): タンパク質の生理的および機能的性質の予測は、シリコタンパク質の設計に不可欠である。
このような予測タスクの有望なテクニックとして機械学習が登場した。
しかし、in vitroアノテーションの相対的不足は、これらのモデルが望まれるフィットネス予測タスクについて、ほとんど、あるいは全く特定のデータを持っていないことを意味する。
制限されたデータの結果、タンパク質言語モデル(PLM)は通常、一般的なタンパク質配列モデリングタスクに基づいて訓練され、タンパク質の適合性予測に微調整またはゼロショットを適用する。
タスクデータが得られない場合、これらのモデルはタンパク質配列の確率と適合度スコアの相関について強い仮定をする。
対照的に、標準的なフィットネス予測タスクの分布を超越したメタラーニングを提案し、目に見えないフィットネス予測タスクへのポジティブな転送を示す。
我々の手法はMetalic(Meta-Learning In-Context)と呼ばれ、コンテキスト内学習と微調整を用いて、データが利用可能であれば新しいタスクに適応する。
重要な点として、微調整はメタトレーニング中に考慮されていないにもかかわらず、かなりの一般化を可能にする。
我々の微調整モデルは、最先端モデルより18倍少ないパラメータで強力な結果が得られる。
さらに,本手法は,確立した適合度予測ベンチマークであるProteinGymの低データ設定における新しい最先端性を設定する。
データ不足のため、私たちはメタラーニングがタンパク質工学の進歩に重要な役割を果たすと信じています。
関連論文リスト
- What Do Learning Dynamics Reveal About Generalization in LLM Reasoning? [83.83230167222852]
モデルの一般化動作は,事前記憶列車の精度と呼ばれるトレーニング指標によって効果的に特徴づけられることがわかった。
モデルの学習行動と一般化を結びつけることで、トレーニング戦略に目標とする改善を導くことができる。
論文 参考訳(メタデータ) (2024-11-12T09:52:40Z) - Training on test proteins improves fitness, structure, and function prediction [18.176929152066872]
大規模データセット上での自己教師付き事前トレーニングは、一般化を強化するための一般的な方法である。
そこで本研究では,テスト時に自己教師型微調整を行う手法を導入し,モデルがハエの関心を持つテストタンパク質に適応できるようにした。
本手法は,タンパク質の適合度予測のための標準ベンチマークにおいて,新しい最先端結果をもたらすことを示す。
論文 参考訳(メタデータ) (2024-11-04T14:23:59Z) - SFM-Protein: Integrative Co-evolutionary Pre-training for Advanced Protein Sequence Representation [97.99658944212675]
タンパク質基盤モデルのための新しい事前学習戦略を導入する。
アミノ酸残基間の相互作用を強調し、短距離および長距離の共進化的特徴の抽出を強化する。
大規模タンパク質配列データセットを用いて学習し,より優れた一般化能力を示す。
論文 参考訳(メタデータ) (2024-10-31T15:22:03Z) - NaNa and MiGu: Semantic Data Augmentation Techniques to Enhance Protein Classification in Graph Neural Networks [60.48306899271866]
本稿では,背骨化学および側鎖生物物理情報をタンパク質分類タスクに組み込む新しい意味データ拡張手法を提案する。
具体的には, 分子生物学的, 二次構造, 化学結合, およびタンパク質のイオン特性を活用し, 分類作業を容易にする。
論文 参考訳(メタデータ) (2024-03-21T13:27:57Z) - Structure-Informed Protein Language Model [38.019425619750265]
本稿では、構造情報をタンパク質言語モデルに抽出するためのリモートホモロジー検出の統合について紹介する。
この構造インフォームドトレーニングが下流タンパク質機能予測タスクに与える影響を評価する。
論文 参考訳(メタデータ) (2024-02-07T09:32:35Z) - xTrimoPGLM: Unified 100B-Scale Pre-trained Transformer for Deciphering
the Language of Protein [76.18058946124111]
本稿では,タンパク質の理解と生成を同時に行うために,統一されたタンパク質言語モデル xTrimoPGLM を提案する。
xTrimoPGLMは、4つのカテゴリにわたる18のタンパク質理解ベンチマークにおいて、他の高度なベースラインを著しく上回っている。
また、自然の原理に従ってデノボタンパク質配列を生成でき、微調整を監督した後にプログラム可能な生成を行うことができる。
論文 参考訳(メタデータ) (2024-01-11T15:03:17Z) - Reprogramming Pretrained Language Models for Protein Sequence
Representation Learning [68.75392232599654]
エンドツーエンドの表現学習フレームワークである辞書学習(R2DL)による表現学習を提案する。
R2DLは、タンパク質配列の埋め込みを学ぶために、事前訓練された英語モデルを再プログラムする。
我々のモデルは,事前訓練および標準教師付き手法によって設定されたベースラインに対して,最大105ドルの精度でデータ効率を大幅に向上させることができる。
論文 参考訳(メタデータ) (2023-01-05T15:55:18Z) - Structure-aware Protein Self-supervised Learning [50.04673179816619]
本稿では,タンパク質の構造情報を取得するための構造認識型タンパク質自己教師学習法を提案する。
特に、タンパク質構造情報を保存するために、よく設計されたグラフニューラルネットワーク(GNN)モデルを事前訓練する。
タンパク質言語モデルにおける逐次情報と特別に設計されたGNNモデルにおける構造情報との関係を,新しい擬似二段階最適化手法を用いて同定する。
論文 参考訳(メタデータ) (2022-04-06T02:18:41Z) - Protein Representation Learning by Geometric Structure Pretraining [27.723095456631906]
既存のアプローチは通常、多くの未ラベルアミノ酸配列で事前訓練されたタンパク質言語モデルである。
まず,タンパク質の幾何学的特徴を学習するための単純かつ効果的なエンコーダを提案する。
関数予測と折り畳み分類の両タスクの実験結果から,提案した事前学習法は,より少ないデータを用いた最先端のシーケンスベース手法と同等あるいは同等であることがわかった。
論文 参考訳(メタデータ) (2022-03-11T17:52:13Z) - Profile Prediction: An Alignment-Based Pre-Training Task for Protein
Sequence Models [11.483725773928382]
タンパク質予測に対する最近のディープラーニングアプローチは、ラベルなしデータによる事前学習が下流タスクに有用な表現をもたらすことを示している。
我々は、複数の配列アライメントから導かれるタンパク質プロファイルを直接予測する、新しい事前学習タスクを導入する。
以上の結果から, タンパク質配列モデルが生物学的に誘発される誘導バイアスの活用の恩恵を受ける可能性が示唆された。
論文 参考訳(メタデータ) (2020-12-01T01:01:34Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。