論文の概要: Reprogramming Pretrained Language Models for Protein Sequence
Representation Learning
- arxiv url: http://arxiv.org/abs/2301.02120v1
- Date: Thu, 5 Jan 2023 15:55:18 GMT
- ステータス: 処理完了
- システム内更新日: 2023-01-06 13:43:01.538028
- Title: Reprogramming Pretrained Language Models for Protein Sequence
Representation Learning
- Title(参考訳): タンパク質配列表現学習のための事前学習言語モデルの再プログラミング
- Authors: Ria Vinod, Pin-Yu Chen, and Payel Das
- Abstract要約: エンドツーエンドの表現学習フレームワークである辞書学習(R2DL)による表現学習を提案する。
R2DLは、タンパク質配列の埋め込みを学ぶために、事前訓練された英語モデルを再プログラムする。
我々のモデルは,事前訓練および標準教師付き手法によって設定されたベースラインに対して,最大105ドルの精度でデータ効率を大幅に向上させることができる。
- 参考スコア(独自算出の注目度): 68.75392232599654
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Machine Learning-guided solutions for protein learning tasks have made
significant headway in recent years. However, success in scientific discovery
tasks is limited by the accessibility of well-defined and labeled in-domain
data. To tackle the low-data constraint, recent adaptions of deep learning
models pretrained on millions of protein sequences have shown promise; however,
the construction of such domain-specific large-scale model is computationally
expensive. Here, we propose Representation Learning via Dictionary Learning
(R2DL), an end-to-end representation learning framework in which we reprogram
deep models for alternate-domain tasks that can perform well on protein
property prediction with significantly fewer training samples. R2DL reprograms
a pretrained English language model to learn the embeddings of protein
sequences, by learning a sparse linear mapping between English and protein
sequence vocabulary embeddings. Our model can attain better accuracy and
significantly improve the data efficiency by up to $10^5$ times over the
baselines set by pretrained and standard supervised methods. To this end, we
reprogram an off-the-shelf pre-trained English language transformer and
benchmark it on a set of protein physicochemical prediction tasks (secondary
structure, stability, homology, stability) as well as on a biomedically
relevant set of protein function prediction tasks (antimicrobial, toxicity,
antibody affinity).
- Abstract(参考訳): 近年、タンパク質学習タスクのための機械学習誘導ソリューションが大きな進歩を遂げている。
しかし、科学的発見タスクの成功は、明確に定義されラベル付けされたドメイン内データのアクセシビリティによって制限される。
低データ制約に対処するために、数百万のタンパク質配列で事前訓練された最近のディープラーニングモデルの適応は、有望であることを示している。
本稿では,辞書学習による表現学習(R2DL)を提案する。このフレームワークは,学習サンプルをはるかに少なくして,タンパク質特性予測に優れる代替ドメインタスクの深層モデルをプログラムする。
R2DLは、英語とタンパク質配列の語彙埋め込みの間の疎線型マッピングを学習し、タンパク質配列の埋め込みを学ぶために事前訓練された英語モデルを再プログラムする。
我々のモデルは,事前学習および標準教師付き手法によって設定されたベースラインに対して,最大10^5$の精度でデータ効率を大幅に向上させることができる。
この目的のために, 市販の英語トランスフォーマーをプログラムし, タンパク質の物理化学的予測タスク(二次構造, 安定性, ホモロジー, 安定性)の組と, 生物医学的に関連するタンパク質機能予測タスク(抗菌, 毒性, 抗体親和性)の組にベンチマークを行う。
関連論文リスト
- Metalic: Meta-Learning In-Context with Protein Language Models [5.868595531658237]
このような予測タスクの有望なテクニックとして機械学習が登場した。
データ不足のため、私たちはメタラーニングがタンパク質工学の進歩に重要な役割を果たすと信じています。
論文 参考訳(メタデータ) (2024-10-10T20:19:35Z) - xTrimoPGLM: Unified 100B-Scale Pre-trained Transformer for Deciphering
the Language of Protein [76.18058946124111]
本稿では,タンパク質の理解と生成を同時に行うために,統一されたタンパク質言語モデル xTrimoPGLM を提案する。
xTrimoPGLMは、4つのカテゴリにわたる18のタンパク質理解ベンチマークにおいて、他の高度なベースラインを著しく上回っている。
また、自然の原理に従ってデノボタンパク質配列を生成でき、微調整を監督した後にプログラム可能な生成を行うことができる。
論文 参考訳(メタデータ) (2024-01-11T15:03:17Z) - How Many Pretraining Tasks Are Needed for In-Context Learning of Linear Regression? [92.90857135952231]
様々なタスクで事前訓練されたトランスフォーマーは、顕著なインコンテキスト学習(ICL)能力を示す。
線形回帰のための線形パラメータ化単一層線形アテンションモデルの事前学習を行う。
論文 参考訳(メタデータ) (2023-10-12T15:01:43Z) - Structure-aware Protein Self-supervised Learning [50.04673179816619]
本稿では,タンパク質の構造情報を取得するための構造認識型タンパク質自己教師学習法を提案する。
特に、タンパク質構造情報を保存するために、よく設計されたグラフニューラルネットワーク(GNN)モデルを事前訓練する。
タンパク質言語モデルにおける逐次情報と特別に設計されたGNNモデルにおける構造情報との関係を,新しい擬似二段階最適化手法を用いて同定する。
論文 参考訳(メタデータ) (2022-04-06T02:18:41Z) - Protein Representation Learning by Geometric Structure Pretraining [27.723095456631906]
既存のアプローチは通常、多くの未ラベルアミノ酸配列で事前訓練されたタンパク質言語モデルである。
まず,タンパク質の幾何学的特徴を学習するための単純かつ効果的なエンコーダを提案する。
関数予測と折り畳み分類の両タスクの実験結果から,提案した事前学習法は,より少ないデータを用いた最先端のシーケンスベース手法と同等あるいは同等であることがわかった。
論文 参考訳(メタデータ) (2022-03-11T17:52:13Z) - Pre-training Co-evolutionary Protein Representation via A Pairwise
Masked Language Model [93.9943278892735]
タンパク質配列表現学習の鍵となる問題は、配列中の残基間の共変量によって反映される共進化情報をキャプチャすることである。
Pairwise Masked Language Model (PMLM) と呼ばれる専用言語モデルによる事前学習により,この情報を直接キャプチャする新しい手法を提案する。
提案手法は, 相互関係を効果的に把握し, ベースラインと比較して, 接触予測性能を最大9%向上できることを示す。
論文 参考訳(メタデータ) (2021-10-29T04:01:32Z) - Pre-training Protein Language Models with Label-Agnostic Binding Pairs
Enhances Performance in Downstream Tasks [1.452875650827562]
タンパク質配列の1%未満は構造的にも機能的にも注釈付けされている。
本稿では,結合タンパク質配列と非結合タンパク質配列を混合したRoBERTaモデルを提案する。
トランスフォーマーの注意機構は,タンパク質結合部位の発見に寄与することが示唆された。
論文 参考訳(メタデータ) (2020-12-05T17:37:41Z) - Profile Prediction: An Alignment-Based Pre-Training Task for Protein
Sequence Models [11.483725773928382]
タンパク質予測に対する最近のディープラーニングアプローチは、ラベルなしデータによる事前学習が下流タスクに有用な表現をもたらすことを示している。
我々は、複数の配列アライメントから導かれるタンパク質プロファイルを直接予測する、新しい事前学習タスクを導入する。
以上の結果から, タンパク質配列モデルが生物学的に誘発される誘導バイアスの活用の恩恵を受ける可能性が示唆された。
論文 参考訳(メタデータ) (2020-12-01T01:01:34Z) - Is Transfer Learning Necessary for Protein Landscape Prediction? [14.098875826640883]
教師付き学習のみを用いて訓練されたCNNモデルは、TAPEの最良のモデルと競合し、時には上回っていることを示す。
TAPEが提案するベンチマークタスクは、モデルがタンパク質機能を予測する能力の優れた測定方法であり、今後使用されるべきである。
論文 参考訳(メタデータ) (2020-10-31T20:41:36Z) - Pre-training Text Representations as Meta Learning [113.3361289756749]
本稿では,下流タスクを効果的に学習するために,モデルがテキスト表現を学習する能力を直接最適化する学習アルゴリズムを提案する。
マルチタスク事前学習とモデル非依存型メタラーニングの間には,一連のメタトレインステップによる本質的な関係があることが示されている。
論文 参考訳(メタデータ) (2020-04-12T09:05:47Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。