論文の概要: Pre-training Protein Language Models with Label-Agnostic Binding Pairs
Enhances Performance in Downstream Tasks
- arxiv url: http://arxiv.org/abs/2012.03084v1
- Date: Sat, 5 Dec 2020 17:37:41 GMT
- ステータス: 処理完了
- システム内更新日: 2021-05-22 15:22:51.105552
- Title: Pre-training Protein Language Models with Label-Agnostic Binding Pairs
Enhances Performance in Downstream Tasks
- Title(参考訳): ラベル非依存的結合対を持つタンパク質言語モデルによる下流作業の性能向上
- Authors: Modestas Filipavicius, Matteo Manica, Joris Cadow, Maria Rodriguez
Martinez
- Abstract要約: タンパク質配列の1%未満は構造的にも機能的にも注釈付けされている。
本稿では,結合タンパク質配列と非結合タンパク質配列を混合したRoBERTaモデルを提案する。
トランスフォーマーの注意機構は,タンパク質結合部位の発見に寄与することが示唆された。
- 参考スコア(独自算出の注目度): 1.452875650827562
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Less than 1% of protein sequences are structurally and functionally
annotated. Natural Language Processing (NLP) community has recently embraced
self-supervised learning as a powerful approach to learn representations from
unlabeled text, in large part due to the attention-based context-aware
Transformer models. In this work we present a modification to the RoBERTa model
by inputting during pre-training a mixture of binding and non-binding protein
sequences (from STRING database). However, the sequence pairs have no label to
indicate their binding status, as the model relies solely on Masked Language
Modeling (MLM) objective during pre-training. After fine-tuning, such approach
surpasses models trained on single protein sequences for protein-protein
binding prediction, TCR-epitope binding prediction, cellular-localization and
remote homology classification tasks. We suggest that the Transformer's
attention mechanism contributes to protein binding site discovery. Furthermore,
we compress protein sequences by 64% with the Byte Pair Encoding (BPE)
vocabulary consisting of 10K subwords, each around 3-4 amino acids long.
Finally, to expand the model input space to even larger proteins and
multi-protein assemblies, we pre-train Longformer models that support 2,048
tokens. Further work in token-level classification for secondary structure
prediction is needed. Code available at:
https://github.com/PaccMann/paccmann_proteomics
- Abstract(参考訳): タンパク質配列の1%未満は構造的および機能的にアノテートされている。
自然言語処理(NLP)コミュニティは最近、注目ベースのコンテキスト対応トランスフォーマーモデルのために、ラベルのないテキストから表現を学ぶための強力なアプローチとして、自己教師付き学習を取り入れている。
本研究では,結合タンパク質配列と非結合タンパク質配列の混合を事前学習中に入力することで,RoBERTaモデルを改良する。
しかしながら、シーケンスペアにはバインディング状態を示すラベルがないので、モデルが事前トレーニング中にMasked Language Modeling (MLM)の目的にのみ依存する。
微調整後、この手法はタンパク質-タンパク質結合予測、TCR-エピトープ結合予測、細胞局在化、リモートホモロジー分類タスクのための単一タンパク質配列で訓練されたモデルを超えた。
トランスフォーマーの注意機構はタンパク質結合部位の発見に寄与することが示唆された。
さらに,タンパク質配列を64%圧縮し,約3~4アミノ酸長の10kサブワードからなるbpe(byte pair encoding)語彙をコードした。
最後に,2,048個のトークンをサポートするLongformerモデルを事前訓練し,さらに大きなタンパク質や多タンパク質集合体にモデル入力空間を拡大する。
二次構造予測のためのトークンレベル分類のさらなる研究が必要である。
https://github.com/PaccMann/paccmann_proteomics
関連論文リスト
- PLA-SGCN: Protein-Ligand Binding Affinity Prediction by Integrating Similar Pairs and Semi-supervised Graph Convolutional Network [6.024776891570197]
半教師付きグラフ畳み込みネットワーク(GCN)を用いたPLA予測(タスク予測ステップ)において検索したハードタンパク質-リガンドペアを統合することを目的とする。
その結果,提案手法は同等の手法よりも優れた性能を示した。
論文 参考訳(メタデータ) (2024-05-13T03:27:02Z) - ProLLM: Protein Chain-of-Thoughts Enhanced LLM for Protein-Protein Interaction Prediction [54.132290875513405]
タンパク質-タンパク質相互作用(PPI)の予測は、生物学的機能や疾患を理解する上で重要である。
PPI予測に対する従来の機械学習アプローチは、主に直接的な物理的相互作用に焦点を当てていた。
PPIに適したLLMを用いた新しいフレームワークProLLMを提案する。
論文 参考訳(メタデータ) (2024-03-30T05:32:42Z) - FoldToken: Learning Protein Language via Vector Quantization and Beyond [56.19308144551836]
タンパク質配列構造を離散シンボルとして表現するために textbfFoldTokenizer を導入する。
学習したシンボルを textbfFoldToken と呼び、FoldToken の配列が新しいタンパク質言語として機能する。
論文 参考訳(メタデータ) (2024-02-04T12:18:51Z) - xTrimoPGLM: Unified 100B-Scale Pre-trained Transformer for Deciphering
the Language of Protein [76.18058946124111]
本稿では,タンパク質の理解と生成を同時に行うために,統一されたタンパク質言語モデル xTrimoPGLM を提案する。
xTrimoPGLMは、4つのカテゴリにわたる18のタンパク質理解ベンチマークにおいて、他の高度なベースラインを著しく上回っている。
また、自然の原理に従ってデノボタンパク質配列を生成でき、微調整を監督した後にプログラム可能な生成を行うことができる。
論文 参考訳(メタデータ) (2024-01-11T15:03:17Z) - PoET: A generative model of protein families as sequences-of-sequences [5.05828899601167]
本稿では,関連タンパク質の集合を配列配列として生成する過程を学習するタンパク質ファミリー全体の生成モデルを提案する。
PoETは検索拡張言語モデルとして使用することができ、任意のタンパク質ファミリーに設定された任意の変更を生成し、スコア付けすることができる。
以上の結果から,PoETはタンパク質言語モデルと進化的配列モデルに優れており,全ての深さのタンパク質をまたいだ変異関数の予測が可能であることがわかった。
論文 参考訳(メタデータ) (2023-06-09T16:06:36Z) - Retrieved Sequence Augmentation for Protein Representation Learning [40.13920287967866]
本稿では,タンパク質表現学習のための検索シーケンス拡張について,アライメントや前処理を伴わずに導入する。
本モデルでは,新しいタンパク質ドメインに移行し,デノボタンパク質の予測においてMSAトランスフォーマーより優れていることを示す。
我々の研究はタンパク質の予測における大きなギャップを埋め、タンパク質配列を理解するのに必要なドメイン知識の解読に一歩近づいた。
論文 参考訳(メタデータ) (2023-02-24T10:31:45Z) - Reprogramming Pretrained Language Models for Protein Sequence
Representation Learning [68.75392232599654]
エンドツーエンドの表現学習フレームワークである辞書学習(R2DL)による表現学習を提案する。
R2DLは、タンパク質配列の埋め込みを学ぶために、事前訓練された英語モデルを再プログラムする。
我々のモデルは,事前訓練および標準教師付き手法によって設定されたベースラインに対して,最大105ドルの精度でデータ効率を大幅に向上させることができる。
論文 参考訳(メタデータ) (2023-01-05T15:55:18Z) - HelixFold-Single: MSA-free Protein Structure Prediction by Using Protein
Language Model as an Alternative [61.984700682903096]
HelixFold-Singleは、大規模なタンパク質言語モデルとAlphaFold2の優れた幾何学的学習能力を組み合わせるために提案されている。
提案手法は,数千万の一次配列を持つ大規模タンパク質言語モデルを事前学習する。
我々は、一次系列のみから原子の3次元座標を予測するために、エンドツーエンドの微分可能なモデルを得る。
論文 参考訳(メタデータ) (2022-07-28T07:30:33Z) - Pre-training Co-evolutionary Protein Representation via A Pairwise
Masked Language Model [93.9943278892735]
タンパク質配列表現学習の鍵となる問題は、配列中の残基間の共変量によって反映される共進化情報をキャプチャすることである。
Pairwise Masked Language Model (PMLM) と呼ばれる専用言語モデルによる事前学習により,この情報を直接キャプチャする新しい手法を提案する。
提案手法は, 相互関係を効果的に把握し, ベースラインと比較して, 接触予測性能を最大9%向上できることを示す。
論文 参考訳(メタデータ) (2021-10-29T04:01:32Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。