論文の概要: ProtTrans: Towards Cracking the Language of Life's Code Through
Self-Supervised Deep Learning and High Performance Computing
- arxiv url: http://arxiv.org/abs/2007.06225v3
- Date: Tue, 4 May 2021 20:18:22 GMT
- ステータス: 処理完了
- システム内更新日: 2022-11-10 22:29:27.788769
- Title: ProtTrans: Towards Cracking the Language of Life's Code Through
Self-Supervised Deep Learning and High Performance Computing
- Title(参考訳): prottrans: 自己教師付きディープラーニングとハイパフォーマンスコンピューティングによるライフコードの言語解読に向けて
- Authors: Ahmed Elnaggar, Michael Heinzinger, Christian Dallago, Ghalia Rihawi,
Yu Wang, Llion Jones, Tom Gibbs, Tamas Feher, Christoph Angerer, Martin
Steinegger, Debsindhu Bhowmik, Burkhard Rost
- Abstract要約: 計算生物学とバイオインフォマティクスは、NLPから抽出された言語モデルに理想的なタンパク質配列からの膨大なデータ金鉱を提供する。
そこで我々は,最大393億アミノ酸を含むUniRefとBFDのデータに基づいて,2つの自己回帰モデル(Transformer-XL, XLNet)と4つの自己エンコーダモデル(BERT, Albert, Electra, T5)を訓練した。
残余ごとの予測では、最も情報に富んだ埋め込み(ProtT5)の転送は、進化的な情報を用いることなく、初めて最先端技術を上回った。
- 参考スコア(独自算出の注目度): 2.747785739760799
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Computational biology and bioinformatics provide vast data gold-mines from
protein sequences, ideal for Language Models taken from NLP. These LMs reach
for new prediction frontiers at low inference costs. Here, we trained two
auto-regressive models (Transformer-XL, XLNet) and four auto-encoder models
(BERT, Albert, Electra, T5) on data from UniRef and BFD containing up to 393
billion amino acids. The LMs were trained on the Summit supercomputer using
5616 GPUs and TPU Pod up-to 1024 cores. Dimensionality reduction revealed that
the raw protein LM-embeddings from unlabeled data captured some biophysical
features of protein sequences. We validated the advantage of using the
embeddings as exclusive input for several subsequent tasks. The first was a
per-residue prediction of protein secondary structure (3-state accuracy
Q3=81%-87%); the second were per-protein predictions of protein sub-cellular
localization (ten-state accuracy: Q10=81%) and membrane vs. water-soluble
(2-state accuracy Q2=91%). For the per-residue predictions the transfer of the
most informative embeddings (ProtT5) for the first time outperformed the
state-of-the-art without using evolutionary information thereby bypassing
expensive database searches. Taken together, the results implied that protein
LMs learned some of the grammar of the language of life. To facilitate future
work, we released our models at https://github.com/agemagician/ProtTrans.
- Abstract(参考訳): 計算生物学とバイオインフォマティクスは、NLPから抽出された言語モデルに理想的なタンパク質配列からの膨大なデータ金鉱を提供する。
これらのLMは、推論コストの低い新たな予測フロンティアに到達する。
そこで我々は,最大393億アミノ酸を含むUniRefとBFDのデータに基づいて,2つの自己回帰モデル(Transformer-XL, XLNet)と4つの自己エンコーダモデル(BERT, Albert, Electra, T5)を訓練した。
LMはサミットのスーパーコンピュータで5616のGPUと1024コアまでのTPU Podを使って訓練された。
次元の減少により,未ラベルデータからの生タンパク質LM-埋め込みがタンパク質配列の生化学的特徴を捉えたことが明らかとなった。
組込みをいくつかのタスクの排他的入力として使用する利点を検証した。
第1はタンパク質二次構造(3-state accuracy Q3=81%-87%)、第2はタンパク質サブ細胞局在(10-state accuracy: Q10=81%)、膜対水溶性(2-state accuracy Q2=91%)である。
per-residue予測では、最も有益な埋め込み(prott5)の転送は、進化的情報を使わずに最先端のデータベース検索をバイパスした。
その結果,タンパク質lmsは生命の言語の文法をある程度学習したことが示唆された。
今後の作業を容易にするため、私たちはhttps://github.com/agemagician/ProtTrans.comでモデルをリリースしました。
関連論文リスト
- xTrimoPGLM: Unified 100B-Scale Pre-trained Transformer for Deciphering
the Language of Protein [76.18058946124111]
本稿では,タンパク質の理解と生成を同時に行うために,統一されたタンパク質言語モデル xTrimoPGLM を提案する。
xTrimoPGLMは、4つのカテゴリにわたる18のタンパク質理解ベンチマークにおいて、他の高度なベースラインを著しく上回っている。
また、自然の原理に従ってデノボタンパク質配列を生成でき、微調整を監督した後にプログラム可能な生成を行うことができる。
論文 参考訳(メタデータ) (2024-01-11T15:03:17Z) - Efficiently Predicting Protein Stability Changes Upon Single-point
Mutation with Large Language Models [51.57843608615827]
タンパク質の熱安定性を正確に予測する能力は、様々なサブフィールドや生化学への応用において重要である。
タンパク質配列と構造的特徴を統合したESMによる効率的なアプローチを導入し, 単一点突然変異によるタンパク質の熱安定性変化を予測する。
論文 参考訳(メタデータ) (2023-12-07T03:25:49Z) - DeepGATGO: A Hierarchical Pretraining-Based Graph-Attention Model for
Automatic Protein Function Prediction [4.608328575930055]
自動タンパク質機能予測(AFP)は大規模多ラベル分類問題に分類される。
現在、一般的な手法は主にタンパク質関連情報と遺伝子オントロジー(GO)の用語を組み合わせて、最終的な機能予測を生成する。
本稿では,タンパク質配列とGO項ラベルを階層的に処理するシークエンスベースの階層予測手法であるDeepGATGOを提案する。
論文 参考訳(メタデータ) (2023-07-24T07:01:32Z) - Retrieved Sequence Augmentation for Protein Representation Learning [40.13920287967866]
本稿では,タンパク質表現学習のための検索シーケンス拡張について,アライメントや前処理を伴わずに導入する。
本モデルでは,新しいタンパク質ドメインに移行し,デノボタンパク質の予測においてMSAトランスフォーマーより優れていることを示す。
我々の研究はタンパク質の予測における大きなギャップを埋め、タンパク質配列を理解するのに必要なドメイン知識の解読に一歩近づいた。
論文 参考訳(メタデータ) (2023-02-24T10:31:45Z) - Structure-informed Language Models Are Protein Designers [69.70134899296912]
配列ベースタンパク質言語モデル(pLM)の汎用的手法であるLM-Designを提案する。
pLMに軽量な構造アダプターを埋め込んだ構造手術を行い,構造意識を付加した構造手術を行った。
実験の結果,我々の手法は最先端の手法よりも大きなマージンで優れていることがわかった。
論文 参考訳(メタデータ) (2023-02-03T10:49:52Z) - ProtST: Multi-Modality Learning of Protein Sequences and Biomedical
Texts [22.870765825298268]
タンパク質配列を拡大するProtSTデータセットを構築し,その機能や重要な特性をテキストで記述する。
事前学習中に、単調マスク予測、マルチモーダル表現アライメント、マルチモーダルマスク予測という3種類のタスクを設計する。
下流タスクでは、ProtSTは教師付き学習とゼロショット予測の両方を可能にする。
論文 参考訳(メタデータ) (2023-01-28T00:58:48Z) - Reprogramming Pretrained Language Models for Protein Sequence
Representation Learning [68.75392232599654]
エンドツーエンドの表現学習フレームワークである辞書学習(R2DL)による表現学習を提案する。
R2DLは、タンパク質配列の埋め込みを学ぶために、事前訓練された英語モデルを再プログラムする。
我々のモデルは,事前訓練および標準教師付き手法によって設定されたベースラインに対して,最大105ドルの精度でデータ効率を大幅に向上させることができる。
論文 参考訳(メタデータ) (2023-01-05T15:55:18Z) - Pre-training Protein Language Models with Label-Agnostic Binding Pairs
Enhances Performance in Downstream Tasks [1.452875650827562]
タンパク質配列の1%未満は構造的にも機能的にも注釈付けされている。
本稿では,結合タンパク質配列と非結合タンパク質配列を混合したRoBERTaモデルを提案する。
トランスフォーマーの注意機構は,タンパク質結合部位の発見に寄与することが示唆された。
論文 参考訳(メタデータ) (2020-12-05T17:37:41Z) - Deep Learning of High-Order Interactions for Protein Interface
Prediction [58.164371994210406]
本稿では,タンパク質界面の予測を2次元密度予測問題として定式化する。
タンパク質をグラフとして表現し、グラフニューラルネットワークを用いてノードの特徴を学習する。
我々は高次対相互作用を組み込んで、異なる対相互作用を含む3次元テンソルを生成する。
論文 参考訳(メタデータ) (2020-07-18T05:39:35Z) - Language Model Prior for Low-Resource Neural Machine Translation [85.55729693003829]
ニューラル翻訳モデル (TM) において, LM を事前に組み込む新しい手法を提案する。
正規化項を追加し、TMの出力分布をLMの下で予測可能とする。
2つの低リソース機械翻訳データセットの結果は、限られたモノリンガルデータであっても明らかな改善を示している。
論文 参考訳(メタデータ) (2020-04-30T16:29:56Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。