論文の概要: ProtTrans: Towards Cracking the Language of Life's Code Through
Self-Supervised Deep Learning and High Performance Computing
- arxiv url: http://arxiv.org/abs/2007.06225v3
- Date: Tue, 4 May 2021 20:18:22 GMT
- ステータス: 処理完了
- システム内更新日: 2022-11-10 22:29:27.788769
- Title: ProtTrans: Towards Cracking the Language of Life's Code Through
Self-Supervised Deep Learning and High Performance Computing
- Title(参考訳): prottrans: 自己教師付きディープラーニングとハイパフォーマンスコンピューティングによるライフコードの言語解読に向けて
- Authors: Ahmed Elnaggar, Michael Heinzinger, Christian Dallago, Ghalia Rihawi,
Yu Wang, Llion Jones, Tom Gibbs, Tamas Feher, Christoph Angerer, Martin
Steinegger, Debsindhu Bhowmik, Burkhard Rost
- Abstract要約: 計算生物学とバイオインフォマティクスは、NLPから抽出された言語モデルに理想的なタンパク質配列からの膨大なデータ金鉱を提供する。
そこで我々は,最大393億アミノ酸を含むUniRefとBFDのデータに基づいて,2つの自己回帰モデル(Transformer-XL, XLNet)と4つの自己エンコーダモデル(BERT, Albert, Electra, T5)を訓練した。
残余ごとの予測では、最も情報に富んだ埋め込み(ProtT5)の転送は、進化的な情報を用いることなく、初めて最先端技術を上回った。
- 参考スコア(独自算出の注目度): 2.747785739760799
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Computational biology and bioinformatics provide vast data gold-mines from
protein sequences, ideal for Language Models taken from NLP. These LMs reach
for new prediction frontiers at low inference costs. Here, we trained two
auto-regressive models (Transformer-XL, XLNet) and four auto-encoder models
(BERT, Albert, Electra, T5) on data from UniRef and BFD containing up to 393
billion amino acids. The LMs were trained on the Summit supercomputer using
5616 GPUs and TPU Pod up-to 1024 cores. Dimensionality reduction revealed that
the raw protein LM-embeddings from unlabeled data captured some biophysical
features of protein sequences. We validated the advantage of using the
embeddings as exclusive input for several subsequent tasks. The first was a
per-residue prediction of protein secondary structure (3-state accuracy
Q3=81%-87%); the second were per-protein predictions of protein sub-cellular
localization (ten-state accuracy: Q10=81%) and membrane vs. water-soluble
(2-state accuracy Q2=91%). For the per-residue predictions the transfer of the
most informative embeddings (ProtT5) for the first time outperformed the
state-of-the-art without using evolutionary information thereby bypassing
expensive database searches. Taken together, the results implied that protein
LMs learned some of the grammar of the language of life. To facilitate future
work, we released our models at https://github.com/agemagician/ProtTrans.
- Abstract(参考訳): 計算生物学とバイオインフォマティクスは、NLPから抽出された言語モデルに理想的なタンパク質配列からの膨大なデータ金鉱を提供する。
これらのLMは、推論コストの低い新たな予測フロンティアに到達する。
そこで我々は,最大393億アミノ酸を含むUniRefとBFDのデータに基づいて,2つの自己回帰モデル(Transformer-XL, XLNet)と4つの自己エンコーダモデル(BERT, Albert, Electra, T5)を訓練した。
LMはサミットのスーパーコンピュータで5616のGPUと1024コアまでのTPU Podを使って訓練された。
次元の減少により,未ラベルデータからの生タンパク質LM-埋め込みがタンパク質配列の生化学的特徴を捉えたことが明らかとなった。
組込みをいくつかのタスクの排他的入力として使用する利点を検証した。
第1はタンパク質二次構造(3-state accuracy Q3=81%-87%)、第2はタンパク質サブ細胞局在(10-state accuracy: Q10=81%)、膜対水溶性(2-state accuracy Q2=91%)である。
per-residue予測では、最も有益な埋め込み(prott5)の転送は、進化的情報を使わずに最先端のデータベース検索をバイパスした。
その結果,タンパク質lmsは生命の言語の文法をある程度学習したことが示唆された。
今後の作業を容易にするため、私たちはhttps://github.com/agemagician/ProtTrans.comでモデルをリリースしました。
関連論文リスト
- LA4SR: illuminating the dark proteome with generative AI [39.58317527488534]
我々は、微生物配列分類のためのオープンソースのAI言語モデル(LM)を再設計した。
F1のスコアは95点に達し、16,580倍速く動作した。
我々は、AI生成プロセスにアミノ酸パターンをもたらすカスタムAI説明可能性ソフトウェアツールを提供する。
論文 参考訳(メタデータ) (2024-11-11T08:51:18Z) - Training Compute-Optimal Protein Language Models [48.79416103951816]
ほとんどのタンパク質言語モデルは、パフォーマンスが高くなるまで広範囲の計算資源で訓練されている。
調査は、9億3900万のタンパク質配列からなる膨大なデータセットに基づいて行われた。
私たちは、350万から107億のパラメータから5から200億のユニークなトークンまで、300以上のモデルをトレーニングしました。
論文 参考訳(メタデータ) (2024-11-04T14:58:37Z) - Long-context Protein Language Model [76.95505296417866]
言語モデル(LM)の自己教師による訓練は、有意義な表現の学習や創薬設計において、タンパク質配列に大きな成功を収めている。
ほとんどのタンパク質LMは、短い文脈長を持つ個々のタンパク質に基づいて訓練されたトランスフォーマーアーキテクチャに基づいている。
そこで我々は,選択的構造化状態空間モデルから構築した代替のタンパク質LMアーキテクチャであるBiMamba-Sに基づくLC-PLMを提案する。
また、第2段階のトレーニングのために、タンパク質-タンパク質相互作用グラフの文脈化を行うLC-PLM-Gも導入した。
論文 参考訳(メタデータ) (2024-10-29T16:43:28Z) - ProtT3: Protein-to-Text Generation for Text-based Protein Understanding [88.43323947543996]
言語モデル(LM)は、タンパク質のテキスト記述を理解するのに優れている。
タンパク質言語モデル(PLM)は、タンパク質データを理解し、高品質な表現に変換するが、テキストを処理するのに苦労する。
ProtT3は、テキストベースのタンパク質理解のための、タンパク質からテキストへの生成のためのフレームワークである。
論文 参考訳(メタデータ) (2024-05-21T08:06:13Z) - ProLLM: Protein Chain-of-Thoughts Enhanced LLM for Protein-Protein Interaction Prediction [54.132290875513405]
タンパク質-タンパク質相互作用(PPI)の予測は、生物学的機能や疾患を理解する上で重要である。
PPI予測に対する従来の機械学習アプローチは、主に直接的な物理的相互作用に焦点を当てていた。
PPIに適したLLMを用いた新しいフレームワークProLLMを提案する。
論文 参考訳(メタデータ) (2024-03-30T05:32:42Z) - xTrimoPGLM: Unified 100B-Scale Pre-trained Transformer for Deciphering
the Language of Protein [76.18058946124111]
本稿では,タンパク質の理解と生成を同時に行うために,統一されたタンパク質言語モデル xTrimoPGLM を提案する。
xTrimoPGLMは、4つのカテゴリにわたる18のタンパク質理解ベンチマークにおいて、他の高度なベースラインを著しく上回っている。
また、自然の原理に従ってデノボタンパク質配列を生成でき、微調整を監督した後にプログラム可能な生成を行うことができる。
論文 参考訳(メタデータ) (2024-01-11T15:03:17Z) - Retrieved Sequence Augmentation for Protein Representation Learning [40.13920287967866]
本稿では,タンパク質表現学習のための検索シーケンス拡張について,アライメントや前処理を伴わずに導入する。
本モデルでは,新しいタンパク質ドメインに移行し,デノボタンパク質の予測においてMSAトランスフォーマーより優れていることを示す。
我々の研究はタンパク質の予測における大きなギャップを埋め、タンパク質配列を理解するのに必要なドメイン知識の解読に一歩近づいた。
論文 参考訳(メタデータ) (2023-02-24T10:31:45Z) - ProtST: Multi-Modality Learning of Protein Sequences and Biomedical
Texts [22.870765825298268]
タンパク質配列を拡大するProtSTデータセットを構築し,その機能や重要な特性をテキストで記述する。
事前学習中に、単調マスク予測、マルチモーダル表現アライメント、マルチモーダルマスク予測という3種類のタスクを設計する。
下流タスクでは、ProtSTは教師付き学習とゼロショット予測の両方を可能にする。
論文 参考訳(メタデータ) (2023-01-28T00:58:48Z) - Reprogramming Pretrained Language Models for Protein Sequence
Representation Learning [68.75392232599654]
エンドツーエンドの表現学習フレームワークである辞書学習(R2DL)による表現学習を提案する。
R2DLは、タンパク質配列の埋め込みを学ぶために、事前訓練された英語モデルを再プログラムする。
我々のモデルは,事前訓練および標準教師付き手法によって設定されたベースラインに対して,最大105ドルの精度でデータ効率を大幅に向上させることができる。
論文 参考訳(メタデータ) (2023-01-05T15:55:18Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。