論文の概要: Exploring evolution-based & -free protein language models as protein
function predictors
- arxiv url: http://arxiv.org/abs/2206.06583v1
- Date: Tue, 14 Jun 2022 03:56:10 GMT
- ステータス: 処理完了
- システム内更新日: 2022-06-15 14:56:06.279749
- Title: Exploring evolution-based & -free protein language models as protein
function predictors
- Title(参考訳): タンパク質機能予測因子としての進化型・自由タンパク質言語モデルの検討
- Authors: Mingyang Hu, Fajie Yuan, Kevin K. Yang, Fusong Ju, Jin Su, Hui Wang,
Fei Yang, Qiuyang Ding
- Abstract要約: 大規模タンパク質言語モデル(PLM)はタンパク質予測タスクの性能を改善した。
ESM-1b(単一配列)、MSA-Transformer(複数配列アライメント)、Evoformer(構造)の3つのPLMの表現能力について検討する。
i) αFoldの一部として訓練されたEvoformerは、タンパク質の機能を予測できる表現を生成するか?
我々はこれらのモデルを、新しい洞察と結論と共に実証的研究によって比較する。
- 参考スコア(独自算出の注目度): 12.381080613343306
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Large-scale Protein Language Models (PLMs) have improved performance in
protein prediction tasks, ranging from 3D structure prediction to various
function predictions. In particular, AlphaFold, a ground-breaking AI system,
could potentially reshape structural biology. However, the utility of the PLM
module in AlphaFold, Evoformer, has not been explored beyond structure
prediction. In this paper, we investigate the representation ability of three
popular PLMs: ESM-1b (single sequence), MSA-Transformer (multiple sequence
alignment) and Evoformer (structural), with a special focus on Evoformer.
Specifically, we aim to answer the following key questions: (i) Does the
Evoformer trained as part of AlphaFold produce representations amenable to
predicting protein function? (ii) If yes, can Evoformer replace ESM-1b and
MSA-Transformer? (iii) How much do these PLMs rely on evolution-related protein
data? In this regard, are they complementary to each other? We compare these
models by empirical study along with new insights and conclusions. Finally, we
release code and datasets for reproducibility.
- Abstract(参考訳): 大規模タンパク質言語モデル(PLM)は、3次元構造予測から様々な機能予測まで、タンパク質予測タスクの性能を改善した。
特に、画期的なAIシステムであるAlphaFoldは、構造生物学を再構築する可能性がある。
しかし、AlphaFold の PLM モジュールである Evoformer の実用性は、構造予測以外にも検討されていない。
本稿では,ESM-1b (単一シーケンス), MSA-Transformer (複数シーケンスアライメント), Evoformer (構造) の3つのPLMの表現能力について検討し,特にEvoformerに着目した。
具体的には、以下の質問に答えることを目指しています。
i)αFoldの一部として訓練されたEvoformerは、タンパク質の機能を予測できる表現を生成するか?
(ii) Evoformer は ESM-1b と MSA-Transformer を置き換えることができるか?
(iii)これらのplmは進化関連タンパク質データに依存するか?
この点において、それらは互いに補完的か?
これらのモデルを経験的研究と新たな洞察と結論によって比較する。
最後に、再現性のためのコードとデータセットをリリースします。
関連論文リスト
- Long-context Protein Language Model [76.95505296417866]
言語モデル(LM)の自己教師による訓練は、有意義な表現の学習や創薬設計において、タンパク質配列に大きな成功を収めている。
ほとんどのタンパク質LMは、短い文脈長を持つ個々のタンパク質に基づいて訓練されたトランスフォーマーアーキテクチャに基づいている。
そこで我々は,選択的構造化状態空間モデルから構築した代替のタンパク質LMアーキテクチャであるBiMamba-Sに基づくLC-PLMを提案する。
また、第2段階のトレーニングのために、タンパク質-タンパク質相互作用グラフの文脈化を行うLC-PLM-Gも導入した。
論文 参考訳(メタデータ) (2024-10-29T16:43:28Z) - MSAGPT: Neural Prompting Protein Structure Prediction via MSA Generative Pre-Training [48.398329286769304]
マルチシークエンスアライメント(MSA)は、タンパク質ファミリーの進化的軌道を明らかにする上で重要な役割を担っている。
MSAGPTは、低MSA状態下でのMSA生成前訓練を通じてタンパク質構造予測を促進する新しいアプローチである。
論文 参考訳(メタデータ) (2024-06-08T04:23:57Z) - Diffusion Language Models Are Versatile Protein Learners [75.98083311705182]
本稿では,タンパク質配列の強い生成および予測能力を示す多目的なタンパク質言語モデルである拡散タンパク質言語モデル(DPLM)を紹介する。
まず, 自己制御型離散拡散確率フレームワークを用いて, 進化的タンパク質配列からのスケーラブルDPLMの事前学習を行った。
プレトレーニング後、DPLMは非条件生成のための構造的に可塑性で新規で多様なタンパク質配列を生成する能力を示す。
論文 参考訳(メタデータ) (2024-02-28T18:57:56Z) - A Latent Diffusion Model for Protein Structure Generation [50.74232632854264]
本稿では,タンパク質モデリングの複雑さを低減できる潜在拡散モデルを提案する。
提案手法は, 高い設計性と効率性を有する新規なタンパク質のバックボーン構造を効果的に生成できることを示す。
論文 参考訳(メタデータ) (2023-05-06T19:10:19Z) - Retrieved Sequence Augmentation for Protein Representation Learning [40.13920287967866]
本稿では,タンパク質表現学習のための検索シーケンス拡張について,アライメントや前処理を伴わずに導入する。
本モデルでは,新しいタンパク質ドメインに移行し,デノボタンパク質の予測においてMSAトランスフォーマーより優れていることを示す。
我々の研究はタンパク質の予測における大きなギャップを埋め、タンパク質配列を理解するのに必要なドメイン知識の解読に一歩近づいた。
論文 参考訳(メタデータ) (2023-02-24T10:31:45Z) - Beating the Best: Improving on AlphaFold2 at Protein Structure
Prediction [1.3124513975412255]
ARStackはAlphaFold2とRosTTAFoldを大きく上回っている。
αFold2とRosTTAFoldの2種類の非ホモログタンパク質と、αFold2とRoseTTAFoldの2種類のタンパク質構造を用いて、これを厳密に実証した。
論文 参考訳(メタデータ) (2023-01-18T14:39:34Z) - Unsupervisedly Prompting AlphaFold2 for Few-Shot Learning of Accurate
Folding Landscape and Protein Structure Prediction [28.630603355510324]
そこで我々は,メタ生成モデルであるEvoGenを提案し,貧弱なMSAターゲットに対するAlphaFold2のアンダーパフォーマンスを改善する。
EvoGenは、キャリブレーションまたは実質的に生成されたホモログシーケンスでモデルにプロンプトすることで、AlphaFold2を低データで正確に折り畳むのに役立つ。
論文 参考訳(メタデータ) (2022-08-20T10:23:17Z) - HelixFold-Single: MSA-free Protein Structure Prediction by Using Protein
Language Model as an Alternative [61.984700682903096]
HelixFold-Singleは、大規模なタンパク質言語モデルとAlphaFold2の優れた幾何学的学習能力を組み合わせるために提案されている。
提案手法は,数千万の一次配列を持つ大規模タンパク質言語モデルを事前学習する。
我々は、一次系列のみから原子の3次元座標を予測するために、エンドツーエンドの微分可能なモデルを得る。
論文 参考訳(メタデータ) (2022-07-28T07:30:33Z) - ProtTrans: Towards Cracking the Language of Life's Code Through
Self-Supervised Deep Learning and High Performance Computing [2.747785739760799]
計算生物学とバイオインフォマティクスは、NLPから抽出された言語モデルに理想的なタンパク質配列からの膨大なデータ金鉱を提供する。
そこで我々は,最大393億アミノ酸を含むUniRefとBFDのデータに基づいて,2つの自己回帰モデル(Transformer-XL, XLNet)と4つの自己エンコーダモデル(BERT, Albert, Electra, T5)を訓練した。
残余ごとの予測では、最も情報に富んだ埋め込み(ProtT5)の転送は、進化的な情報を用いることなく、初めて最先端技術を上回った。
論文 参考訳(メタデータ) (2020-07-13T07:54:20Z) - BERTology Meets Biology: Interpreting Attention in Protein Language
Models [124.8966298974842]
注目レンズを用いたタンパク質トランスフォーマーモデルの解析方法を示す。
注意はタンパク質の折りたたみ構造を捉え、基礎となる配列では遠く離れているが、三次元構造では空間的に近接しているアミノ酸を接続する。
また、注意とタンパク質構造との相互作用を三次元的に可視化する。
論文 参考訳(メタデータ) (2020-06-26T21:50:17Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。