論文の概要: HelixFold-Single: MSA-free Protein Structure Prediction by Using Protein
Language Model as an Alternative
- arxiv url: http://arxiv.org/abs/2207.13921v1
- Date: Thu, 28 Jul 2022 07:30:33 GMT
- ステータス: 処理完了
- システム内更新日: 2022-07-29 12:09:27.184241
- Title: HelixFold-Single: MSA-free Protein Structure Prediction by Using Protein
Language Model as an Alternative
- Title(参考訳): HelixFold-Single:タンパク質言語モデルを用いたMSAフリータンパク質構造予測
- Authors: Xiaomin Fang, Fan Wang, Lihang Liu, Jingzhou He, Dayong Lin, Yingfei
Xiang, Xiaonan Zhang, Hua Wu, Hui Li, Le Song
- Abstract要約: HelixFold-Singleは、大規模なタンパク質言語モデルとAlphaFold2の優れた幾何学的学習能力を組み合わせるために提案されている。
提案手法は,数千万の一次配列を持つ大規模タンパク質言語モデルを事前学習する。
我々は、一次系列のみから原子の3次元座標を予測するために、エンドツーエンドの微分可能なモデルを得る。
- 参考スコア(独自算出の注目度): 61.984700682903096
- License: http://creativecommons.org/licenses/by-nc-nd/4.0/
- Abstract: AI-based protein structure prediction pipelines, such as AlphaFold2, have
achieved near-experimental accuracy. These advanced pipelines mainly rely on
Multiple Sequence Alignments (MSAs) and templates as inputs to learn the
co-evolution information from the homologous sequences. Nonetheless, searching
MSAs and templates from protein databases is time-consuming, usually taking
dozens of minutes. Consequently, we attempt to explore the limits of fast
protein structure prediction by using only primary sequences of proteins.
HelixFold-Single is proposed to combine a large-scale protein language model
with the superior geometric learning capability of AlphaFold2. Our proposed
method, HelixFold-Single, first pre-trains a large-scale protein language model
(PLM) with thousands of millions of primary sequences utilizing the
self-supervised learning paradigm, which will be used as an alternative to MSAs
and templates for learning the co-evolution information. Then, by combining the
pre-trained PLM and the essential components of AlphaFold2, we obtain an
end-to-end differentiable model to predict the 3D coordinates of atoms from
only the primary sequence. HelixFold-Single is validated in datasets CASP14 and
CAMEO, achieving competitive accuracy with the MSA-based methods on the targets
with large homologous families. Furthermore, HelixFold-Single consumes much
less time than the mainstream pipelines for protein structure prediction,
demonstrating its potential in tasks requiring many predictions. The code of
HelixFold-Single is available at
https://github.com/PaddlePaddle/PaddleHelix/tree/dev/apps/protein_folding/helixfold-single,
and we also provide stable web services on
https://paddlehelix.baidu.com/app/drug/protein-single/forecast.
- Abstract(参考訳): AlphaFold2のようなAIベースのタンパク質構造予測パイプラインは、ほぼ実験的な精度を達成した。
これらの高度なパイプラインは主に、ホモロジーシーケンスから共進化情報を学ぶための入力として多重シーケンスアライメント(MSA)とテンプレートに依存している。
それでも、タンパク質データベースからMSAやテンプレートを検索するのには時間がかかる。
そこで本研究では,タンパク質の一次配列のみを用いて,高速タンパク質構造予測の限界を探究する。
HelixFold-Singleは、大規模なタンパク質言語モデルとAlphaFold2の優れた幾何学的学習能力を組み合わせるために提案されている。
提案手法であるhelixfold-singleは,まず,msaの代替手段として使用される,数千万のプライマリシーケンスを用いた大規模タンパク質言語モデル (plm) を事前学習する。
そして、プリトレーニングされたplmとαfold2の必須成分を組み合わせることで、一次配列のみから原子の3d座標を予測するエンドツーエンドの微分可能モデルを得る。
HelixFold-Single はデータセット CASP14 と CAMEO で検証されており、大きなホモロジー族を持つターゲット上の MSA ベースの手法と競合する精度を実現している。
さらに、HelixFold-Singleはタンパク質構造予測の主流パイプラインよりもはるかに少ない時間を消費し、多くの予測を必要とするタスクにおいてその可能性を示す。
HelixFold-Singleのコードはhttps://github.com/PaddlePaddle/PaddleHelix/tree/dev/apps/oprotein_folding/helixfold-singleで利用可能です。
関連論文リスト
- MSAGPT: Neural Prompting Protein Structure Prediction via MSA Generative Pre-Training [48.398329286769304]
マルチシークエンスアライメント(MSA)は、タンパク質ファミリーの進化的軌道を明らかにする上で重要な役割を担っている。
MSAGPTは、低MSA状態下でのMSA生成前訓練を通じてタンパク質構造予測を促進する新しいアプローチである。
論文 参考訳(メタデータ) (2024-06-08T04:23:57Z) - Diffusion Language Models Are Versatile Protein Learners [75.98083311705182]
本稿では,タンパク質配列の強い生成および予測能力を示す多目的なタンパク質言語モデルである拡散タンパク質言語モデル(DPLM)を紹介する。
まず, 自己制御型離散拡散確率フレームワークを用いて, 進化的タンパク質配列からのスケーラブルDPLMの事前学習を行った。
プレトレーニング後、DPLMは非条件生成のための構造的に可塑性で新規で多様なタンパク質配列を生成する能力を示す。
論文 参考訳(メタデータ) (2024-02-28T18:57:56Z) - xTrimoPGLM: Unified 100B-Scale Pre-trained Transformer for Deciphering
the Language of Protein [76.18058946124111]
本稿では,タンパク質の理解と生成を同時に行うために,統一されたタンパク質言語モデル xTrimoPGLM を提案する。
xTrimoPGLMは、4つのカテゴリにわたる18のタンパク質理解ベンチマークにおいて、他の高度なベースラインを著しく上回っている。
また、自然の原理に従ってデノボタンパク質配列を生成でき、微調整を監督した後にプログラム可能な生成を行うことができる。
論文 参考訳(メタデータ) (2024-01-11T15:03:17Z) - Pairing interacting protein sequences using masked language modeling [0.3222802562733787]
配列アライメントに基づいて訓練されたタンパク質言語モデルを用いて相互作用するタンパク質配列をペア化する手法を開発した。
我々は、MSAトランスフォーマーが、周囲のコンテキストを用いて複数の配列アライメントでマスクされたアミノ酸を埋める能力を利用する。
単一チェーンデータでトレーニングされている間に、チェーン間の共進化をキャプチャできることが示されています。
論文 参考訳(メタデータ) (2023-08-14T13:42:09Z) - Target-aware Variational Auto-encoders for Ligand Generation with
Multimodal Protein Representation Learning [2.01243755755303]
ターゲット認識型自動エンコーダであるTargetVAEを導入し、任意のタンパク質標的に対する高い結合親和性で生成する。
これは、タンパク質の異なる表現を単一のモデルに統一する最初の試みであり、これは我々がタンパク質マルチモーダルネットワーク(PMN)と呼ぶ。
論文 参考訳(メタデータ) (2023-08-02T12:08:17Z) - DiffDock-PP: Rigid Protein-Protein Docking with Diffusion Models [47.73386438748902]
DiffDock-PPは拡散生成モデルであり、非有界タンパク質構造をそれらの有界配座に翻訳し回転させる。
中央値C-RMSDが4.85でDIPSの最先端性能を達成し,すべてのベースラインを上回りました。
論文 参考訳(メタデータ) (2023-04-08T02:10:44Z) - AlphaFold Distillation for Protein Design [25.190210443632825]
逆タンパク質の折りたたみはバイオエンジニアリングと薬物発見に不可欠である。
AlphaFoldのような前方の折りたたみモデルは、シーケンスから構造を正確に予測することで潜在的な解決策を提供する。
本稿では, 折り畳みモデルの信頼性測定値に対する知識蒸留を用いて, より高速かつエンドツーエンドの識別可能な蒸留モデルを作成することを提案する。
論文 参考訳(メタデータ) (2022-10-05T19:43:06Z) - Unsupervisedly Prompting AlphaFold2 for Few-Shot Learning of Accurate
Folding Landscape and Protein Structure Prediction [28.630603355510324]
そこで我々は,メタ生成モデルであるEvoGenを提案し,貧弱なMSAターゲットに対するAlphaFold2のアンダーパフォーマンスを改善する。
EvoGenは、キャリブレーションまたは実質的に生成されたホモログシーケンスでモデルにプロンプトすることで、AlphaFold2を低データで正確に折り畳むのに役立つ。
論文 参考訳(メタデータ) (2022-08-20T10:23:17Z) - Pre-training Co-evolutionary Protein Representation via A Pairwise
Masked Language Model [93.9943278892735]
タンパク質配列表現学習の鍵となる問題は、配列中の残基間の共変量によって反映される共進化情報をキャプチャすることである。
Pairwise Masked Language Model (PMLM) と呼ばれる専用言語モデルによる事前学習により,この情報を直接キャプチャする新しい手法を提案する。
提案手法は, 相互関係を効果的に把握し, ベースラインと比較して, 接触予測性能を最大9%向上できることを示す。
論文 参考訳(メタデータ) (2021-10-29T04:01:32Z) - Pre-training Protein Language Models with Label-Agnostic Binding Pairs
Enhances Performance in Downstream Tasks [1.452875650827562]
タンパク質配列の1%未満は構造的にも機能的にも注釈付けされている。
本稿では,結合タンパク質配列と非結合タンパク質配列を混合したRoBERTaモデルを提案する。
トランスフォーマーの注意機構は,タンパク質結合部位の発見に寄与することが示唆された。
論文 参考訳(メタデータ) (2020-12-05T17:37:41Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。