論文の概要: Enhancing the Protein Tertiary Structure Prediction by Multiple Sequence
Alignment Generation
- arxiv url: http://arxiv.org/abs/2306.01824v1
- Date: Fri, 2 Jun 2023 14:13:50 GMT
- ステータス: 処理完了
- システム内更新日: 2023-06-06 23:49:22.698135
- Title: Enhancing the Protein Tertiary Structure Prediction by Multiple Sequence
Alignment Generation
- Title(参考訳): 多重配列アライメント生成によるタンパク質三次構造予測の促進
- Authors: Le Zhang, Jiayang Chen, Tao Shen, Yu Li, Siqi Sun
- Abstract要約: 我々はMSA-Augmenterを導入し、データベースに存在しない新規なタンパク質配列を生成する。
CASP14で行った実験では、MSA-Augmenterは、下層のMSAから共進化情報を保持できるde novo配列を生成できることが示されている。
- 参考スコア(独自算出の注目度): 30.2874172276931
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: The field of protein folding research has been greatly advanced by deep
learning methods, with AlphaFold2 (AF2) demonstrating exceptional performance
and atomic-level precision. As co-evolution is integral to protein structure
prediction, AF2's accuracy is significantly influenced by the depth of multiple
sequence alignment (MSA), which requires extensive exploration of a large
protein database for similar sequences. However, not all protein sequences
possess abundant homologous families, and consequently, AF2's performance can
degrade on such queries, at times failing to produce meaningful results. To
address this, we introduce a novel generative language model, MSA-Augmenter,
which leverages protein-specific attention mechanisms and large-scale MSAs to
generate useful, novel protein sequences not currently found in databases.
These sequences supplement shallow MSAs, enhancing the accuracy of structural
property predictions. Our experiments on CASP14 demonstrate that MSA-Augmenter
can generate de novo sequences that retain co-evolutionary information from
inferior MSAs, thereby improving protein structure prediction quality on top of
strong AF2.
- Abstract(参考訳): タンパク質の折りたたみ研究の分野は、AlphaFold2 (AF2) の異常な性能と原子レベルの精度を示す深層学習法によって大きく進歩している。
共進化はタンパク質構造予測に不可欠なため、af2の精度は多重配列アライメント(msa)の深さに大きく影響され、類似配列のために大きなタンパク質データベースを広範囲に探索する必要がある。
しかしながら、全てのタンパク質配列が豊富なホモロジーファミリーを持つわけではないため、AF2の性能はそのようなクエリで劣化し、時には有意義な結果が得られない。
そこで本研究では,タンパク質特異的アテンション機構と大規模MSAを利用した新しい生成言語モデルであるMSA-Augmenterを導入し,データベースに存在しない新規なタンパク質配列を生成する。
これらのシーケンスは浅いMSAを補完し、構造特性予測の精度を高める。
CASP14で行った実験では,MSA-Augmenterが下位のMSAから共進化情報を保持するデノボ配列を生成できることが示され,強力なAF2上でのタンパク質構造予測の品質が向上した。
関連論文リスト
- MSAGPT: Neural Prompting Protein Structure Prediction via MSA Generative Pre-Training [48.398329286769304]
マルチシークエンスアライメント(MSA)は、タンパク質ファミリーの進化的軌道を明らかにする上で重要な役割を担っている。
MSAGPTは、低MSA状態下でのMSA生成前訓練を通じてタンパク質構造予測を促進する新しいアプローチである。
論文 参考訳(メタデータ) (2024-06-08T04:23:57Z) - PSC-CPI: Multi-Scale Protein Sequence-Structure Contrasting for
Efficient and Generalizable Compound-Protein Interaction Prediction [63.50967073653953]
化合物-タンパク質相互作用予測は、合理的な薬物発見のための化合物-タンパク質相互作用のパターンと強度を予測することを目的としている。
既存のディープラーニングベースの手法では、タンパク質配列や構造が単一のモダリティしか利用していない。
CPI予測のためのマルチスケールタンパク質配列構造コントラストフレームワークを提案する。
論文 参考訳(メタデータ) (2024-02-13T03:51:10Z) - Efficiently Predicting Protein Stability Changes Upon Single-point
Mutation with Large Language Models [51.57843608615827]
タンパク質の熱安定性を正確に予測する能力は、様々なサブフィールドや生化学への応用において重要である。
タンパク質配列と構造的特徴を統合したESMによる効率的なアプローチを導入し, 単一点突然変異によるタンパク質の熱安定性変化を予測する。
論文 参考訳(メタデータ) (2023-12-07T03:25:49Z) - OpenProteinSet: Training data for structural biology at scale [0.0]
タンパク質の多重配列アライメント(MSA)は、豊富な生物学的情報をコードする。
AlphaFold2のような、トランスフォーマーを使って大量の生のMSAに直接参加する最近のブレークスルーは、その重要性を再確認している。
OpenProteinSetは1600万以上のMSA、関連するタンパク質データバンクの構造ホモログ、AlphaFold2タンパク質構造予測のオープンソースコーパスである。
論文 参考訳(メタデータ) (2023-08-10T04:01:04Z) - Retrieved Sequence Augmentation for Protein Representation Learning [40.13920287967866]
本稿では,タンパク質表現学習のための検索シーケンス拡張について,アライメントや前処理を伴わずに導入する。
本モデルでは,新しいタンパク質ドメインに移行し,デノボタンパク質の予測においてMSAトランスフォーマーより優れていることを示す。
我々の研究はタンパク質の予測における大きなギャップを埋め、タンパク質配列を理解するのに必要なドメイン知識の解読に一歩近づいた。
論文 参考訳(メタデータ) (2023-02-24T10:31:45Z) - Structure-informed Language Models Are Protein Designers [69.70134899296912]
配列ベースタンパク質言語モデル(pLM)の汎用的手法であるLM-Designを提案する。
pLMに軽量な構造アダプターを埋め込んだ構造手術を行い,構造意識を付加した構造手術を行った。
実験の結果,我々の手法は最先端の手法よりも大きなマージンで優れていることがわかった。
論文 参考訳(メタデータ) (2023-02-03T10:49:52Z) - On the Robustness of AlphaFold: A COVID-19 Case Study [16.564151738086434]
高い精度にもかかわらず、AlphaFoldはそのような堅牢性を示していないことを実証する。
これにより、予測されたタンパク質構造が信頼される範囲を検知し定量化することが困難になる。
論文 参考訳(メタデータ) (2023-01-10T17:31:39Z) - State-specific protein-ligand complex structure prediction with a
multi-scale deep generative model [68.28309982199902]
タンパク質-リガンド複合体構造を直接予測できる計算手法であるNeuralPLexerを提案する。
我々の研究は、データ駆動型アプローチがタンパク質と小分子の構造的協調性を捉え、酵素や薬物分子などの設計を加速させる可能性を示唆している。
論文 参考訳(メタデータ) (2022-09-30T01:46:38Z) - Unsupervisedly Prompting AlphaFold2 for Few-Shot Learning of Accurate
Folding Landscape and Protein Structure Prediction [28.630603355510324]
そこで我々は,メタ生成モデルであるEvoGenを提案し,貧弱なMSAターゲットに対するAlphaFold2のアンダーパフォーマンスを改善する。
EvoGenは、キャリブレーションまたは実質的に生成されたホモログシーケンスでモデルにプロンプトすることで、AlphaFold2を低データで正確に折り畳むのに役立つ。
論文 参考訳(メタデータ) (2022-08-20T10:23:17Z) - Transfer Learning for Protein Structure Classification at Low Resolution [124.5573289131546]
タンパク質のクラスとアーキテクチャの正確な(geq$80%)予測を、低い(leq$3A)解像度で決定された構造から行うことができることを示す。
本稿では, 高速で低コストなタンパク質構造を低解像度で分類するための概念実証と, 機能予測への拡張の基礎を提供する。
論文 参考訳(メタデータ) (2020-08-11T15:01:32Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。