論文の概要: OpenProteinSet: Training data for structural biology at scale
- arxiv url: http://arxiv.org/abs/2308.05326v1
- Date: Thu, 10 Aug 2023 04:01:04 GMT
- ステータス: 処理完了
- システム内更新日: 2023-08-11 13:48:31.840023
- Title: OpenProteinSet: Training data for structural biology at scale
- Title(参考訳): OpenProteinSet:大規模構造生物学のトレーニングデータ
- Authors: Gustaf Ahdritz, Nazim Bouatta, Sachin Kadyan, Lukas Jarosch, Daniel
Berenberg, Ian Fisk, Andrew M. Watkins, Stephen Ra, Richard Bonneau, Mohammed
AlQuraishi
- Abstract要約: タンパク質の多重配列アライメント(MSA)は、豊富な生物学的情報をコードする。
AlphaFold2のような、トランスフォーマーを使って大量の生のMSAに直接参加する最近のブレークスルーは、その重要性を再確認している。
OpenProteinSetは1600万以上のMSA、関連するタンパク質データバンクの構造ホモログ、AlphaFold2タンパク質構造予測のオープンソースコーパスである。
- 参考スコア(独自算出の注目度): 0.0
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Multiple sequence alignments (MSAs) of proteins encode rich biological
information and have been workhorses in bioinformatic methods for tasks like
protein design and protein structure prediction for decades. Recent
breakthroughs like AlphaFold2 that use transformers to attend directly over
large quantities of raw MSAs have reaffirmed their importance. Generation of
MSAs is highly computationally intensive, however, and no datasets comparable
to those used to train AlphaFold2 have been made available to the research
community, hindering progress in machine learning for proteins. To remedy this
problem, we introduce OpenProteinSet, an open-source corpus of more than 16
million MSAs, associated structural homologs from the Protein Data Bank, and
AlphaFold2 protein structure predictions. We have previously demonstrated the
utility of OpenProteinSet by successfully retraining AlphaFold2 on it. We
expect OpenProteinSet to be broadly useful as training and validation data for
1) diverse tasks focused on protein structure, function, and design and 2)
large-scale multimodal machine learning research.
- Abstract(参考訳): タンパク質の多重配列アライメント(MSA)は、豊富な生物学的情報をコードし、タンパク質の設計やタンパク質構造予測といったタスクのバイオインフォマティックな手法で数十年にわたって研究されてきた。
AlphaFold2のような、トランスフォーマーを使って大量の生のMSAに直接参加する最近のブレークスルーは、その重要性を再確認している。
しかし、MSAの生成は非常に計算集約的であり、AlphaFold2のトレーニングに使用されるデータセットは研究コミュニティで利用できないため、タンパク質の機械学習の進歩を妨げている。
この問題を解決するために,1600万以上のMSAのオープンソースコーパスであるOpenProteinSet,タンパク質データバンクの関連構造ホモログ,およびAlphaFold2タンパク質構造予測を紹介する。
我々は以前、AlphaFold2の再トレーニングに成功したOpenProteinSetの有用性を実証しました。
OpenProteinSetは、トレーニングやバリデーションデータとして広く役立つものと期待しています。
1)タンパク質の構造、機能、設計に焦点をあてた多様なタスク
2)大規模マルチモーダル機械学習の研究。
関連論文リスト
- MSAGPT: Neural Prompting Protein Structure Prediction via MSA Generative Pre-Training [48.398329286769304]
マルチシークエンスアライメント(MSA)は、タンパク質ファミリーの進化的軌道を明らかにする上で重要な役割を担っている。
MSAGPTは、低MSA状態下でのMSA生成前訓練を通じてタンパク質構造予測を促進する新しいアプローチである。
論文 参考訳(メタデータ) (2024-06-08T04:23:57Z) - NaNa and MiGu: Semantic Data Augmentation Techniques to Enhance Protein Classification in Graph Neural Networks [60.48306899271866]
本稿では,背骨化学および側鎖生物物理情報をタンパク質分類タスクに組み込む新しい意味データ拡張手法を提案する。
具体的には, 分子生物学的, 二次構造, 化学結合, およびタンパク質のイオン特性を活用し, 分類作業を容易にする。
論文 参考訳(メタデータ) (2024-03-21T13:27:57Z) - APACE: AlphaFold2 and advanced computing as a service for accelerated discovery in biophysics [0.2796197251957245]
我々は、APACE、AlphaFold2および高度なコンピューティング・アズ・ア・サービスを紹介します。
APACEは、独自のAlphaFold2実装よりも最大2桁高速である。
この計算手法は、科学的な発見を自動化し、加速するために、ロボティクス研究所と容易に関連付けられる。
論文 参考訳(メタデータ) (2023-08-15T18:00:01Z) - Enhancing the Protein Tertiary Structure Prediction by Multiple Sequence
Alignment Generation [30.2874172276931]
我々はMSA-Augmenterを導入し、データベースに存在しない新規なタンパク質配列を生成する。
CASP14で行った実験では、MSA-Augmenterは、下層のMSAから共進化情報を保持できるde novo配列を生成できることが示されている。
論文 参考訳(メタデータ) (2023-06-02T14:13:50Z) - Retrieved Sequence Augmentation for Protein Representation Learning [40.13920287967866]
本稿では,タンパク質表現学習のための検索シーケンス拡張について,アライメントや前処理を伴わずに導入する。
本モデルでは,新しいタンパク質ドメインに移行し,デノボタンパク質の予測においてMSAトランスフォーマーより優れていることを示す。
我々の研究はタンパク質の予測における大きなギャップを埋め、タンパク質配列を理解するのに必要なドメイン知識の解読に一歩近づいた。
論文 参考訳(メタデータ) (2023-02-24T10:31:45Z) - Structure-informed Language Models Are Protein Designers [69.70134899296912]
配列ベースタンパク質言語モデル(pLM)の汎用的手法であるLM-Designを提案する。
pLMに軽量な構造アダプターを埋め込んだ構造手術を行い,構造意識を付加した構造手術を行った。
実験の結果,我々の手法は最先端の手法よりも大きなマージンで優れていることがわかった。
論文 参考訳(メタデータ) (2023-02-03T10:49:52Z) - HelixFold-Single: MSA-free Protein Structure Prediction by Using Protein
Language Model as an Alternative [61.984700682903096]
HelixFold-Singleは、大規模なタンパク質言語モデルとAlphaFold2の優れた幾何学的学習能力を組み合わせるために提案されている。
提案手法は,数千万の一次配列を持つ大規模タンパク質言語モデルを事前学習する。
我々は、一次系列のみから原子の3次元座標を予測するために、エンドツーエンドの微分可能なモデルを得る。
論文 参考訳(メタデータ) (2022-07-28T07:30:33Z) - PSP: Million-level Protein Sequence Dataset for Protein Structure
Prediction [34.11168458572554]
PSPと命名された,高いカバレッジと多様性を持つ最初の100万レベルのタンパク質構造予測データセットを提示する。
このデータセットは570k真構造配列(10TB)と745k相補的蒸留配列(15TB)からなる。
また、このデータセット上でのSOTAタンパク質構造予測モデルのベンチマークトレーニング手順も提供する。
論文 参考訳(メタデータ) (2022-06-24T14:08:44Z) - Learning Geometrically Disentangled Representations of Protein Folding
Simulations [72.03095377508856]
この研究は、薬物標的タンパク質の構造的アンサンブルに基づいて生成ニューラルネットワークを学習することに焦点を当てている。
モデル課題は、様々な薬物分子に結合したタンパク質の構造的変動を特徴付けることである。
その結果,我々の幾何学的学習に基づく手法は,複雑な構造変化を生成するための精度と効率の両方を享受できることがわかった。
論文 参考訳(メタデータ) (2022-05-20T19:38:00Z) - Protein-RNA interaction prediction with deep learning: Structure matters [19.541738343743592]
タンパク質とRNAの相互作用は、様々な細胞活動において極めて重要であり、その相互作用を研究するために実験的および計算的手法が開発されている。
最近、AlphaFoldは、タンパク質と生物学の分野全体に革命をもたらした。今後数年で、タンパク質とRNAの相互作用の予測も大幅に促進されるだろう。
本調査は,過去におけるRBP-RNA相互作用場の発展を概説し,アルファフォールド時代以降の今後の発展を予見するものである。
論文 参考訳(メタデータ) (2021-07-26T14:43:36Z) - BERTology Meets Biology: Interpreting Attention in Protein Language
Models [124.8966298974842]
注目レンズを用いたタンパク質トランスフォーマーモデルの解析方法を示す。
注意はタンパク質の折りたたみ構造を捉え、基礎となる配列では遠く離れているが、三次元構造では空間的に近接しているアミノ酸を接続する。
また、注意とタンパク質構造との相互作用を三次元的に可視化する。
論文 参考訳(メタデータ) (2020-06-26T21:50:17Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。