論文の概要: Deep Learning Methods for Protein Family Classification on PDB
Sequencing Data
- arxiv url: http://arxiv.org/abs/2207.06678v1
- Date: Thu, 14 Jul 2022 06:11:32 GMT
- ステータス: 処理完了
- システム内更新日: 2022-07-16 02:36:08.844529
- Title: Deep Learning Methods for Protein Family Classification on PDB
Sequencing Data
- Title(参考訳): pdbシーケンシングデータを用いたタンパク質ファミリー分類のための深層学習法
- Authors: Aaron Wang
- Abstract要約: 本稿では,新たな双方向LSTMや畳み込みモデルなどのディープラーニングフレームワークの性能を,広く利用可能なシークエンシングデータ上で実証し比較する。
我々のディープラーニングモデルは従来の機械学習手法よりも優れた性能を示し、畳み込みアーキテクチャは最も印象的な推論性能を提供する。
- 参考スコア(独自算出の注目度): 0.0
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Composed of amino acid chains that influence how they fold and thus dictating
their function and features, proteins are a class of macromolecules that play a
central role in major biological processes and are required for the structure,
function, and regulation of the body's tissues. Understanding protein functions
is vital to the development of therapeutics and precision medicine, and hence
the ability to classify proteins and their functions based on measurable
features is crucial; indeed, the automatic inference of a protein's properties
from its sequence of amino acids, known as its primary structure, remains an
important open problem within the field of bioinformatics, especially given the
recent advancements in sequencing technologies and the extensive number of
known but uncategorized proteins with unknown properties. In this work, we
demonstrate and compare the performance of several deep learning frameworks,
including novel bi-directional LSTM and convolutional models, on widely
available sequencing data from the Protein Data Bank (PDB) of the Research
Collaboratory for Structural Bioinformatics (RCSB), as well as benchmark this
performance against classical machine learning approaches, including k-nearest
neighbors and multinomial regression classifiers, trained on experimental data.
Our results show that our deep learning models deliver superior performance to
classical machine learning methods, with the convolutional architecture
providing the most impressive inference performance.
- Abstract(参考訳): タンパク質は、その折りたたみやその機能や特徴に影響を与えるアミノ酸鎖で構成され、主要な生物学的過程において中心的な役割を果たす高分子の一種であり、身体組織の構造、機能、制御に必須である。
Understanding protein functions is vital to the development of therapeutics and precision medicine, and hence the ability to classify proteins and their functions based on measurable features is crucial; indeed, the automatic inference of a protein's properties from its sequence of amino acids, known as its primary structure, remains an important open problem within the field of bioinformatics, especially given the recent advancements in sequencing technologies and the extensive number of known but uncategorized proteins with unknown properties.
本研究では,構造バイオインフォマティクス研究協力(rcsb)のタンパク質データバンク(pdb)から広く入手可能なシークエンシングデータに対して,新しい双方向lstmおよび畳み込みモデルを含む,いくつかのディープラーニングフレームワークのパフォーマンスを実証・比較し,k-nearest近傍や多項回帰分類器などの古典的機械学習アプローチに対するパフォーマンスのベンチマークを行った。
我々のディープラーニングモデルは従来の機械学習手法よりも優れた性能を示し、畳み込みアーキテクチャは最も印象的な推論性能を提供する。
関連論文リスト
- A Systematic Study of Joint Representation Learning on Protein Sequences
and Structures [38.94729758958265]
効果的なタンパク質表現の学習は、タンパク質機能の予測のような生物学の様々なタスクにおいて重要である。
近年, タンパク質言語モデル(PLM)に基づく配列表現学習法は, 配列ベースタスクでは優れているが, タンパク質構造に関わるタスクへの直接適応は依然として困難である。
本研究は、最先端のPLMと異なる構造エンコーダを統合することで、結合タンパク質表現学習の包括的研究を行う。
論文 参考訳(メタデータ) (2023-03-11T01:24:10Z) - Structure-informed Language Models Are Protein Designers [69.70134899296912]
配列ベースタンパク質言語モデル(pLM)の汎用的手法であるLM-Designを提案する。
pLMに軽量な構造アダプターを埋め込んだ構造手術を行い,構造意識を付加した構造手術を行った。
実験の結果,我々の手法は最先端の手法よりも大きなマージンで優れていることがわかった。
論文 参考訳(メタデータ) (2023-02-03T10:49:52Z) - A Survey on Protein Representation Learning: Retrospect and Prospect [42.38007308086495]
タンパク質表現学習は、巨大なタンパク質配列や構造から情報的知識を抽出する上で有望な研究課題である。
本稿では,タンパク質表現学習のモチベーションを紹介し,それらを汎用的かつ統一的な枠組みで定式化する。
次に、既存のPRL手法を、シーケンスベース、構造ベース、シーケンス構造共モデリングの3つの主要なカテゴリに分割する。
論文 参考訳(メタデータ) (2022-12-31T04:01:16Z) - Integration of Pre-trained Protein Language Models into Geometric Deep
Learning Networks [68.90692290665648]
我々は、タンパク質言語モデルから学んだ知識を、いくつかの最先端の幾何学的ネットワークに統合する。
以上の結果から,ベースラインを20%上回る総合的な改善が見られた。
強い証拠は、タンパク質言語モデルの知識を取り入れることで、幾何学的ネットワークの能力が著しく向上することを示している。
論文 参考訳(メタデータ) (2022-12-07T04:04:04Z) - Learning multi-scale functional representations of proteins from
single-cell microscopy data [77.34726150561087]
局所化分類に基づいて訓練された単純な畳み込みネットワークは、多様な機能情報をカプセル化したタンパク質表現を学習できることを示す。
また,生物機能の異なるスケールでタンパク質表現の質を評価するためのロバストな評価戦略を提案する。
論文 参考訳(メタデータ) (2022-05-24T00:00:07Z) - Learning Geometrically Disentangled Representations of Protein Folding
Simulations [72.03095377508856]
この研究は、薬物標的タンパク質の構造的アンサンブルに基づいて生成ニューラルネットワークを学習することに焦点を当てている。
モデル課題は、様々な薬物分子に結合したタンパク質の構造的変動を特徴付けることである。
その結果,我々の幾何学的学習に基づく手法は,複雑な構造変化を生成するための精度と効率の両方を享受できることがわかった。
論文 参考訳(メタデータ) (2022-05-20T19:38:00Z) - Structure-aware Protein Self-supervised Learning [50.04673179816619]
本稿では,タンパク質の構造情報を取得するための構造認識型タンパク質自己教師学習法を提案する。
特に、タンパク質構造情報を保存するために、よく設計されたグラフニューラルネットワーク(GNN)モデルを事前訓練する。
タンパク質言語モデルにおける逐次情報と特別に設計されたGNNモデルにおける構造情報との関係を,新しい擬似二段階最適化手法を用いて同定する。
論文 参考訳(メタデータ) (2022-04-06T02:18:41Z) - Binary classification of proteins by a Machine Learning approach [0.0]
本稿では,タンパク質データバンクに含まれるタンパク質の記述に基づいてアミノ酸のタンパク質鎖を分類するシステムを提案する。
それぞれのタンパク質は、XML形式でのファイルの化学・物理・幾何学的特性で完全に記述されている。
この研究の目的は、大量のデータの収集と管理のためのディープラーニング機械を設計し、そのアミノ酸配列の分類への応用を通じてそれを検証することである。
論文 参考訳(メタデータ) (2021-11-03T01:58:16Z) - PersGNN: Applying Topological Data Analysis and Geometric Deep Learning
to Structure-Based Protein Function Prediction [0.07340017786387766]
本研究では,タンパク質構造を分離し,タンパク質データバンク内のタンパク質の機能的アノテーションを作成する。
本稿では,グラフ表現学習とトポロジカルデータ解析を組み合わせた,エンドツーエンドのトレーニング可能なディープラーニングモデルPersGNNを提案する。
論文 参考訳(メタデータ) (2020-10-30T02:24:35Z) - Transfer Learning for Protein Structure Classification at Low Resolution [124.5573289131546]
タンパク質のクラスとアーキテクチャの正確な(geq$80%)予測を、低い(leq$3A)解像度で決定された構造から行うことができることを示す。
本稿では, 高速で低コストなタンパク質構造を低解像度で分類するための概念実証と, 機能予測への拡張の基礎を提供する。
論文 参考訳(メタデータ) (2020-08-11T15:01:32Z) - Deep Learning in Protein Structural Modeling and Design [6.282267356230666]
ディープラーニングは、ビッグデータ、アクセシブルツールキット、強力な計算リソースによって刺激される科学的革命を触媒している。
タンパク質構造モデリングは、生物学的システムを分子レベルで理解し、設計するために重要である。
このレビューは、計算生物学者がタンパク質モデリングに適用される深層学習法に精通するのを助けることを目的としており、コンピュータ科学者は深層学習技術から恩恵を受ける可能性のある生物学的に有意義な問題を考察する。
論文 参考訳(メタデータ) (2020-07-16T14:59:38Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。