論文の概要: A Survey on Protein Representation Learning: Retrospect and Prospect
- arxiv url: http://arxiv.org/abs/2301.00813v1
- Date: Sat, 31 Dec 2022 04:01:16 GMT
- ステータス: 処理完了
- システム内更新日: 2023-01-04 14:03:21.017016
- Title: A Survey on Protein Representation Learning: Retrospect and Prospect
- Title(参考訳): タンパク質表現学習に関する調査 : 振り返りと展望
- Authors: Lirong Wu, Yufei Huang, Haitao Lin, Stan Z. Li
- Abstract要約: タンパク質表現学習は、巨大なタンパク質配列や構造から情報的知識を抽出する上で有望な研究課題である。
本稿では,タンパク質表現学習のモチベーションを紹介し,それらを汎用的かつ統一的な枠組みで定式化する。
次に、既存のPRL手法を、シーケンスベース、構造ベース、シーケンス構造共モデリングの3つの主要なカテゴリに分割する。
- 参考スコア(独自算出の注目度): 42.38007308086495
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Proteins are fundamental biological entities that play a key role in life
activities. The amino acid sequences of proteins can be folded into stable 3D
structures in the real physicochemical world, forming a special kind of
sequence-structure data. With the development of Artificial Intelligence (AI)
techniques, Protein Representation Learning (PRL) has recently emerged as a
promising research topic for extracting informative knowledge from massive
protein sequences or structures. To pave the way for AI researchers with little
bioinformatics background, we present a timely and comprehensive review of PRL
formulations and existing PRL methods from the perspective of model
architectures, pretext tasks, and downstream applications. We first briefly
introduce the motivations for protein representation learning and formulate it
in a general and unified framework. Next, we divide existing PRL methods into
three main categories: sequence-based, structure-based, and sequence-structure
co-modeling. Finally, we discuss some technical challenges and potential
directions for improving protein representation learning. The latest advances
in PRL methods are summarized in a GitHub repository
https://github.com/LirongWu/awesome-protein-representation-learning.
- Abstract(参考訳): タンパク質は生命活動において重要な役割を果たす基本的な生物学的実体である。
タンパク質のアミノ酸配列は、実際の物理化学的世界で安定な3D構造に折り畳み、特別な種類の配列構造データを形成することができる。
人工知能(AI)技術の発展に伴い、タンパク質表現学習(PRL)は、タンパク質配列や構造から情報的知識を抽出するための有望な研究トピックとして最近登場した。
バイオインフォマティクスのバックグラウンドがほとんどないAI研究者のために、モデルアーキテクチャ、プレテキストタスク、下流アプリケーションの観点から、PRLの定式化と既存のPRLメソッドのタイムリーかつ包括的なレビューを提示する。
まず、タンパク質表現学習の動機を簡潔に紹介し、汎用的で統一的な枠組みで定式化する。
次に,既存のPRL手法を,シーケンスベース,構造ベース,シーケンス構造共モデリングの3つのカテゴリに分割する。
最後に、タンパク質表現学習を改善するための技術的課題と潜在的方向性について論じる。
PRLメソッドの最新の進歩はGitHubリポジトリhttps://github.com/LirongWu/awesome-oprotein-representation-learningで要約されている。
関連論文リスト
- xTrimoPGLM: Unified 100B-Scale Pre-trained Transformer for Deciphering
the Language of Protein [76.18058946124111]
本稿では,タンパク質の理解と生成を同時に行うために,統一されたタンパク質言語モデル xTrimoPGLM を提案する。
xTrimoPGLMは、4つのカテゴリにわたる18のタンパク質理解ベンチマークにおいて、他の高度なベースラインを著しく上回っている。
また、自然の原理に従ってデノボタンパク質配列を生成でき、微調整を監督した後にプログラム可能な生成を行うことができる。
論文 参考訳(メタデータ) (2024-01-11T15:03:17Z) - A Systematic Study of Joint Representation Learning on Protein Sequences
and Structures [38.94729758958265]
効果的なタンパク質表現の学習は、タンパク質機能の予測のような生物学の様々なタスクにおいて重要である。
近年, タンパク質言語モデル(PLM)に基づく配列表現学習法は, 配列ベースタスクでは優れているが, タンパク質構造に関わるタスクへの直接適応は依然として困難である。
本研究は、最先端のPLMと異なる構造エンコーダを統合することで、結合タンパク質表現学習の包括的研究を行う。
論文 参考訳(メタデータ) (2023-03-11T01:24:10Z) - Data-Efficient Protein 3D Geometric Pretraining via Refinement of
Diffused Protein Structure Decoy [42.49977473599661]
有意義なタンパク質表現の学習は、構造に基づく薬物設計のような様々な生物学的下流のタスクにとって重要である。
本稿では,タンパク質事前学習のための統一的なフレームワークと,幾何学的,データ効率,およびタンパク質特異的プリテキストタスクであるRefineDiffを提案する。
論文 参考訳(メタデータ) (2023-02-05T14:13:32Z) - Structure-informed Language Models Are Protein Designers [69.70134899296912]
配列ベースタンパク質言語モデル(pLM)の汎用的手法であるLM-Designを提案する。
pLMに軽量な構造アダプターを埋め込んだ構造手術を行い,構造意識を付加した構造手術を行った。
実験の結果,我々の手法は最先端の手法よりも大きなマージンで優れていることがわかった。
論文 参考訳(メタデータ) (2023-02-03T10:49:52Z) - Deep Learning Methods for Protein Family Classification on PDB
Sequencing Data [0.0]
本稿では,新たな双方向LSTMや畳み込みモデルなどのディープラーニングフレームワークの性能を,広く利用可能なシークエンシングデータ上で実証し比較する。
我々のディープラーニングモデルは従来の機械学習手法よりも優れた性能を示し、畳み込みアーキテクチャは最も印象的な推論性能を提供する。
論文 参考訳(メタデータ) (2022-07-14T06:11:32Z) - Structure-aware Protein Self-supervised Learning [50.04673179816619]
本稿では,タンパク質の構造情報を取得するための構造認識型タンパク質自己教師学習法を提案する。
特に、タンパク質構造情報を保存するために、よく設計されたグラフニューラルネットワーク(GNN)モデルを事前訓練する。
タンパク質言語モデルにおける逐次情報と特別に設計されたGNNモデルにおける構造情報との関係を,新しい擬似二段階最適化手法を用いて同定する。
論文 参考訳(メタデータ) (2022-04-06T02:18:41Z) - Transfer Learning for Protein Structure Classification at Low Resolution [124.5573289131546]
タンパク質のクラスとアーキテクチャの正確な(geq$80%)予測を、低い(leq$3A)解像度で決定された構造から行うことができることを示す。
本稿では, 高速で低コストなタンパク質構造を低解像度で分類するための概念実証と, 機能予測への拡張の基礎を提供する。
論文 参考訳(メタデータ) (2020-08-11T15:01:32Z) - Deep Learning in Protein Structural Modeling and Design [6.282267356230666]
ディープラーニングは、ビッグデータ、アクセシブルツールキット、強力な計算リソースによって刺激される科学的革命を触媒している。
タンパク質構造モデリングは、生物学的システムを分子レベルで理解し、設計するために重要である。
このレビューは、計算生物学者がタンパク質モデリングに適用される深層学習法に精通するのを助けることを目的としており、コンピュータ科学者は深層学習技術から恩恵を受ける可能性のある生物学的に有意義な問題を考察する。
論文 参考訳(メタデータ) (2020-07-16T14:59:38Z) - BERTology Meets Biology: Interpreting Attention in Protein Language
Models [124.8966298974842]
注目レンズを用いたタンパク質トランスフォーマーモデルの解析方法を示す。
注意はタンパク質の折りたたみ構造を捉え、基礎となる配列では遠く離れているが、三次元構造では空間的に近接しているアミノ酸を接続する。
また、注意とタンパク質構造との相互作用を三次元的に可視化する。
論文 参考訳(メタデータ) (2020-06-26T21:50:17Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。