論文の概要: A Survey of Deep Learning Methods in Protein Bioinformatics and its Impact on Protein Design
- arxiv url: http://arxiv.org/abs/2501.01477v1
- Date: Thu, 02 Jan 2025 05:21:34 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-01-06 15:11:12.794399
- Title: A Survey of Deep Learning Methods in Protein Bioinformatics and its Impact on Protein Design
- Title(参考訳): タンパク質バイオインフォマティクスにおける深層学習法とそのタンパク質設計への影響
- Authors: Weihang Dai,
- Abstract要約: ディープラーニングはコンピュータビジョンや自然言語処理などの分野において顕著な性能を示している。
近年、タンパク質配列のデータ豊富な領域に応用され、大きな成功を収めている。
ディープラーニングによって達成された性能改善は、タンパク質バイオインフォマティクスの分野での新たな可能性を開く。
- 参考スコア(独自算出の注目度): 3.5897534810405403
- License:
- Abstract: Proteins are sequences of amino acids that serve as the basic building blocks of living organisms. Despite rapidly growing databases documenting structural and functional information for various protein sequences, our understanding of proteins remains limited because of the large possible sequence space and the complex inter- and intra-molecular forces. Deep learning, which is characterized by its ability to learn relevant features directly from large datasets, has demonstrated remarkable performance in fields such as computer vision and natural language processing. It has also been increasingly applied in recent years to the data-rich domain of protein sequences with great success, most notably with Alphafold2's breakout performance in the protein structure prediction. The performance improvements achieved by deep learning unlocks new possibilities in the field of protein bioinformatics, including protein design, one of the most difficult but useful tasks. In this paper, we broadly categorize problems in protein bioinformatics into three main categories: 1) structural prediction, 2) functional prediction, and 3) protein design, and review the progress achieved from using deep learning methodologies in each of them. We expand on the main challenges of the protein design problem and highlight how advances in structural and functional prediction have directly contributed to design tasks. Finally, we conclude by identifying important topics and future research directions.
- Abstract(参考訳): タンパク質は、生物の基本的な構成要素として機能するアミノ酸の配列である。
タンパク質配列の構造的および機能的な情報を文書化するデータベースは急速に成長しているが、タンパク質の理解は大きな配列空間と複雑な分子間および分子間力のために限られている。
ディープラーニングは、大規模なデータセットから直接関連する特徴を学習する能力によって特徴付けられるが、コンピュータビジョンや自然言語処理といった分野において顕著な性能を示している。
近年、タンパク質配列のデータ豊富な領域にも適用され、特にAlphafold2のタンパク質構造予測におけるブレークアウト性能において大きな成功を収めている。
ディープラーニングによって達成されるパフォーマンス改善は、タンパク質設計を含むタンパク質バイオインフォマティクスの分野において、最も困難だが有用なタスクの1つとして、新たな可能性を解き放つ。
本稿では,タンパク質バイオインフォマティクスの問題点を,主に3つのカテゴリに分類する。
1)構造予測
2)機能予測,及び
3) タンパク質の設計, 深層学習手法の進歩について検討した。
タンパク質設計問題の主な課題を拡張し、構造的および機能的予測の進歩が設計タスクにどのように貢献したかを強調した。
最後に、重要なトピックと今後の研究方向性を特定することで結論付ける。
関連論文リスト
- GOProteinGNN: Leveraging Protein Knowledge Graphs for Protein Representation Learning [27.192150057715835]
GOProteinGNNは、タンパク質知識グラフ情報を統合することにより、タンパク質言語モデルを強化する新しいアーキテクチャである。
我々のアプローチは、個々のアミノ酸レベルとタンパク質レベルの両方で情報の統合を可能にし、包括的で効果的な学習プロセスを可能にします。
論文 参考訳(メタデータ) (2024-07-31T17:54:22Z) - NaNa and MiGu: Semantic Data Augmentation Techniques to Enhance Protein Classification in Graph Neural Networks [60.48306899271866]
本稿では,背骨化学および側鎖生物物理情報をタンパク質分類タスクに組み込む新しい意味データ拡張手法を提案する。
具体的には, 分子生物学的, 二次構造, 化学結合, およびタンパク質のイオン特性を活用し, 分類作業を容易にする。
論文 参考訳(メタデータ) (2024-03-21T13:27:57Z) - A Text-guided Protein Design Framework [106.79061950107922]
本稿では,タンパク質設計のためのテキスト記述を利用するマルチモーダルフレームワークであるProteinDTを提案する。
タンパク質DTは以下の3つのステップから構成される:2つのモダリティの表現を整列するProteinCLAP、テキストモダリティからタンパク質表現を生成するファシリテーター、表現からタンパク質配列を生成するデコーダ。
本研究では,(1)テキスト誘導タンパク質生成における90%以上の精度,(2)ゼロショットテキスト誘導タンパク質編集タスクにおけるベストヒット率,(3)タンパク質特性予測ベンチマーク6項目中4項目における優れた性能の3つの課題に対するProteinDTの有効性を定量的に検証した。
論文 参考訳(メタデータ) (2023-02-09T12:59:16Z) - Structure-informed Language Models Are Protein Designers [69.70134899296912]
配列ベースタンパク質言語モデル(pLM)の汎用的手法であるLM-Designを提案する。
pLMに軽量な構造アダプターを埋め込んだ構造手術を行い,構造意識を付加した構造手術を行った。
実験の結果,我々の手法は最先端の手法よりも大きなマージンで優れていることがわかった。
論文 参考訳(メタデータ) (2023-02-03T10:49:52Z) - A Survey on Protein Representation Learning: Retrospect and Prospect [42.38007308086495]
タンパク質表現学習は、巨大なタンパク質配列や構造から情報的知識を抽出する上で有望な研究課題である。
本稿では,タンパク質表現学習のモチベーションを紹介し,それらを汎用的かつ統一的な枠組みで定式化する。
次に、既存のPRL手法を、シーケンスベース、構造ベース、シーケンス構造共モデリングの3つの主要なカテゴリに分割する。
論文 参考訳(メタデータ) (2022-12-31T04:01:16Z) - Integration of Pre-trained Protein Language Models into Geometric Deep
Learning Networks [68.90692290665648]
我々は、タンパク質言語モデルから学んだ知識を、いくつかの最先端の幾何学的ネットワークに統合する。
以上の結果から,ベースラインを20%上回る総合的な改善が見られた。
強い証拠は、タンパク質言語モデルの知識を取り入れることで、幾何学的ネットワークの能力が著しく向上することを示している。
論文 参考訳(メタデータ) (2022-12-07T04:04:04Z) - Deep Learning Methods for Protein Family Classification on PDB
Sequencing Data [0.0]
本稿では,新たな双方向LSTMや畳み込みモデルなどのディープラーニングフレームワークの性能を,広く利用可能なシークエンシングデータ上で実証し比較する。
我々のディープラーニングモデルは従来の機械学習手法よりも優れた性能を示し、畳み込みアーキテクチャは最も印象的な推論性能を提供する。
論文 参考訳(メタデータ) (2022-07-14T06:11:32Z) - Contrastive Representation Learning for 3D Protein Structures [13.581113136149469]
本稿では3次元タンパク質構造のための新しい表現学習フレームワークを提案する。
我々のフレームワークは、教師なしのコントラスト学習を用いて、タンパク質構造の意味のある表現を学習する。
これらの表現は、タンパク質機能予測、タンパク質の折りたたみ分類、構造的類似性予測、タンパク質-リガンド結合親和性予測など、様々なタスクを解くためにどのように使用できるかを示す。
論文 参考訳(メタデータ) (2022-05-31T10:33:06Z) - Structure-aware Protein Self-supervised Learning [50.04673179816619]
本稿では,タンパク質の構造情報を取得するための構造認識型タンパク質自己教師学習法を提案する。
特に、タンパク質構造情報を保存するために、よく設計されたグラフニューラルネットワーク(GNN)モデルを事前訓練する。
タンパク質言語モデルにおける逐次情報と特別に設計されたGNNモデルにおける構造情報との関係を,新しい擬似二段階最適化手法を用いて同定する。
論文 参考訳(メタデータ) (2022-04-06T02:18:41Z) - Deep Learning in Protein Structural Modeling and Design [6.282267356230666]
ディープラーニングは、ビッグデータ、アクセシブルツールキット、強力な計算リソースによって刺激される科学的革命を触媒している。
タンパク質構造モデリングは、生物学的システムを分子レベルで理解し、設計するために重要である。
このレビューは、計算生物学者がタンパク質モデリングに適用される深層学習法に精通するのを助けることを目的としており、コンピュータ科学者は深層学習技術から恩恵を受ける可能性のある生物学的に有意義な問題を考察する。
論文 参考訳(メタデータ) (2020-07-16T14:59:38Z) - BERTology Meets Biology: Interpreting Attention in Protein Language
Models [124.8966298974842]
注目レンズを用いたタンパク質トランスフォーマーモデルの解析方法を示す。
注意はタンパク質の折りたたみ構造を捉え、基礎となる配列では遠く離れているが、三次元構造では空間的に近接しているアミノ酸を接続する。
また、注意とタンパク質構造との相互作用を三次元的に可視化する。
論文 参考訳(メタデータ) (2020-06-26T21:50:17Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。