論文の概要: Protein Language Models and Structure Prediction: Connection and
Progression
- arxiv url: http://arxiv.org/abs/2211.16742v1
- Date: Wed, 30 Nov 2022 04:58:54 GMT
- ステータス: 処理完了
- システム内更新日: 2022-12-01 16:22:47.182105
- Title: Protein Language Models and Structure Prediction: Connection and
Progression
- Title(参考訳): タンパク質言語モデルと構造予測:接続と進展
- Authors: Bozhen Hu, Jun Xia, Jiangbin Zheng, Cheng Tan, Yufei Huang, Yongjie
Xu, Stan Z. Li
- Abstract要約: 配列からのタンパク質構造の予測は、機能予測、薬物設計、生物学的プロセス理解の重要な課題である。
近年の進歩は、タンパク質配列データベースの処理における言語モデル(LM)のパワーを証明している。
エネルギーベースモデルとサンプリングプロシージャの代わりに、タンパク質言語モデル(pLM)ベースのパイプラインが出現しているようだ。
- 参考スコア(独自算出の注目度): 34.711094690718596
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: The prediction of protein structures from sequences is an important task for
function prediction, drug design, and related biological processes
understanding. Recent advances have proved the power of language models (LMs)
in processing the protein sequence databases, which inherit the advantages of
attention networks and capture useful information in learning representations
for proteins. The past two years have witnessed remarkable success in tertiary
protein structure prediction (PSP), including evolution-based and
single-sequence-based PSP. It seems that instead of using energy-based models
and sampling procedures, protein language model (pLM)-based pipelines have
emerged as mainstream paradigms in PSP. Despite the fruitful progress, the PSP
community needs a systematic and up-to-date survey to help bridge the gap
between LMs in the natural language processing (NLP) and PSP domains and
introduce their methodologies, advancements and practical applications. To this
end, in this paper, we first introduce the similarities between protein and
human languages that allow LMs extended to pLMs, and applied to protein
databases. Then, we systematically review recent advances in LMs and pLMs from
the perspectives of network architectures, pre-training strategies,
applications, and commonly-used protein databases. Next, different types of
methods for PSP are discussed, particularly how the pLM-based architectures
function in the process of protein folding. Finally, we identify challenges
faced by the PSP community and foresee promising research directions along with
the advances of pLMs. This survey aims to be a hands-on guide for researchers
to understand PSP methods, develop pLMs and tackle challenging problems in this
field for practical purposes.
- Abstract(参考訳): 配列からのタンパク質構造の予測は、機能予測、薬物設計、および関連する生物学的プロセス理解の重要なタスクである。
近年の進歩は、タンパク質配列データベースの処理における言語モデル(LM)のパワーを証明し、注目ネットワークの利点を継承し、タンパク質の学習表現において有用な情報を取得する。
過去2年間、進化型および単一配列型PSPを含む第3次タンパク質構造予測(PSP)が顕著に成功した。
エネルギーベースモデルとサンプリングプロシージャの代わりに、タンパク質言語モデル(pLM)ベースのパイプラインがPSPの主流パラダイムとして現れているようだ。
実りある進歩にもかかわらず、PSPコミュニティは、自然言語処理(NLP)とPSPドメインにおけるLM間のギャップを埋め、それらの方法論、進歩、実践的応用を導入するために、体系的で最新の調査が必要である。
そこで本論文ではまず,PLMに拡張可能なタンパク質言語とヒト言語との類似性について紹介し,タンパク質データベースに適用する。
そして,ネットワークアーキテクチャ,事前学習戦略,応用,一般的に使用されているタンパク質データベースの観点から,最近のLMやpLMの進歩を体系的にレビューする。
次に、タンパク質の折り畳み過程において、特にplmベースのアーキテクチャがどのように機能するかについて論じる。
最後に、PSPコミュニティが直面する課題を特定し、PLMの進歩とともに、将来的な研究方向性を予見する。
本調査は, PSP法を理解し, pLMを開発し, 本分野の課題に取り組むための実践的なガイドとなることを目的とする。
関連論文リスト
- SFM-Protein: Integrative Co-evolutionary Pre-training for Advanced Protein Sequence Representation [97.99658944212675]
タンパク質基盤モデルのための新しい事前学習戦略を導入する。
アミノ酸残基間の相互作用を強調し、短距離および長距離の共進化的特徴の抽出を強化する。
大規模タンパク質配列データセットを用いて学習し,より優れた一般化能力を示す。
論文 参考訳(メタデータ) (2024-10-31T15:22:03Z) - Long-context Protein Language Model [76.95505296417866]
言語モデル(LM)の自己教師による訓練は、有意義な表現の学習や創薬設計において、タンパク質配列に大きな成功を収めている。
ほとんどのタンパク質LMは、短い文脈長を持つ個々のタンパク質に基づいて訓練されたトランスフォーマーアーキテクチャに基づいている。
そこで我々は,選択的構造化状態空間モデルから構築した代替のタンパク質LMアーキテクチャであるBiMamba-Sに基づくLC-PLMを提案する。
また、第2段階のトレーニングのために、タンパク質-タンパク質相互作用グラフの文脈化を行うLC-PLM-Gも導入した。
論文 参考訳(メタデータ) (2024-10-29T16:43:28Z) - Structure-Enhanced Protein Instruction Tuning: Towards General-Purpose Protein Understanding [43.811432723460534]
本稿では,このギャップを埋めるために,構造強化タンパク質インストラクションチューニング(SEPIT)フレームワークを紹介する。
提案手法では, 構造的知識を付加するため, 構造的知識を付加し, これらの拡張された pLM を大規模言語モデル (LLM) に接続し, タンパク質の理解を創出する。
我々はこれまでで最大かつ最も包括的なタンパク質命令データセットを構築し、汎用タンパク質理解モデルの訓練と評価を可能にした。
論文 参考訳(メタデータ) (2024-10-04T16:02:50Z) - ProLLM: Protein Chain-of-Thoughts Enhanced LLM for Protein-Protein Interaction Prediction [54.132290875513405]
タンパク質-タンパク質相互作用(PPI)の予測は、生物学的機能や疾患を理解する上で重要である。
PPI予測に対する従来の機械学習アプローチは、主に直接的な物理的相互作用に焦点を当てていた。
PPIに適したLLMを用いた新しいフレームワークProLLMを提案する。
論文 参考訳(メタデータ) (2024-03-30T05:32:42Z) - Endowing Protein Language Models with Structural Knowledge [5.587293092389789]
本稿では,タンパク質構造データを統合することにより,タンパク質言語モデルを強化する新しいフレームワークを提案する。
PST(Protein Structure Transformer)と呼ばれる精製モデルは、小さなタンパク質構造データベース上でさらに事前訓練されている。
PSTは、タンパク質配列の最先端基盤モデルであるESM-2を一貫して上回り、タンパク質機能予測の新しいベンチマークを設定している。
論文 参考訳(メタデータ) (2024-01-26T12:47:54Z) - xTrimoPGLM: Unified 100B-Scale Pre-trained Transformer for Deciphering
the Language of Protein [76.18058946124111]
本稿では,タンパク質の理解と生成を同時に行うために,統一されたタンパク質言語モデル xTrimoPGLM を提案する。
xTrimoPGLMは、4つのカテゴリにわたる18のタンパク質理解ベンチマークにおいて、他の高度なベースラインを著しく上回っている。
また、自然の原理に従ってデノボタンパク質配列を生成でき、微調整を監督した後にプログラム可能な生成を行うことができる。
論文 参考訳(メタデータ) (2024-01-11T15:03:17Z) - A Systematic Study of Joint Representation Learning on Protein Sequences
and Structures [38.94729758958265]
効果的なタンパク質表現の学習は、タンパク質機能の予測のような生物学の様々なタスクにおいて重要である。
近年, タンパク質言語モデル(PLM)に基づく配列表現学習法は, 配列ベースタスクでは優れているが, タンパク質構造に関わるタスクへの直接適応は依然として困難である。
本研究は、最先端のPLMと異なる構造エンコーダを統合することで、結合タンパク質表現学習の包括的研究を行う。
論文 参考訳(メタデータ) (2023-03-11T01:24:10Z) - A Survey on Protein Representation Learning: Retrospect and Prospect [42.38007308086495]
タンパク質表現学習は、巨大なタンパク質配列や構造から情報的知識を抽出する上で有望な研究課題である。
本稿では,タンパク質表現学習のモチベーションを紹介し,それらを汎用的かつ統一的な枠組みで定式化する。
次に、既存のPRL手法を、シーケンスベース、構造ベース、シーケンス構造共モデリングの3つの主要なカテゴリに分割する。
論文 参考訳(メタデータ) (2022-12-31T04:01:16Z) - Deep Learning Methods for Protein Family Classification on PDB
Sequencing Data [0.0]
本稿では,新たな双方向LSTMや畳み込みモデルなどのディープラーニングフレームワークの性能を,広く利用可能なシークエンシングデータ上で実証し比較する。
我々のディープラーニングモデルは従来の機械学習手法よりも優れた性能を示し、畳み込みアーキテクチャは最も印象的な推論性能を提供する。
論文 参考訳(メタデータ) (2022-07-14T06:11:32Z) - Structure-aware Protein Self-supervised Learning [50.04673179816619]
本稿では,タンパク質の構造情報を取得するための構造認識型タンパク質自己教師学習法を提案する。
特に、タンパク質構造情報を保存するために、よく設計されたグラフニューラルネットワーク(GNN)モデルを事前訓練する。
タンパク質言語モデルにおける逐次情報と特別に設計されたGNNモデルにおける構造情報との関係を,新しい擬似二段階最適化手法を用いて同定する。
論文 参考訳(メタデータ) (2022-04-06T02:18:41Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。