論文の概要: Protein Language Model-Powered 3D Ligand Binding Site Prediction from
Protein Sequence
- arxiv url: http://arxiv.org/abs/2312.03016v1
- Date: Tue, 5 Dec 2023 01:47:38 GMT
- ステータス: 処理完了
- システム内更新日: 2023-12-07 17:25:15.440093
- Title: Protein Language Model-Powered 3D Ligand Binding Site Prediction from
Protein Sequence
- Title(参考訳): タンパク質言語モデルによる3dリガンド結合部位の予測
- Authors: Shuo Zhang, Lei Xie
- Abstract要約: タンパク質の結合部位の予測は、タンパク質の機能を理解し、潜在的な薬物をスクリーニングする重要な課題である。
既存の方法の多くは、入力として実験的に決定されたタンパク質ホロ構造を必要とする。
タンパク質配列とリガンド分子グラフのみを入力とするLaMPSiteを提案する。
- 参考スコア(独自算出の注目度): 16.06613460477948
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Prediction of ligand binding sites of proteins is a fundamental and important
task for understanding the function of proteins and screening potential drugs.
Most existing methods require experimentally determined protein holo-structures
as input. However, such structures can be unavailable on novel or less-studied
proteins. To tackle this limitation, we propose LaMPSite, which only takes
protein sequences and ligand molecular graphs as input for ligand binding site
predictions. The protein sequences are used to retrieve residue-level
embeddings and contact maps from the pre-trained ESM-2 protein language model.
The ligand molecular graphs are fed into a graph neural network to compute
atom-level embeddings. Then we compute and update the protein-ligand
interaction embedding based on the protein residue-level embeddings and ligand
atom-level embeddings, and the geometric constraints in the inferred protein
contact map and ligand distance map. A final pooling on protein-ligand
interaction embedding would indicate which residues belong to the binding
sites. Without any 3D coordinate information of proteins, our proposed model
achieves competitive performance compared to baseline methods that require 3D
protein structures when predicting binding sites. Given that less than 50% of
proteins have reliable structure information in the current stage, LaMPSite
will provide new opportunities for drug discovery.
- Abstract(参考訳): タンパク質のリガンド結合部位の予測は、タンパク質の機能を理解し、潜在的薬物をスクリーニングするための基本的で重要な課題である。
既存の方法の多くは、入力として実験的に決定されたタンパク質ホロ構造を必要とする。
しかし、そのような構造は新規または研究の少ないタンパク質では利用できない。
この制限に対処するため,リガンド結合部位予測の入力としてタンパク質配列とリガンド分子グラフのみを用いるLaMPSiteを提案する。
タンパク質配列は、事前訓練されたESM-2タンパク質言語モデルから残基レベルの埋め込みと接触マップを取得するために使用される。
リガンド分子グラフは、原子レベルの埋め込みを計算するためにグラフニューラルネットワークに供給される。
次に、タンパク質残基レベルの埋め込みとリガンド原子レベルの埋め込み、および推定されたタンパク質接触マップとリガンド距離マップにおける幾何学的制約に基づいて、タンパク質-リガンド相互作用埋め込みを計算・更新する。
タンパク質-リガンド相互作用の埋め込みの最終プールは、どの残基が結合部位に属するかを示す。
タンパク質の3D座標情報がないため,本モデルでは結合部位の予測に3Dタンパク質構造を必要とするベースライン法と比較して競合性能が向上する。
現在、タンパク質の50%未満が信頼できる構造情報を持っていることを考慮すれば、LaMPSiteは薬物発見の新しい機会を提供するだろう。
関連論文リスト
- Long-context Protein Language Model [76.95505296417866]
言語モデル(LM)の自己教師による訓練は、有意義な表現の学習や創薬設計において、タンパク質配列に大きな成功を収めている。
ほとんどのタンパク質LMは、短い文脈長を持つ個々のタンパク質に基づいて訓練されたトランスフォーマーアーキテクチャに基づいている。
そこで我々は,選択的構造化状態空間モデルから構築した代替のタンパク質LMアーキテクチャであるBiMamba-Sに基づくLC-PLMを提案する。
また、第2段階のトレーニングのために、タンパク質-タンパク質相互作用グラフの文脈化を行うLC-PLM-Gも導入した。
論文 参考訳(メタデータ) (2024-10-29T16:43:28Z) - Geometric Self-Supervised Pretraining on 3D Protein Structures using Subgraphs [26.727436310732692]
本稿では,3次元タンパク質構造上の3次元グラフニューラルネットワークを事前学習するための自己教師型手法を提案する。
提案手法が6%までの大幅な改善につながることを実験的に示す。
論文 参考訳(メタデータ) (2024-06-20T09:34:31Z) - ProtT3: Protein-to-Text Generation for Text-based Protein Understanding [88.43323947543996]
言語モデル(LM)は、タンパク質のテキスト記述を理解するのに優れている。
タンパク質言語モデル(PLM)は、タンパク質データを理解し、高品質な表現に変換するが、テキストを処理するのに苦労する。
ProtT3は、テキストベースのタンパク質理解のための、タンパク質からテキストへの生成のためのフレームワークである。
論文 参考訳(メタデータ) (2024-05-21T08:06:13Z) - ProLLM: Protein Chain-of-Thoughts Enhanced LLM for Protein-Protein Interaction Prediction [54.132290875513405]
タンパク質-タンパク質相互作用(PPI)の予測は、生物学的機能や疾患を理解する上で重要である。
PPI予測に対する従来の機械学習アプローチは、主に直接的な物理的相互作用に焦点を当てていた。
PPIに適したLLMを用いた新しいフレームワークProLLMを提案する。
論文 参考訳(メタデータ) (2024-03-30T05:32:42Z) - NaNa and MiGu: Semantic Data Augmentation Techniques to Enhance Protein Classification in Graph Neural Networks [60.48306899271866]
本稿では,背骨化学および側鎖生物物理情報をタンパク質分類タスクに組み込む新しい意味データ拡張手法を提案する。
具体的には, 分子生物学的, 二次構造, 化学結合, およびタンパク質のイオン特性を活用し, 分類作業を容易にする。
論文 参考訳(メタデータ) (2024-03-21T13:27:57Z) - ProtLLM: An Interleaved Protein-Language LLM with Protein-as-Word Pre-Training [82.37346937497136]
本稿では,タンパク質中心タスクとタンパク質言語タスクの両方を対象とした多機能多言語多言語言語モデル (LLM) を提案する。
ProtLLMはユニークな動的タンパク質実装機構を備えており、複雑な入力を処理できる。
専門的なタンパク質語彙を開発することで、自然言語だけでなく、膨大な候補からタンパク質を予測できる能力をモデルに装備する。
論文 参考訳(メタデータ) (2024-02-28T01:29:55Z) - Structure-aware Protein Self-supervised Learning [50.04673179816619]
本稿では,タンパク質の構造情報を取得するための構造認識型タンパク質自己教師学習法を提案する。
特に、タンパク質構造情報を保存するために、よく設計されたグラフニューラルネットワーク(GNN)モデルを事前訓練する。
タンパク質言語モデルにおける逐次情報と特別に設計されたGNNモデルにおける構造情報との関係を,新しい擬似二段階最適化手法を用いて同定する。
論文 参考訳(メタデータ) (2022-04-06T02:18:41Z) - Protein 3D structure-based neural networks highly improve the accuracy
in compound-protein binding affinity prediction [7.059949221160259]
我々は,タンパク質3D構造情報の複合タンパク質結合親和性(CPAs)予測への応用を容易にするために,高速進化的注意と粗いグラフニューラルネットワーク(FeatNN)を開発した。
FeatNNはCPA予測において様々な最先端のベースラインをかなり上回り、ピアソン値は約35.7%上昇した。
論文 参考訳(メタデータ) (2022-03-30T00:44:15Z) - Leveraging Sequence Embedding and Convolutional Neural Network for
Protein Function Prediction [27.212743275697825]
タンパク質機能予測の主な課題は、大きなラベル空間とラベル付きトレーニングデータの欠如である。
これらの課題を克服するために、教師なしシーケンス埋め込みと深部畳み込みニューラルネットワークの成功を活用する。
論文 参考訳(メタデータ) (2021-12-01T08:31:01Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。