論文の概要: Protein Language Model-Powered 3D Ligand Binding Site Prediction from
Protein Sequence
- arxiv url: http://arxiv.org/abs/2312.03016v1
- Date: Tue, 5 Dec 2023 01:47:38 GMT
- ステータス: 処理完了
- システム内更新日: 2023-12-07 17:25:15.440093
- Title: Protein Language Model-Powered 3D Ligand Binding Site Prediction from
Protein Sequence
- Title(参考訳): タンパク質言語モデルによる3dリガンド結合部位の予測
- Authors: Shuo Zhang, Lei Xie
- Abstract要約: タンパク質の結合部位の予測は、タンパク質の機能を理解し、潜在的な薬物をスクリーニングする重要な課題である。
既存の方法の多くは、入力として実験的に決定されたタンパク質ホロ構造を必要とする。
タンパク質配列とリガンド分子グラフのみを入力とするLaMPSiteを提案する。
- 参考スコア(独自算出の注目度): 16.06613460477948
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Prediction of ligand binding sites of proteins is a fundamental and important
task for understanding the function of proteins and screening potential drugs.
Most existing methods require experimentally determined protein holo-structures
as input. However, such structures can be unavailable on novel or less-studied
proteins. To tackle this limitation, we propose LaMPSite, which only takes
protein sequences and ligand molecular graphs as input for ligand binding site
predictions. The protein sequences are used to retrieve residue-level
embeddings and contact maps from the pre-trained ESM-2 protein language model.
The ligand molecular graphs are fed into a graph neural network to compute
atom-level embeddings. Then we compute and update the protein-ligand
interaction embedding based on the protein residue-level embeddings and ligand
atom-level embeddings, and the geometric constraints in the inferred protein
contact map and ligand distance map. A final pooling on protein-ligand
interaction embedding would indicate which residues belong to the binding
sites. Without any 3D coordinate information of proteins, our proposed model
achieves competitive performance compared to baseline methods that require 3D
protein structures when predicting binding sites. Given that less than 50% of
proteins have reliable structure information in the current stage, LaMPSite
will provide new opportunities for drug discovery.
- Abstract(参考訳): タンパク質のリガンド結合部位の予測は、タンパク質の機能を理解し、潜在的薬物をスクリーニングするための基本的で重要な課題である。
既存の方法の多くは、入力として実験的に決定されたタンパク質ホロ構造を必要とする。
しかし、そのような構造は新規または研究の少ないタンパク質では利用できない。
この制限に対処するため,リガンド結合部位予測の入力としてタンパク質配列とリガンド分子グラフのみを用いるLaMPSiteを提案する。
タンパク質配列は、事前訓練されたESM-2タンパク質言語モデルから残基レベルの埋め込みと接触マップを取得するために使用される。
リガンド分子グラフは、原子レベルの埋め込みを計算するためにグラフニューラルネットワークに供給される。
次に、タンパク質残基レベルの埋め込みとリガンド原子レベルの埋め込み、および推定されたタンパク質接触マップとリガンド距離マップにおける幾何学的制約に基づいて、タンパク質-リガンド相互作用埋め込みを計算・更新する。
タンパク質-リガンド相互作用の埋め込みの最終プールは、どの残基が結合部位に属するかを示す。
タンパク質の3D座標情報がないため,本モデルでは結合部位の予測に3Dタンパク質構造を必要とするベースライン法と比較して競合性能が向上する。
現在、タンパク質の50%未満が信頼できる構造情報を持っていることを考慮すれば、LaMPSiteは薬物発見の新しい機会を提供するだろう。
関連論文リスト
- PSC-CPI: Multi-Scale Protein Sequence-Structure Contrasting for
Efficient and Generalizable Compound-Protein Interaction Prediction [63.50967073653953]
化合物-タンパク質相互作用予測は、合理的な薬物発見のための化合物-タンパク質相互作用のパターンと強度を予測することを目的としている。
既存のディープラーニングベースの手法では、タンパク質配列や構造が単一のモダリティしか利用していない。
CPI予測のためのマルチスケールタンパク質配列構造コントラストフレームワークを提案する。
論文 参考訳(メタデータ) (2024-02-13T03:51:10Z) - Structure-Informed Protein Language Model [38.019425619750265]
本稿では、構造情報をタンパク質言語モデルに抽出するためのリモートホモロジー検出の統合について紹介する。
この構造インフォームドトレーニングが下流タンパク質機能予測タスクに与える影響を評価する。
論文 参考訳(メタデータ) (2024-02-07T09:32:35Z) - A Text-guided Protein Design Framework [109.18157766856196]
本稿では,タンパク質設計のためのテキスト記述を利用するマルチモーダルフレームワークであるProteinDTを提案する。
タンパク質DTは以下の3つのステップから構成される:2つのモダリティの表現を整列するProteinCLAP、テキストモダリティからタンパク質表現を生成するファシリテーター、表現からタンパク質配列を生成するデコーダ。
本研究では,(1)テキスト誘導タンパク質生成における90%以上の精度,(2)ゼロショットテキスト誘導タンパク質編集タスク10件のベストヒット率,(3)タンパク質特性予測ベンチマーク6件中4件の優れた性能の3つの課題に対して,ProteinDTの有効性を定量的に検証した。
論文 参考訳(メタデータ) (2023-02-09T12:59:16Z) - State-specific protein-ligand complex structure prediction with a
multi-scale deep generative model [68.28309982199902]
タンパク質-リガンド複合体構造を直接予測できる計算手法であるNeuralPLexerを提案する。
我々の研究は、データ駆動型アプローチがタンパク質と小分子の構造的協調性を捉え、酵素や薬物分子などの設計を加速させる可能性を示唆している。
論文 参考訳(メタデータ) (2022-09-30T01:46:38Z) - Learning Geometrically Disentangled Representations of Protein Folding
Simulations [72.03095377508856]
この研究は、薬物標的タンパク質の構造的アンサンブルに基づいて生成ニューラルネットワークを学習することに焦点を当てている。
モデル課題は、様々な薬物分子に結合したタンパク質の構造的変動を特徴付けることである。
その結果,我々の幾何学的学習に基づく手法は,複雑な構造変化を生成するための精度と効率の両方を享受できることがわかった。
論文 参考訳(メタデータ) (2022-05-20T19:38:00Z) - Structure-aware Protein Self-supervised Learning [50.04673179816619]
本稿では,タンパク質の構造情報を取得するための構造認識型タンパク質自己教師学習法を提案する。
特に、タンパク質構造情報を保存するために、よく設計されたグラフニューラルネットワーク(GNN)モデルを事前訓練する。
タンパク質言語モデルにおける逐次情報と特別に設計されたGNNモデルにおける構造情報との関係を,新しい擬似二段階最適化手法を用いて同定する。
論文 参考訳(メタデータ) (2022-04-06T02:18:41Z) - Protein 3D structure-based neural networks highly improve the accuracy
in compound-protein binding affinity prediction [7.059949221160259]
我々は,タンパク質3D構造情報の複合タンパク質結合親和性(CPAs)予測への応用を容易にするために,高速進化的注意と粗いグラフニューラルネットワーク(FeatNN)を開発した。
FeatNNはCPA予測において様々な最先端のベースラインをかなり上回り、ピアソン値は約35.7%上昇した。
論文 参考訳(メタデータ) (2022-03-30T00:44:15Z) - Multimodal Pre-Training Model for Sequence-based Prediction of
Protein-Protein Interaction [7.022012579173686]
タンパク質モデルによる効果的な表現の学習は、タンパク質とタンパク質の相互作用において重要である。
PPIの事前学習モデルのほとんどは配列ベースであり、自然言語処理で使用される言語モデルをアミノ酸配列に導入している。
本稿では, 配列, 構造, 機能という3つのモーダル性を持つマルチモーダルタンパク質事前学習モデルを提案する。
論文 参考訳(メタデータ) (2021-12-09T10:21:52Z) - Leveraging Sequence Embedding and Convolutional Neural Network for
Protein Function Prediction [27.212743275697825]
タンパク質機能予測の主な課題は、大きなラベル空間とラベル付きトレーニングデータの欠如である。
これらの課題を克服するために、教師なしシーケンス埋め込みと深部畳み込みニューラルネットワークの成功を活用する。
論文 参考訳(メタデータ) (2021-12-01T08:31:01Z) - Intrinsic-Extrinsic Convolution and Pooling for Learning on 3D Protein
Structures [18.961218808251076]
大規模タンパク質データの深部3次元解析を可能にする2つの新しい学習操作を提案する。
まず、内在的(タンパク質の折り畳みの下での不変)と外因的(結合下での不変)の両方を考慮する新しい畳み込み演算子を導入する。
第2に、階層的なプーリング演算子を導入し、タンパク質がアミノ酸の有限組の再結合であるという事実を活用することにより、マルチスケールのタンパク質分析を可能にする。
論文 参考訳(メタデータ) (2020-07-13T09:02:40Z) - BERTology Meets Biology: Interpreting Attention in Protein Language
Models [124.8966298974842]
注目レンズを用いたタンパク質トランスフォーマーモデルの解析方法を示す。
注意はタンパク質の折りたたみ構造を捉え、基礎となる配列では遠く離れているが、三次元構造では空間的に近接しているアミノ酸を接続する。
また、注意とタンパク質構造との相互作用を三次元的に可視化する。
論文 参考訳(メタデータ) (2020-06-26T21:50:17Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。