論文の概要: A Multimodal Human Protein Embeddings Database: DeepDrug Protein Embeddings Bank (DPEB)
- arxiv url: http://arxiv.org/abs/2510.22008v1
- Date: Fri, 24 Oct 2025 20:22:17 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-10-28 17:41:21.932025
- Title: A Multimodal Human Protein Embeddings Database: DeepDrug Protein Embeddings Bank (DPEB)
- Title(参考訳): マルチモーダルなヒトタンパク質埋め込みデータベース:Deep Drrug protein Embeddings Bank (DPEB)
- Authors: Md Saiful Islam Sajol, Magesh Rajasekaran, Hayden Gemeinhardt, Adam Bess, Chris Alvin, Supratik Mukhopadhyay,
- Abstract要約: DPEB(DPEB)は、4つの埋め込み型を統合した22,043個のヒトタンパク質のキュレートされたコレクションである。
DPEBは、PPI予測のための複数のグラフニューラルネットワークメソッドをサポートしている。
- 参考スコア(独自算出の注目度): 0.3822990432531661
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Computationally predicting protein-protein interactions (PPIs) is challenging due to the lack of integrated, multimodal protein representations. DPEB is a curated collection of 22,043 human proteins that integrates four embedding types: structural (AlphaFold2), transformer-based sequence (BioEmbeddings), contextual amino acid patterns (ESM-2: Evolutionary Scale Modeling), and sequence-based n-gram statistics (ProtVec]). AlphaFold2 protein structures are available through public databases (e.g., AlphaFold2 Protein Structure Database), but the internal neural network embeddings are not. DPEB addresses this gap by providing AlphaFold2-derived embeddings for computational modeling. Our benchmark evaluations show GraphSAGE with BioEmbedding achieved the highest PPI prediction performance (87.37% AUROC, 79.16% accuracy). The framework also achieved 77.42% accuracy for enzyme classification and 86.04% accuracy for protein family classification. DPEB supports multiple graph neural network methods for PPI prediction, enabling applications in systems biology, drug target identification, pathway analysis, and disease mechanism studies.
- Abstract(参考訳): タンパク質-タンパク質相互作用(PPI)の計算予測は、統合されたマルチモーダルタンパク質表現の欠如により困難である。
DPEBは、構造体(AlphaFold2)、トランスフォーマーベースの配列(BioEmbeddings)、コンテキストアミノ酸パターン(ESM-2: Evolutionary Scale Modeling)、配列ベースのn-gram統計(ProtVec])の4つの埋め込み型を統合した22,043個のヒトタンパク質のキュレートコレクションである。
AlphaFold2タンパク質構造はパブリックデータベース(例えばAlphaFold2タンパク質構造データベース)を通じて利用できるが、内部のニューラルネットワークの埋め込みはそうではない。
DPEBは計算モデルにAlphaFold2由来の埋め込みを提供することで、このギャップに対処する。
ベンチマーク評価の結果,BioEmbedding を用いた GraphSAGE は PPI 予測性能が最も高い (87.37% AUROC,79.16% の精度)。
また、酵素分類の精度は77.42%、タンパク質ファミリー分類の精度は86.04%に達した。
DPEBは、PPI予測のための複数のグラフニューラルネットワーク手法をサポートしており、システム生物学、薬物標的同定、経路解析、疾患機構の研究に応用することができる。
関連論文リスト
- ResCap-DBP: A Lightweight Residual-Capsule Network for Accurate DNA-Binding Protein Prediction Using Global ProteinBERT Embeddings [9.626183317998143]
本稿では,残差学習に基づくエンコーダと1次元カプセルネットワークを組み合わせた新しいディープラーニングフレームワークResCap-DBPを提案する。
ProteinBERTの埋め込みは、大きなデータセット上の他の表現を大幅に上回る。
我々のモデルは、常に現在の最先端の手法より優れています。
論文 参考訳(メタデータ) (2025-07-27T21:54:32Z) - PRING: Rethinking Protein-Protein Interaction Prediction from Pairs to Graphs [88.98041407783502]
PRINGは、タンパク質とタンパク質の相互作用予測をグラフレベルで評価する最初のベンチマークである。
PRINGは、21,484タンパク質と186,818の相互作用からなる高品質な多種PPIネットワークデータセットをキュレートする。
論文 参考訳(メタデータ) (2025-07-07T15:21:05Z) - DISPROTBENCH: A Disorder-Aware, Task-Rich Benchmark for Evaluating Protein Structure Prediction in Realistic Biological Contexts [76.59606029593085]
DisProtBenchは、構造障害および複雑な生物学的条件下でタンパク質構造予測モデル(PSPM)を評価するためのベンチマークである。
DisProtBenchはデータの複雑さ、タスクの多様性、解釈可能性という3つの重要な軸にまたがっている。
その結果,機能的予測障害と相関する低信頼領域を有する障害下でのモデルロバスト性に有意な変動が認められた。
論文 参考訳(メタデータ) (2025-06-18T23:58:22Z) - Lightweight MSA Design Advances Protein Folding From Evolutionary Embeddings [51.731441632457226]
マルチシークエンスアライメント(MSA)は低ホモロジーおよび孤児タンパク質で機能する。
我々は、下流の折り畳みをより良くサポートするMSAを生成する軽量なMSA設計フレームワークPLAMEを紹介する。
AlphaFold2の低ホモロジー/孤児ベンチマークでは、PLAMEは構造精度の最先端の改善を提供する。
論文 参考訳(メタデータ) (2025-06-17T04:11:30Z) - A general language model for peptide identification [3.856457290796735]
PDeepPPは、事前訓練されたタンパク質言語モデルとハイブリッドトランスフォーマー-畳み込みアーキテクチャを統合する統合ディープラーニングフレームワークである。
大規模かつ正確なペプチド分析を可能にすることにより、PDeepPPは生物医学研究と疾患治療のための新しい治療標的の発見を支援している。
論文 参考訳(メタデータ) (2025-02-21T17:31:22Z) - Structure-informed Language Models Are Protein Designers [69.70134899296912]
配列ベースタンパク質言語モデル(pLM)の汎用的手法であるLM-Designを提案する。
pLMに軽量な構造アダプターを埋め込んだ構造手術を行い,構造意識を付加した構造手術を行った。
実験の結果,我々の手法は最先端の手法よりも大きなマージンで優れていることがわかった。
論文 参考訳(メタデータ) (2023-02-03T10:49:52Z) - State-specific protein-ligand complex structure prediction with a
multi-scale deep generative model [68.28309982199902]
タンパク質-リガンド複合体構造を直接予測できる計算手法であるNeuralPLexerを提案する。
我々の研究は、データ駆動型アプローチがタンパク質と小分子の構造的協調性を捉え、酵素や薬物分子などの設計を加速させる可能性を示唆している。
論文 参考訳(メタデータ) (2022-09-30T01:46:38Z) - DIPS-Plus: The Enhanced Database of Interacting Protein Structures for
Interface Prediction [2.697420611471228]
DIPS-Plusはタンパク質界面の幾何学的深層学習のための42,112複合体の強化された機能豊富なデータセットである。
DIPSの以前のバージョンは、与えられたタンパク質複合体を構成する原子のカルテシアン座標とタイプのみを含む。
DIPS-Plusには、プロテクション指標、半球アミノ酸組成、および各アミノ酸に対する新しいプロファイル隠れマルコフモデル(HMM)ベースの配列機能を含む、新しい残基レベルの特徴が多数含まれている。
論文 参考訳(メタデータ) (2021-06-06T23:56:27Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。