論文の概要: DecoyDB: A Dataset for Graph Contrastive Learning in Protein-Ligand Binding Affinity Prediction
- arxiv url: http://arxiv.org/abs/2507.06366v1
- Date: Tue, 08 Jul 2025 20:02:53 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-07-10 17:37:43.377395
- Title: DecoyDB: A Dataset for Graph Contrastive Learning in Protein-Ligand Binding Affinity Prediction
- Title(参考訳): DecoyDB:タンパク質-リガンド結合親和性予測におけるグラフコントラスト学習用データセット
- Authors: Yupu Zhang, Zelin Xu, Tingsong Xiao, Gustavo Seabra, Yanjun Li, Chenglong Li, Zhe Jiang,
- Abstract要約: タンパク質-リガンド複合体の結合親和性を予測することは、薬物発見において重要な役割を担っている。
広く使われているPDBbindデータセットは20K未満のラベル付き複合体を持つ。
自己教師付きグラフコントラスト学習のための大規模構造認識データセットであるDecoyDBを提案する。
- 参考スコア(独自算出の注目度): 10.248499818896693
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Predicting the binding affinity of protein-ligand complexes plays a vital role in drug discovery. Unfortunately, progress has been hindered by the lack of large-scale and high-quality binding affinity labels. The widely used PDBbind dataset has fewer than 20K labeled complexes. Self-supervised learning, especially graph contrastive learning (GCL), provides a unique opportunity to break the barrier by pre-training graph neural network models based on vast unlabeled complexes and fine-tuning the models on much fewer labeled complexes. However, the problem faces unique challenges, including a lack of a comprehensive unlabeled dataset with well-defined positive/negative complex pairs and the need to design GCL algorithms that incorporate the unique characteristics of such data. To fill the gap, we propose DecoyDB, a large-scale, structure-aware dataset specifically designed for self-supervised GCL on protein-ligand complexes. DecoyDB consists of high-resolution ground truth complexes (less than 2.5 Angstrom) and diverse decoy structures with computationally generated binding poses that range from realistic to suboptimal (negative pairs). Each decoy is annotated with a Root Mean Squared Deviation (RMSD) from the native pose. We further design a customized GCL framework to pre-train graph neural networks based on DecoyDB and fine-tune the models with labels from PDBbind. Extensive experiments confirm that models pre-trained with DecoyDB achieve superior accuracy, label efficiency, and generalizability.
- Abstract(参考訳): タンパク質-リガンド複合体の結合親和性を予測することは、薬物発見において重要な役割を担っている。
残念ながら、大規模で高品質な結合親和性ラベルの欠如により、進歩は妨げられている。
広く使われているPDBbindデータセットは20K未満のラベル付き複合体を持つ。
自己教師付き学習、特にグラフコントラッシブ学習(GCL)は、巨大なラベル付き複合体に基づいてグラフニューラルネットワークモデルを事前訓練し、ラベル付き複合体をはるかに少なくしてモデルを微調整することで、障壁を突破するユニークな機会を提供する。
しかし、この問題は、明確に定義された正/負の複雑なペアを持つ包括的未ラベルデータセットの欠如や、そのようなデータのユニークな特徴を取り入れたGCLアルゴリズムを設計する必要性など、固有の課題に直面している。
このギャップを埋めるために,タンパク質-リガンド複合体上の自己教師型GCL用に設計された大規模構造認識データセットであるDecoyDBを提案する。
DecoyDBは(2.5アングストローム未満の)高分解能基底真理錯体と、現実的から準最適(負のペア)まで、計算的に生成された結合ポーズを持つ多種多様なデコイ構造からなる。
それぞれのデコイは、ネイティブポーズからRoot Mean Squared Deviation (RMSD)で注釈付けされる。
さらに、DecoyDBに基づくグラフニューラルネットワークを事前トレーニングし、PDBbindのラベルでモデルを微調整するためのカスタマイズされたGCLフレームワークを設計する。
大規模な実験により、DecoyDBで事前訓練されたモデルは、精度、ラベル効率、一般化性に優れていたことが確認された。
関連論文リスト
- ZEUS: Zero-shot Embeddings for Unsupervised Separation of Tabular Data [7.121259735505479]
ZEUSは、追加のトレーニングや微調整なしに新しいデータセットをクラスタリングできる自己完結型モデルである。
複雑なデータセットを意味のあるコンポーネントに分解して動作し、効果的にクラスタ化することができる。
論文 参考訳(メタデータ) (2025-05-15T20:52:26Z) - RelGNN: Composite Message Passing for Relational Deep Learning [56.48834369525997]
RelGNNはリレーショナルデータベースから構築されたグラフのユニークな構造特性を活用するために特別に設計された新しいGNNフレームワークである。
RelGNNは、Relbench(Fey et al., 2024)から30の多様な実世界のタスクで評価され、ほとんどのタスクで最先端のパフォーマンスを実現し、最大25%の改善を実現している。
論文 参考訳(メタデータ) (2025-02-10T18:58:40Z) - Enhancing Missing Data Imputation through Combined Bipartite Graph and Complete Directed Graph [18.06658040186476]
BCGNN(Bipartite and Complete Directed Graph Neural Network)という新しいフレームワークを導入する。
BCGNN内では、観察と特徴は2つの異なるノードタイプとして区別され、観察された特徴の値はそれらをリンクする属性付きエッジに変換される。
並行して、完全な有向グラフセグメントは、機能間の複雑な相互依存性を網羅し、伝達する。
論文 参考訳(メタデータ) (2024-11-07T17:48:37Z) - CBGBench: Fill in the Blank of Protein-Molecule Complex Binding Graph [66.11279161533619]
CBGBenchは構造ベースドラッグデザイン(SBDD)のベンチマークである
既存のメソッドを属性に基づいて分類することで、CBGBenchは様々な最先端メソッドを実装している。
我々は,これらのモデルを薬物設計に不可欠なタスクに適応させてきた。
論文 参考訳(メタデータ) (2024-06-16T08:20:24Z) - End-to-End Supervised Multilabel Contrastive Learning [38.26579519598804]
マルチラベル表現学習は、オブジェクトカテゴリ間のラベル依存やデータ関連の問題に関連付けられる難しい問題として認識されている。
近年の進歩は、モデルとデータ中心の視点からこれらの課題に対処している。
KMCLと呼ばれる新しいエンドツーエンドのトレーニングフレームワークを提案し、モデルとデータ中心の設計の欠点に対処する。
論文 参考訳(メタデータ) (2023-07-08T12:46:57Z) - HAC-Net: A Hybrid Attention-Based Convolutional Neural Network for
Highly Accurate Protein-Ligand Binding Affinity Prediction [0.0]
本稿では,3次元畳み込みニューラルネットワークと2つのグラフ畳み込みニューラルネットワークからなる新しいディープラーニングアーキテクチャを提案する。
HAC-NetはPDBbind v.2016コアセットの最先端結果を取得する。
我々は,このモデルを,構造に基づく生体分子特性予測に関連する幅広い教師付き学習問題に拡張できると考えている。
論文 参考訳(メタデータ) (2022-12-23T16:14:53Z) - Structure-aware Interactive Graph Neural Networks for the Prediction of
Protein-Ligand Binding Affinity [52.67037774136973]
薬物発見はタンパク質-リガンド結合親和性の予測にしばしば依存する。
近年の進歩は、タンパク質-リガンド複合体の表現を学習することで、グラフニューラルネットワーク(GNN)をより良い親和性予測に応用する大きな可能性を示している。
ポーラインスパイアグラフアテンション層(PGAL)とペア・インタラクティブ・プール(PiPool)の2つのコンポーネントから構成される構造対応型インタラクティブグラフニューラルネットワーク(SIGN)を提案する。
論文 参考訳(メタデータ) (2021-07-21T03:34:09Z) - Learning complex dependency structure of gene regulatory networks from
high dimensional micro-array data with Gaussian Bayesian networks [0.0]
遺伝子発現データセットは、比較的小さなサンプルサイズを持つ数千の遺伝子から構成される。
Glassoアルゴリズムは高次元マイクロアレイデータセットを扱うために提案されている。
既定のGlassoアルゴリズムの修正は、複雑な相互作用構造の問題を克服するために開発されている。
論文 参考訳(メタデータ) (2021-06-28T15:04:35Z) - Examining and Combating Spurious Features under Distribution Shift [94.31956965507085]
我々は、最小限の統計量という情報理論の概念を用いて、ロバストで刺激的な表現を定義し、分析する。
入力分布のバイアスしか持たない場合でも、モデルはトレーニングデータから急激な特徴を拾い上げることができることを証明しています。
分析から着想を得た結果,グループDROは,グループ同士の相関関係を直接考慮しない場合に失敗する可能性が示唆された。
論文 参考訳(メタデータ) (2021-06-14T05:39:09Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。