論文の概要: A Large-Scale Dataset and Benchmark: Do Protein-Ligand Models Learn Binding Sites or Just Binding Likelihood?
- arxiv url: http://arxiv.org/abs/2605.24045v1
- Date: Thu, 21 May 2026 20:50:03 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-05-26 19:50:17.556505
- Title: A Large-Scale Dataset and Benchmark: Do Protein-Ligand Models Learn Binding Sites or Just Binding Likelihood?
- Title(参考訳): 大規模データセットとベンチマーク:タンパク質-リガンドモデルは結合サイトを学ぶか、あるいは単に結合様か?
- Authors: Zhaohan Meng, Zhen Bai, Ke Yuan, Iadh Ounis, Zaiqiao Meng, Hao Xu, Joseph Loscalzo,
- Abstract要約: 約100kのタンパク質-リガンドペアからなる大規模タンパク質-リガンドデータセットであるInteractBindを紹介した。
中心となるきめ細かいタスクは、バインディングサイトローカライゼーションである。
我々は,既存の8つのシーケンスベースおよび相互作用認識モデルを評価し,バイナリ結合予測と結合部位の局所化を評価する。
- 参考スコア(独自算出の注目度): 29.589714550752348
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Protein-ligand modeling underpins computational drug discovery and molecular design. Existing protein-ligand benchmarks typically evaluate whether a protein and ligand interact and how strongly they bind, through tasks such as binary binding prediction and affinity regression. However, these evaluations provide limited evidence of whether models can localize binding sites or identify the non-covalent interactions underlying molecular recognition. To address this gap, we introduce InteractBind, a large-scale protein-ligand dataset comprising approximately 100k protein-ligand pairs, together with a benchmark for fine-grained evaluation. The core fine-grained task is that of binding-site localization, which uses protein-residue and ligand-atom interaction maps spanning six major types of non-covalent interactions to assess whether model-derived interaction maps localize binding sites. InteractBind further includes binding affinity and protein similarity-controlled splits to support realistic generalization assessment. Using InteractBind, we evaluate eight existing sequence-based and interaction-aware models, assessing binary binding prediction and binding-site localization. Results reveal limited binding-site localization despite strong binary binding prediction, with marked variation across non-covalent interaction types. Overall, InteractBind establishes a benchmark paradigm that encourages the development of more interpretable and physically grounded protein-ligand models.
- Abstract(参考訳): タンパク質リガンドモデリングは、計算薬の発見と分子設計の基盤となる。
既存のタンパク質リガンドベンチマークは、通常、タンパク質とリガンドが相互作用するかどうかをバイナリバインディング予測や親和性回帰といったタスクを通じて評価する。
しかしながら、これらの評価は、モデルが結合部位の局在化や、分子認識の基礎となる非共有相互作用を特定できるかどうかの限られた証拠を提供する。
このギャップに対処するために、約100k個のタンパク質-リガンドペアからなる大規模タンパク質-リガンドデータセットであるInteractBindと、きめ細かい評価のためのベンチマークを紹介する。
核となるきめ細かいタスクは結合部位の局在であり、モデル由来の相互作用が結合部位をローカライズするかどうかを評価するために、6つの主要な非共有相互作用のタイプにまたがるタンパク質-残基とリガンド-原子相互作用マップを使用する。
InteractBindはさらに、現実的な一般化評価をサポートするために、結合親和性とタンパク質類似性制御された分裂を含んでいる。
InteractBindを用いて既存の8つのシーケンスベースおよび相互作用認識モデルを評価し、バイナリバインディング予測とバインディングサイトローカライゼーションを評価する。
その結果、強い二分結合予測にもかかわらず、結合部位の局所化が限定され、非共有相互作用型間で顕著なばらつきが見られた。
全体としてInteractBindは、より解釈可能な物理的基盤を持つタンパク質リガンドモデルの開発を促進するベンチマークパラダイムを確立している。
関連論文リスト
- K-Models: a Flexible and Interpretable Method for Ordinal Clustering with Application to Antigen-Antibody Interaction Profiles [65.21921642886367]
K-Modelsは、順序的制約を統合し、観察された機能プロファイルを生成するランダムプロセスの基本的な要素を推定する新しいフレームワークである。
提案手法はシミュレーションと実世界の応用を通して評価する。
論文 参考訳(メタデータ) (2026-05-14T13:35:44Z) - An Interpretable Framework Applying Protein Words to Predict Protein-Small Molecule Complementary Pairing Rules [1.0775419935941009]
我々は,タンパク質-小分子結合予測の解釈可能性を向上させる枠組みを開発する。
PWRulesは、特権化された小さな分子断片を特定するために結合親和性データを適用している。
次に、これらの断片とタンパク質の単語間の相補的なペアリングルールを定義する。
結果として生じるワードフラグメント規則は、活性化合物を優先するPWScore関数によってランク付けされる。
論文 参考訳(メタデータ) (2026-04-17T06:56:00Z) - PRING: Rethinking Protein-Protein Interaction Prediction from Pairs to Graphs [88.98041407783502]
PRINGは、タンパク質とタンパク質の相互作用予測をグラフレベルで評価する最初のベンチマークである。
PRINGは、21,484タンパク質と186,818の相互作用からなる高品質な多種PPIネットワークデータセットをキュレートする。
論文 参考訳(メタデータ) (2025-07-07T15:21:05Z) - KEPLA: A Knowledge-Enhanced Deep Learning Framework for Accurate Protein-Ligand Binding Affinity Prediction [60.23701115249195]
KEPLAは、遺伝子オントロジーとリガンド特性の事前知識を統合し、予測性能を向上させる新しいディープラーニングフレームワークである。
2つのベンチマークデータセットの実験では、KEPLAは一貫して最先端のベースラインを上回っている。
論文 参考訳(メタデータ) (2025-06-16T08:02:42Z) - CoPRA: Bridging Cross-domain Pretrained Sequence Models with Complex Structures for Protein-RNA Binding Affinity Prediction [23.1499716310298]
我々は,タンパク質-RNA結合親和性データセットPRA310を構築し,性能評価を行った。
我々は,(1)タンパク質-RNA結合親和性,(2)変異による結合親和性の変化を正確に予測できること,(3)データのスケーリングとモデルサイズによるメリットを広く分析し,検証する。
論文 参考訳(メタデータ) (2024-08-21T09:48:22Z) - Protein-ligand binding representation learning from fine-grained
interactions [29.965890962846093]
本稿では,タンパク質-リガンド結合表現を自己教師付き学習方式で学習することを提案する。
この自己教師付き学習問題は、決定的結合複素構造の予測として定式化される。
様々なバインディングタスクに対して,本手法の優位性を示す実験を行った。
論文 参考訳(メタデータ) (2023-11-09T01:33:09Z) - State-specific protein-ligand complex structure prediction with a
multi-scale deep generative model [68.28309982199902]
タンパク質-リガンド複合体構造を直接予測できる計算手法であるNeuralPLexerを提案する。
我々の研究は、データ駆動型アプローチがタンパク質と小分子の構造的協調性を捉え、酵素や薬物分子などの設計を加速させる可能性を示唆している。
論文 参考訳(メタデータ) (2022-09-30T01:46:38Z) - Predicting Protein-Ligand Binding Affinity via Joint Global-Local
Interaction Modeling [34.18714126231236]
本稿では,タンパク質-リガンド結合親和性を予測するための新しいグローバルな相互作用フレームワークを提案する。
本フレームワークは,長範囲の相互作用をグローバルに埋め込み,局所的な短範囲の相互作用を集約する。
実験により、我々のGLIフレームワークは、単純なニューラルネットワークアーキテクチャと適度な計算コストで最先端の手法より優れていることが示された。
論文 参考訳(メタデータ) (2022-09-18T10:17:05Z) - InteractionNet: Modeling and Explaining of Noncovalent Protein-Ligand
Interactions with Noncovalent Graph Neural Network and Layer-Wise Relevance
Propagation [0.0]
非共有結合タンパク質-リガンド相互作用を学習するためのグラフニューラルネットワークアーキテクチャを提案する。
本モデルは, 化学解釈における性能および関連性の両方において, 非共有相互作用の予測に成功していることを示す。
論文 参考訳(メタデータ) (2020-05-12T12:46:44Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。