論文の概要: Towards Precision Protein-Ligand Affinity Prediction Benchmark: A Complete and Modification-Aware DAVIS Dataset
- arxiv url: http://arxiv.org/abs/2512.00708v1
- Date: Sun, 30 Nov 2025 03:14:39 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-12-02 19:46:34.371804
- Title: Towards Precision Protein-Ligand Affinity Prediction Benchmark: A Complete and Modification-Aware DAVIS Dataset
- Title(参考訳): タンパク質-リガンド親和性予測ベンチマークに向けて:完全かつ改良されたDAVISデータセット
- Authors: Ming-Hsiu Wu, Ziqian Xie, Shuiwang Ji, Degui Zhi,
- Abstract要約: 現在のモデルは、自然に発生し生物学的に関連のあるタンパク質を改変することなく、既存の単純化されたデータセットに過度に適合する。
我々は,4,032個のキナーゼ-リガンドペアを組み込むことで,広く使用されているDAVISデータセットの完全かつ修正対応バージョンをキュレートする。
このリッチデータセットは、生物学的に現実的な条件下で予測モデルのベンチマークを可能にする。
- 参考スコア(独自算出の注目度): 40.09200350129404
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Advancements in AI for science unlocks capabilities for critical drug discovery tasks such as protein-ligand binding affinity prediction. However, current models overfit to existing oversimplified datasets that does not represent naturally occurring and biologically relevant proteins with modifications. In this work, we curate a complete and modification-aware version of the widely used DAVIS dataset by incorporating 4,032 kinase-ligand pairs involving substitutions, insertions, deletions, and phosphorylation events. This enriched dataset enables benchmarking of predictive models under biologically realistic conditions. Based on this new dataset, we propose three benchmark settings-Augmented Dataset Prediction, Wild-Type to Modification Generalization, and Few-Shot Modification Generalization-designed to assess model robustness in the presence of protein modifications. Through extensive evaluation of both docking-free and docking-based methods, we find that docking-based model generalize better in zero-shot settings. In contrast, docking-free models tend to overfit to wild-type proteins and struggle with unseen modifications but show notable improvement when fine-tuned on a small set of modified examples. We anticipate that the curated dataset and benchmarks offer a valuable foundation for developing models that better generalize to protein modifications, ultimately advancing precision medicine in drug discovery. The benchmark is available at: https://github.com/ZhiGroup/DAVIS-complete
- Abstract(参考訳): AI for Scienceの進歩は、タンパク質リガンド結合親和性予測のような重要な薬物発見タスクの能力を解き放つ。
しかし、現在のモデルは、自然に発生し生物学的に関連づけられたタンパク質を修飾せずに、既存の単純化されたデータセットに過度に適合する。
本研究では, 置換, 挿入, 削除, リン酸化イベントを含む4,032種類のキナーゼリガンドペアを組み込むことにより, 広く使用されているDAVISデータセットの完全かつ修正対応バージョンをキュレートする。
このリッチデータセットは、生物学的に現実的な条件下で予測モデルのベンチマークを可能にする。
この新たなデータセットに基づいて、タンパク質修飾の有無のモデルロバスト性を評価するために、3つのベンチマーク設定強化データセット予測、修正一般化に対するワイルドタイプ、およびFew-Shot Modification Generalizationを提案する。
ドッキングフリーとドッキングベースの両方の手法を広範囲に評価することにより、ドッキングベースモデルがゼロショット設定においてより一般化できることが分かる。
対照的に、ドッキングフリーモデルは野生型タンパク質に過度に適合し、目に見えない修正に苦しむ傾向にあるが、小さな修正例を微調整すると顕著な改善が見られる。
我々は、キュレートされたデータセットとベンチマークが、タンパク質の修飾をより良く一般化し、究極的には薬の発見において精密な薬品を進化させるモデルを開発するための貴重な基盤を提供することを期待している。
ベンチマークは、https://github.com/ZhiGroup/DAVIS-completeで利用可能である。
関連論文リスト
- KinForm: Kinetics Informed Feature Optimised Representation Models for Enzyme $k_{cat}$ and $K_{M}$ Prediction [0.0]
KinFormは、予測精度と運動パラメータの一般化を改善するために設計された機械学習フレームワークである。
我々は,結合部位の確率プーリング,中間層選択,PCA,低密度タンパク質のオーバーサンプリングの改善を観察した。
論文 参考訳(メタデータ) (2025-07-19T14:34:57Z) - RoHOI: Robustness Benchmark for Human-Object Interaction Detection [84.78366452133514]
ヒューマン・オブジェクト・インタラクション(HOI)検出は、コンテキスト認識支援を可能にするロボット・ヒューマン・アシストに不可欠である。
HOI検出のための最初のベンチマークを導入し、様々な課題下でモデルのレジリエンスを評価する。
我々のベンチマークであるRoHOIは、HICO-DETとV-COCOデータセットに基づく20の汚職タイプと、新しいロバストネスにフォーカスしたメトリクスを含んでいる。
論文 参考訳(メタデータ) (2025-07-12T01:58:04Z) - DISPROTBENCH: A Disorder-Aware, Task-Rich Benchmark for Evaluating Protein Structure Prediction in Realistic Biological Contexts [76.59606029593085]
DisProtBenchは、構造障害および複雑な生物学的条件下でタンパク質構造予測モデル(PSPM)を評価するためのベンチマークである。
DisProtBenchはデータの複雑さ、タスクの多様性、解釈可能性という3つの重要な軸にまたがっている。
その結果,機能的予測障害と相関する低信頼領域を有する障害下でのモデルロバスト性に有意な変動が認められた。
論文 参考訳(メタデータ) (2025-06-18T23:58:22Z) - ReAugment: Model Zoo-Guided RL for Few-Shot Time Series Augmentation and Forecasting [74.00765474305288]
本稿では,時系列データ拡張のための強化学習(RL)の試験的検討を行う。
我々の手法であるReAugmentは、トレーニングセットのどの部分が拡張されるべきか、どのように拡張を行うべきか、RLがプロセスにどのような利点をもたらすのか、という3つの重要な問題に取り組む。
論文 参考訳(メタデータ) (2024-09-10T07:34:19Z) - ETDock: A Novel Equivariant Transformer for Protein-Ligand Docking [36.14826783009814]
従来のドッキング法は、タンパク質と薬物のドッキングを予測するために、スコアリング機能とディープラーニングに依存している。
本稿では,タンパク質リガンドドッキングポーズ予測のためのトランスフォーマーニューラルネットワークを提案する。
実データを用いた実験結果から,本モデルが最先端の性能を達成できることが示唆された。
論文 参考訳(メタデータ) (2023-10-12T06:23:12Z) - Generalized Face Forgery Detection via Adaptive Learning for Pre-trained Vision Transformer [54.32283739486781]
適応学習パラダイムの下で,textbfForgery-aware textbfAdaptive textbfVision textbfTransformer(FA-ViT)を提案する。
FA-ViTは、クロスデータセット評価において、Celeb-DFおよびDFDCデータセット上で93.83%と78.32%のAUCスコアを達成する。
論文 参考訳(メタデータ) (2023-09-20T06:51:11Z) - SESNet: sequence-structure feature-integrated deep learning method for
data-efficient protein engineering [6.216757583450049]
タンパク質変異体の適合度を予測するための教師付きディープラーニングモデルであるSESNetを開発した。
SESNetは,シーケンスと関数の関係を予測するための最先端モデルよりも優れていることを示す。
我々のモデルは、タンパク質変異体の適合性の予測において、特に高次変異体に対して驚くほど高い精度を達成することができる。
論文 参考訳(メタデータ) (2022-12-29T01:49:52Z) - Robust self-healing prediction model for high dimensional data [0.685316573653194]
本研究は、ロバスト自己治癒(RSH)ハイブリッド予測モデルを提案する。
それは、データを捨てるのではなく、エラーや不整合を取り除くことによって、データ全体を活用することによって機能する。
提案手法は,既存のハイパフォーマンスモデルと比較し,解析を行った。
論文 参考訳(メタデータ) (2022-10-04T17:55:50Z) - Evaluating Prediction-Time Batch Normalization for Robustness under
Covariate Shift [81.74795324629712]
我々は予測時間バッチ正規化と呼び、共変量シフト時のモデル精度とキャリブレーションを大幅に改善する。
予測時間バッチ正規化は、既存の最先端アプローチに相補的な利点をもたらし、ロバスト性を向上させることを示します。
この手法は、事前トレーニングと併用して使用すると、さまざまな結果が得られるが、より自然なタイプのデータセットシフトでは、パフォーマンスが良くないようだ。
論文 参考訳(メタデータ) (2020-06-19T05:08:43Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。