論文の概要: Generalization Beyond Benchmarks: Evaluating Learnable Protein-Ligand Scoring Functions on Unseen Targets
- arxiv url: http://arxiv.org/abs/2512.05386v1
- Date: Fri, 05 Dec 2025 02:55:19 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-12-13 22:40:56.88104
- Title: Generalization Beyond Benchmarks: Evaluating Learnable Protein-Ligand Scoring Functions on Unseen Targets
- Title(参考訳): ベンチマークを超えた一般化:未確認ターゲット上での学習可能なタンパク質-リガンドスコーリング関数の評価
- Authors: Jakub Kopko, David Graber, Saltuk Mustafa Eyrilmez, Stanislav Mazurenko, David Bednar, Jiri Sedlar, Josef Sivic,
- Abstract要約: データセット分割における最先端スコアリング関数の一般化能力を評価する。
また、大規模自己監督型事前訓練がこの一般化ギャップを埋めるかどうかについても検討する。
- 参考スコア(独自算出の注目度): 15.677566446954891
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: As machine learning becomes increasingly central to molecular design, it is vital to ensure the reliability of learnable protein-ligand scoring functions on novel protein targets. While many scoring functions perform well on standard benchmarks, their ability to generalize beyond training data remains a significant challenge. In this work, we evaluate the generalization capability of state-of-the-art scoring functions on dataset splits that simulate evaluation on targets with a limited number of known structures and experimental affinity measurements. Our analysis reveals that the commonly used benchmarks do not reflect the true challenge of generalizing to novel targets. We also investigate whether large-scale self-supervised pretraining can bridge this generalization gap and we provide preliminary evidence of its potential. Furthermore, we probe the efficacy of simple methods that leverage limited test-target data to improve scoring function performance. Our findings underscore the need for more rigorous evaluation protocols and offer practical guidance for designing scoring functions with predictive power extending to novel protein targets.
- Abstract(参考訳): 機械学習が分子設計の中心となるにつれて、新しいタンパク質標的に対する学習可能なタンパク質リガンドスコアリング機能の信頼性を確保することが不可欠である。
多くのスコアリング機能は標準ベンチマークでよく機能するが、トレーニングデータを超えて一般化する能力は依然として大きな課題である。
本研究は,限られた数の既知構造と実験親和性の測定値を用いて,目標に対する評価をシミュレートするデータセット分割上での最先端スコアリング関数の一般化能力を評価する。
分析の結果,一般的に使用されているベンチマークは,新たなターゲットへの一般化という真の課題を反映していないことが明らかとなった。
また、大規模自己監督型事前訓練が一般化ギャップを埋めるかどうかについても検討し、その可能性の予備的証拠を提供する。
さらに,限定的なテストターゲットデータを利用した簡易手法の有効性を検証し,スコアリング性能の向上を図る。
本研究は, より厳密な評価プロトコルの必要性を浮き彫りにし, 新規なタンパク質標的に拡張する予測力を持つスコアリング機能の設計のための実践的ガイダンスを提供する。
関連論文リスト
- Rethinking Evaluation of Infrared Small Target Detection [105.59753496831739]
本稿では,画素レベルと目標レベルのパフォーマンスを取り入れたハイブリッドレベルのメトリクスを導入し,システム的エラー解析手法を提案し,クロスデータセット評価の重要性を強調した。
標準化されたベンチマークを容易にするオープンソースツールキットがリリースされた。
論文 参考訳(メタデータ) (2025-09-21T02:45:07Z) - Test-time Offline Reinforcement Learning on Goal-related Experience [50.94457794664909]
基礎モデルの研究では、テストタイムトレーニングによってパフォーマンスが大幅に改善できることが示されている。
本稿では、オフラインデータセットから現在の状態への関連性に応じて遷移を選択する、新しい自己教師型データ選択基準を提案する。
目標条件付きテストタイムトレーニング(GC-TTT)アルゴリズムは、評価中にこのルーチンを後退水平方式で適用し、現在の軌道にポリシーを適用する。
論文 参考訳(メタデータ) (2025-07-24T21:11:39Z) - AICO: Feature Significance Tests for Supervised Learning [0.9474649136535703]
AICOは、トレーニングされた回帰モデルや分類モデルに対して、各機能がモデルのパフォーマンスを真に改善するかどうかを問う。
機能の情報を隠蔽し、結果として生じるパフォーマンスの変化を測定することで実現します。
AICOは、モデルの振る舞いを駆動する変数を一貫して特定する。
論文 参考訳(メタデータ) (2025-06-29T21:15:40Z) - One protein is all you need [17.551862138613405]
トレーニングデータ以外の一般化は、生物学における機械学習における中心的な課題である。
タンパク質テストタイムトレーニング(ProteinTTT)法は,異なるモデル,サイズ,データセット間の一般化を一貫して促進することを示す。
論文 参考訳(メタデータ) (2024-11-04T14:23:59Z) - PIGNet2: A Versatile Deep Learning-based Protein-Ligand Interaction
Prediction Model for Binding Affinity Scoring and Virtual Screening [0.0]
タンパク質-リガンド相互作用の予測(PLI)は、薬物発見において重要な役割を果たす。
結合親和性を正確に評価し、効率的な仮想スクリーニングを行う汎用モデルの開発は依然として課題である。
本稿では、物理インフォームドグラフニューラルネットワークと組み合わせて、新しいデータ拡張戦略を導入することにより、実現可能なソリューションを提案する。
論文 参考訳(メタデータ) (2023-07-03T14:46:49Z) - On the Efficacy of Generalization Error Prediction Scoring Functions [33.24980750651318]
一般化誤差予測器(GEP)は,サンプルレベルのスコアからデータセットレベルの誤差推定を導出することにより,未知分布のモデル性能を予測することを目的としている。
機構選択に依存しない一般的なスコアリング関数(自信,局所多様体の滑らかさ,モデル適合性)の有効性を厳密に研究する。
論文 参考訳(メタデータ) (2023-03-23T18:08:44Z) - Discrete Factorial Representations as an Abstraction for Goal
Conditioned Reinforcement Learning [99.38163119531745]
離散化ボトルネックを適用することにより,目標条件付きRLセットアップの性能が向上することを示す。
分布外目標に対する期待した回帰を実験的に証明し、同時に表現的な構造で目標を指定できるようにします。
論文 参考訳(メタデータ) (2022-11-01T03:31:43Z) - Estimating Structural Target Functions using Machine Learning and
Influence Functions [103.47897241856603]
統計モデルから特定可能な関数として生じる対象関数の統計的機械学習のための新しい枠組みを提案する。
このフレームワークは問題とモデルに依存しないものであり、応用統計学における幅広い対象パラメータを推定するのに使用できる。
我々は、部分的に観測されていない情報を持つランダム/二重ロバストな問題において、いわゆる粗大化に特に焦点をあてた。
論文 参考訳(メタデータ) (2020-08-14T16:48:29Z) - Novel Human-Object Interaction Detection via Adversarial Domain
Generalization [103.55143362926388]
本研究では,新たな人-物間相互作用(HOI)検出の問題点を考察し,モデルの一般化能力を向上させることを目的とした。
この課題は、主に対象と述語の大きな構成空間に起因し、全ての対象と述語の組み合わせに対する十分な訓練データが欠如している。
本稿では,予測のためのオブジェクト指向不変の特徴を学習するために,対数領域の一般化の統一的な枠組みを提案する。
論文 参考訳(メタデータ) (2020-05-22T22:02:56Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。