論文の概要: Rethinking the generalization of drug target affinity prediction algorithms via similarity aware evaluation
- arxiv url: http://arxiv.org/abs/2504.09481v1
- Date: Sun, 13 Apr 2025 08:30:57 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-04-15 16:49:14.555016
- Title: Rethinking the generalization of drug target affinity prediction algorithms via similarity aware evaluation
- Title(参考訳): 類似性認識評価による薬物標的親和性予測アルゴリズムの一般化再考
- Authors: Chenbin Zhang, Zhiqiang Hu, Chuchu Jiang, Wen Chen, Jie Xu, Shaoting Zhang,
- Abstract要約: 従来の評価におけるテストセットの正準ランダム化分割は、トレーニングセットと高い類似性を持つサンプルに支配されるテストセットを残していることを示す。
本稿では,任意の分布に適応する新しい分割手法を提案する類似性意識評価の枠組みを提案する。
結果は,提案手法が望ましい分布に適合し,モデルの開発を導くことを実証した。
- 参考スコア(独自算出の注目度): 19.145735532822012
- License:
- Abstract: Drug-target binding affinity prediction is a fundamental task for drug discovery. It has been extensively explored in literature and promising results are reported. However, in this paper, we demonstrate that the results may be misleading and cannot be well generalized to real practice. The core observation is that the canonical randomized split of a test set in conventional evaluation leaves the test set dominated by samples with high similarity to the training set. The performance of models is severely degraded on samples with lower similarity to the training set but the drawback is highly overlooked in current evaluation. As a result, the performance can hardly be trusted when the model meets low-similarity samples in real practice. To address this problem, we propose a framework of similarity aware evaluation in which a novel split methodology is proposed to adapt to any desired distribution. This is achieved by a formulation of optimization problems which are approximately and efficiently solved by gradient descent. We perform extensive experiments across five representative methods in four datasets for two typical target evaluations and compare them with various counterpart methods. Results demonstrate that the proposed split methodology can significantly better fit desired distributions and guide the development of models. Code is released at https://github.com/Amshoreline/SAE/tree/main.
- Abstract(参考訳): 薬物標的結合親和性予測は、薬物発見の基本的な課題である。
文献で広く調査され、有望な結果が報告されている。
しかし,本論文では,結果が誤解を招く可能性があり,現実の実践に対して十分に一般化できないことを実証する。
核となる観察は、従来の評価におけるテストセットの正準ランダム化分割は、トレーニングセットと高い類似性を持つサンプルに支配されるテストセットを残すことである。
モデルの性能はトレーニングセットと類似度が低いサンプルで著しく低下するが、現在の評価では欠点を非常に見落としている。
その結果、モデルが実際の場合、低相似性サンプルを満たす場合、その性能は信頼できない。
そこで本研究では,任意の分布に適応するために,新たな分割手法を提案する類似性意識評価フレームワークを提案する。
これは、勾配降下によってほぼ効率的に解かれる最適化問題の定式化によって達成される。
2つの典型的な目標評価のための4つのデータセットで5つの代表的手法にまたがって広範な実験を行い、それらを様々な手法と比較した。
結果は,提案手法が望ましい分布に適合し,モデルの開発を導くことを実証した。
コードはhttps://github.com/Amshoreline/SAE/tree/mainで公開されている。
関連論文リスト
- Noisy Correspondence Learning with Self-Reinforcing Errors Mitigation [63.180725016463974]
クロスモーダル検索は、実際は精力的な、十分に整合した大規模データセットに依存している。
我々は、新しい雑音対応学習フレームワーク、textbfSelf-textbfReinforcing textbfErrors textbfMitigation(SREM)を導入する。
論文 参考訳(メタデータ) (2023-12-27T09:03:43Z) - Exploring new ways: Enforcing representational dissimilarity to learn
new features and reduce error consistency [1.7497479054352052]
非常に異なる中間表現は相関の少ない出力予測と若干の誤差整合性をもたらすことを示す。
これにより、中間表現間の接続とその出力予測への影響について、第1の光を当てる。
論文 参考訳(メタデータ) (2023-07-05T14:28:46Z) - ProBoost: a Boosting Method for Probabilistic Classifiers [55.970609838687864]
ProBoostは確率的分類器のための新しいブースティングアルゴリズムである。
各トレーニングサンプルの不確実性を使用して、最も困難で不確実なものを決定する。
これは、最も不確実性が高いと判明したサンプルに徐々に焦点をあてる配列を生成する。
論文 参考訳(メタデータ) (2022-09-04T12:49:20Z) - Scalable Personalised Item Ranking through Parametric Density Estimation [53.44830012414444]
暗黙のフィードバックから学ぶことは、一流問題の難しい性質のために困難です。
ほとんどの従来の方法は、一級問題に対処するためにペアワイズランキングアプローチとネガティブサンプラーを使用します。
本論文では,ポイントワイズと同等の収束速度を実現する学習対ランクアプローチを提案する。
論文 参考訳(メタデータ) (2021-05-11T03:38:16Z) - An Empirical Comparison of Instance Attribution Methods for NLP [62.63504976810927]
本研究は,トレーニングサンプルの重要性に関して,異なるインスタンス属性が一致した度合いを評価する。
単純な検索メソッドは、グラデーションベースの方法によって識別されたものと異なるトレーニングインスタンスを生成する。
論文 参考訳(メタデータ) (2021-04-09T01:03:17Z) - Good Classifiers are Abundant in the Interpolating Regime [64.72044662855612]
補間分類器間のテストエラーの完全な分布を正確に計算する手法を開発した。
テストエラーは、最悪の補間モデルのテストエラーから大きく逸脱する、小さな典型的な$varepsilon*$に集中する傾向にある。
以上の結果から,統計的学習理論における通常の解析手法は,実際に観測された優れた一般化性能を捉えるのに十分な粒度にはならない可能性が示唆された。
論文 参考訳(メタデータ) (2020-06-22T21:12:31Z) - Efficient Ensemble Model Generation for Uncertainty Estimation with
Bayesian Approximation in Segmentation [74.06904875527556]
アンサンブルセグメンテーションモデルを構築するための汎用的で効率的なセグメンテーションフレームワークを提案する。
提案手法では,層選択法を用いて効率よくアンサンブルモデルを生成することができる。
また,新たな画素単位の不確実性損失を考案し,予測性能を向上する。
論文 参考訳(メタデータ) (2020-05-21T16:08:38Z) - An end-to-end approach for the verification problem: learning the right
distance [15.553424028461885]
パラメトリックな擬似距離を導入し、エンコーダと共同で学習することで、メトリック学習の設定を強化する。
まず、仮説テストに使用できる確率比を近似して示す。
提案手法では,実際の距離を持つメートル法学習に比べて,学習の簡易化が図られている。
論文 参考訳(メタデータ) (2020-02-21T18:46:06Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。