論文の概要: Compound virtual screening by learning-to-rank with gradient boosting
decision tree and enrichment-based cumulative gain
- arxiv url: http://arxiv.org/abs/2205.02169v1
- Date: Wed, 4 May 2022 16:36:24 GMT
- ステータス: 処理完了
- システム内更新日: 2022-05-05 14:31:30.626171
- Title: Compound virtual screening by learning-to-rank with gradient boosting
decision tree and enrichment-based cumulative gain
- Title(参考訳): 勾配向上決定木とエンリッチメントに基づく累積ゲインによる複合仮想スクリーニング
- Authors: Kairi Furui, Masahito Ohue
- Abstract要約: 勾配向上決定木(GBDT)ベースの学習 to ランク法が最近人気を集めている。
正規化Enrichment Discounted Cumulative Gain (NEDCG) は、ランキング予測の有効性を適切に評価することを目的としている。
NEDCGは、回帰による予測はマルチアッセイ、マルチデータセットデータセットにおけるランダムな予測に匹敵することを示した。
- 参考スコア(独自算出の注目度): 0.0
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Learning-to-rank, a machine learning technique widely used in information
retrieval, has recently been applied to the problem of ligand-based virtual
screening, to accelerate the early stages of new drug development. Ranking
prediction models learn based on ordinal relationships, making them suitable
for integrating assay data from various environments. Existing studies of rank
prediction in compound screening have generally used a learning-to-rank method
called RankSVM. However, they have not been compared with or validated against
the gradient boosting decision tree (GBDT)-based learning-to-rank methods that
have gained popularity recently. Furthermore, although the ranking metric
called Normalized Discounted Cumulative Gain (NDCG) is widely used in
information retrieval, it only determines whether the predictions are better
than those of other models. In other words, NDCG is incapable of recognizing
when a prediction model produces worse than random results. Nevertheless, NDCG
is still used in the performance evaluation of compound screening using
learning-to-rank. This study used the GBDT model with ranking loss functions,
called lambdarank and lambdaloss, for ligand-based virtual screening; results
were compared with existing RankSVM methods and GBDT models using regression.
We also proposed a new ranking metric, Normalized Enrichment Discounted
Cumulative Gain (NEDCG), which aims to properly evaluate the goodness of
ranking predictions. Results showed that the GBDT model with learning-to-rank
outperformed existing regression methods using GBDT and RankSVM on diverse
datasets. Moreover, NEDCG showed that predictions by regression were comparable
to random predictions in multi-assay, multi-family datasets, demonstrating its
usefulness for a more direct assessment of compound screening performance.
- Abstract(参考訳): 近年,情報検索に広く用いられている機械学習技術であるLearning-to-rankが,リガンドベースの仮想スクリーニング問題に適用され,新薬開発の初期段階を加速している。
ランキング予測モデルは順序関係に基づいて学習し、様々な環境からのアッセイデータを統合するのに適している。
複合スクリーニングにおけるランク予測の既存の研究は、一般に RankSVM と呼ばれる学習とランクの手法を用いている。
しかし、最近普及したグラデーションブースティング決定木(gbdt)ベースの学習からランクへの手法と比較や検証はされていない。
さらに,情報検索において正規化カウント累積ゲイン(NDCG)と呼ばれるランキング指標が広く用いられているが,予測が他のモデルよりも優れているかどうかを判断するのみである。
言い換えれば、ndcgは予測モデルがランダムな結果よりも悪い結果を生み出すことを認識できない。
それでも、NDCGはラーニング・ツー・ランクを用いた複合スクリーニングの性能評価に使われている。
本研究では,リガンドベースの仮想スクリーニングにおいて,ランキング損失関数付きGBDTモデル(lambdarank and lambdaloss)を用い,既存の RankSVM 法とGBDT モデルとの比較を行った。
また、ランキング予測の良否を適切に評価することを目的とした、新しいランキング指標である正規化富化割引累積利得(nedcg)を提案した。
その結果,学習からランクまでのGBDTモデルは,多様なデータセット上でのGBDTとRandSVMを用いた既存の回帰手法よりも優れていた。
さらに、NEDCGは、回帰による予測はマルチアッセイ、マルチデータセットデータセットにおけるランダムな予測と同等であり、複合スクリーニング性能のより直接的な評価に有用であることを示した。
関連論文リスト
- Towards Robust and Interpretable EMG-based Hand Gesture Recognition using Deep Metric Meta Learning [37.21211404608413]
本稿では,意味的かつ解釈可能な表現の作成を監督するために,EMG PRにおける深層メートル法メタラーニングへのシフトを提案する。
我々は、不正確な決定をよりよく拒否する頑健なクラス近接性に基づく信頼度推定器を導出する。
論文 参考訳(メタデータ) (2024-04-17T23:37:50Z) - Normality Learning-based Graph Anomaly Detection via Multi-Scale
Contrastive Learning [61.57383634677747]
グラフ異常検出(GAD)は、機械学習やデータマイニングにおいて注目を集めている。
本稿では,マルチスケールコントラスト学習ネットワーク(NLGAD,略語)による正規性学習に基づくGADフレームワークを提案する。
特に,提案アルゴリズムは,最先端手法と比較して検出性能(最大5.89%のAUCゲイン)を向上させる。
論文 参考訳(メタデータ) (2023-09-12T08:06:04Z) - Predictive change point detection for heterogeneous data [1.1720726814454114]
予測と比較」は、予測機械学習モデルによって支援される変化点検出フレームワークである。
オンラインCDDルーチンでは、偽陽性率と制御不能な平均ランの長さでパフォーマンスが向上する。
この手法のパワーはトライボロジーのケーススタディで実証されている。
論文 参考訳(メタデータ) (2023-05-11T07:59:18Z) - Boosting Differentiable Causal Discovery via Adaptive Sample Reweighting [62.23057729112182]
異なるスコアに基づく因果探索法は観測データから有向非巡回グラフを学習する。
本稿では,Reweighted Score関数ReScoreの適応重みを動的に学習することにより因果発見性能を向上させるためのモデルに依存しないフレームワークを提案する。
論文 参考訳(メタデータ) (2023-03-06T14:49:59Z) - Parametric Classification for Generalized Category Discovery: A Baseline
Study [70.73212959385387]
Generalized Category Discovery (GCD)は、ラベル付きサンプルから学習した知識を用いて、ラベルなしデータセットで新しいカテゴリを発見することを目的としている。
パラメトリック分類器の故障を調査し,高品質な監視が可能であった場合の過去の設計選択の有効性を検証し,信頼性の低い疑似ラベルを重要課題として同定する。
エントロピー正規化の利点を生かし、複数のGCDベンチマークにおける最先端性能を実現し、未知のクラス数に対して強いロバスト性を示す、単純で効果的なパラメトリック分類法を提案する。
論文 参考訳(メタデータ) (2022-11-21T18:47:11Z) - Enhancing Diffusion-Based Image Synthesis with Robust Classifier
Guidance [17.929524924008962]
クラス条件生成のために,時間依存型分類器からの勾配による拡散過程の導出を提案した。
このアイデアは理論上は健全だが、ディープラーニングベースの分類器は、勾配に基づく敵対攻撃に悪名高い。
本研究では,時間依存型頑健な分類器を定義・訓練し,生成拡散モデルのガイダンスとして利用する。
論文 参考訳(メタデータ) (2022-08-18T06:51:23Z) - The Concordance Index decomposition: A measure for a deeper
understanding of survival prediction models [3.186455928607442]
Concordance Index (C-index) は、予測モデルの性能を評価するためにサバイバル分析で一般的に用いられる指標である。
そこで本研究では,C-インデックスを2種類の重み付き調和平均値に分解する手法を提案する。
論文 参考訳(メタデータ) (2022-02-28T23:50:47Z) - Imputation-Free Learning from Incomplete Observations [73.15386629370111]
本稿では,不備な値を含む入力からの推論をインプットなしでトレーニングするIGSGD法の重要性について紹介する。
バックプロパゲーションによるモデルのトレーニングに使用する勾配の調整には強化学習(RL)を用いる。
我々の計算自由予測は、最先端の計算手法を用いて従来の2段階の計算自由予測よりも優れている。
論文 参考訳(メタデータ) (2021-07-05T12:44:39Z) - Binary Classification of Gaussian Mixtures: Abundance of Support
Vectors, Benign Overfitting and Regularization [39.35822033674126]
生成ガウス混合モデルに基づく二項線形分類について検討する。
後者の分類誤差に関する新しい非漸近境界を導出する。
この結果は, 確率が一定である雑音モデルに拡張される。
論文 参考訳(メタデータ) (2020-11-18T07:59:55Z) - Interpretable Learning-to-Rank with Generalized Additive Models [78.42800966500374]
ラーニング・ツー・ランクのモデルの解釈可能性は、非常に重要でありながら、比較的過小評価されている研究分野である。
解釈可能なランキングモデルの最近の進歩は、主に既存のブラックボックスランキングモデルに対するポストホックな説明の生成に焦点を当てている。
一般化加法モデル(GAM)をランキングタスクに導入することにより,本質的に解釈可能な学習 to ランクの基盤を築いた。
論文 参考訳(メタデータ) (2020-05-06T01:51:30Z) - Generative Data Augmentation for Commonsense Reasoning [75.26876609249197]
G-DAUGCは、低リソース環境でより正確で堅牢な学習を実現することを目的とした、新しい生成データ拡張手法である。
G-DAUGCは、バックトランスレーションに基づく既存のデータ拡張手法を一貫して上回っている。
分析の結果,G-DAUGCは多種多様な流線型学習例を産出し,その選択と学習アプローチが性能向上に重要であることが示された。
論文 参考訳(メタデータ) (2020-04-24T06:12:10Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。