論文の概要: Deep Learning for Virtual Screening: Five Reasons to Use ROC Cost
Functions
- arxiv url: http://arxiv.org/abs/2007.07029v1
- Date: Thu, 25 Jun 2020 08:46:37 GMT
- ステータス: 処理完了
- システム内更新日: 2022-11-17 03:48:35.835740
- Title: Deep Learning for Virtual Screening: Five Reasons to Use ROC Cost
Functions
- Title(参考訳): 仮想スクリーニングのためのディープラーニング - ROCコスト関数を使用する5つの理由
- Authors: Vladimir Golkov, Alexander Becker, Daniel T. Plop, Daniel
\v{C}uturilo, Neda Davoudi, Jeffrey Mendenhall, Rocco Moretti, Jens Meiler,
Daniel Cremers
- Abstract要約: 深層学習は サイリコの何十億もの分子を 迅速にスクリーニングする 重要なツールとなりました
その重要性にもかかわらず、厳密なクラス不均衡、高い決定しきい値、いくつかのデータセットにおける基底真理ラベルの欠如など、これらのモデルのトレーニングにおいて重大な課題が続いている。
このような場合、クラス不均衡に対するロバスト性から、レシーバ動作特性(ROC)を直接最適化することを好んで論じる。
- 参考スコア(独自算出の注目度): 80.12620331438052
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Computer-aided drug discovery is an essential component of modern drug
development. Therein, deep learning has become an important tool for rapid
screening of billions of molecules in silico for potential hits containing
desired chemical features. Despite its importance, substantial challenges
persist in training these models, such as severe class imbalance, high decision
thresholds, and lack of ground truth labels in some datasets. In this work we
argue in favor of directly optimizing the receiver operating characteristic
(ROC) in such cases, due to its robustness to class imbalance, its ability to
compromise over different decision thresholds, certain freedom to influence the
relative weights in this compromise, fidelity to typical benchmarking measures,
and equivalence to positive/unlabeled learning. We also propose new training
schemes (coherent mini-batch arrangement, and usage of out-of-batch samples)
for cost functions based on the ROC, as well as a cost function based on the
logAUC metric that facilitates early enrichment (i.e. improves performance at
high decision thresholds, as often desired when synthesizing predicted hit
compounds). We demonstrate that these approaches outperform standard deep
learning approaches on a series of PubChem high-throughput screening datasets
that represent realistic and diverse drug discovery campaigns on major drug
target families.
- Abstract(参考訳): コンピュータ支援薬物発見は、現代薬物開発の重要な要素である。
これにより、深層学習は、望まれる化学的特徴を含む潜在的なヒットに対して、シリコ中の数十億の分子を迅速にスクリーニングするための重要なツールとなった。
その重要性にもかかわらず、厳格なクラス不均衡、高い決定しきい値、いくつかのデータセットにおける根拠の真理ラベルの欠如など、これらのモデルのトレーニングにおいて重大な課題が続いている。
本研究は,クラス不均衡に対する頑健性,異なる決定しきい値を超えて妥協する能力,この妥協における相対重みに影響を及ぼす一定の自由度,典型的なベンチマーク尺度に対する忠実度,正・未ラベル学習に対する同値性などの理由から,レシーバ動作特性(ROC)を直接最適化することを支持する。
また、ROCに基づくコスト関数に対する新しいトレーニングスキーム(コヒーレント・ミニバッチ・アレンジメントおよびアウト・オブ・バッチ・サンプルの使用)や、早期の濃縮を容易にするlogAUCメトリックに基づくコスト関数(予測ヒット化合物の合成においてしばしば望まれるような高い判定しきい値の性能向上)を提案する。
これらのアプローチは、主要な薬物標的家族に対する現実的で多様な薬物発見キャンペーンを表す一連のPubChem高スループットスクリーニングデータセットにおいて、標準的なディープラーニングアプローチよりも優れていることを示す。
関連論文リスト
- Electroencephalogram Emotion Recognition via AUC Maximization [0.0]
不均衡データセットは神経科学、認知科学、医学診断などの分野で大きな課題を提起する。
本研究は,DEAPデータセットにおけるライキングラベルを例として,イシュークラスの不均衡に対処する。
論文 参考訳(メタデータ) (2024-08-16T19:08:27Z) - SMILES-Mamba: Chemical Mamba Foundation Models for Drug ADMET Prediction [16.189335444981353]
小分子の薬物の吸収、分布、代謝、排出、毒性を予測することは安全性と有効性を確保するために重要である。
本稿では,ラベル付きデータとラベル付きデータの両方を活用する2段階モデルを提案する。
その結果,SMILES-Mambaは22のADMETデータセットの競合性能を示し,14のタスクで最高スコアを達成した。
論文 参考訳(メタデータ) (2024-08-11T04:53:12Z) - YZS-model: A Predictive Model for Organic Drug Solubility Based on Graph Convolutional Networks and Transformer-Attention [9.018408514318631]
伝統的な手法は複雑な分子構造を見逃し、不正確な結果をもたらすことが多い。
本稿では,グラフ畳み込みネットワーク(GCN),トランスフォーマーアーキテクチャ,Long Short-Term Memory(LSTM)ネットワークを統合するディープラーニングフレームワークであるYZS-Modelを紹介する。
YZS-Modelは、R2$ 0.59、RMSE$ 0.57を達成し、ベンチマークモデルを上回った。
論文 参考訳(メタデータ) (2024-06-27T12:40:29Z) - Physical formula enhanced multi-task learning for pharmacokinetics prediction [54.13787789006417]
AIによる薬物発見の大きな課題は、高品質なデータの不足である。
薬物動態の4つの重要なパラメータを同時に予測するPEMAL法を開発した。
実験の結果,PEMALは一般的なグラフニューラルネットワークに比べてデータ需要を著しく低減することがわかった。
論文 参考訳(メタデータ) (2024-04-16T07:42:55Z) - Take the Bull by the Horns: Hard Sample-Reweighted Continual Training
Improves LLM Generalization [165.98557106089777]
大きな言語モデル(LLM)の能力を高めることが大きな課題だ。
本研究は,従来の事前学習データセットを用いたLCMの光連続訓練に関する実証的戦略から始まった。
次に、この戦略をインスタンス重み付け分散ロバスト最適化の原則化されたフレームワークに定式化します。
論文 参考訳(メタデータ) (2024-02-22T04:10:57Z) - Unpaired Deep Learning for Pharmacokinetic Parameter Estimation from
Dynamic Contrast-Enhanced MRI [37.358265461543716]
薬物動態パラメータとAIFの両方を推定する新しい未経験深層学習法を提案する。
提案するCycleGANフレームワークは、基礎となる物理モデルに基づいて設計されており、単一のジェネレータと識別器ペアによるよりシンプルなアーキテクチャを実現する。
実験の結果,AIF測定を別途必要とせず,他の方法よりも信頼性の高い薬物動態パラメータが得られた。
論文 参考訳(メタデータ) (2023-06-07T11:10:10Z) - Accurate, reliable and interpretable solubility prediction of druglike
molecules with attention pooling and Bayesian learning [1.8275108630751844]
可溶性のシリコ予測は, 仮想スクリーニングと鉛最適化において有用性について研究されている。
近年,物理に基づく手法は高スループットタスクには適さないため,実験データを用いた機械学習(ML)手法が普及している。
本稿では,グラフニューラルネットワーク(GNN)を自己注意型読み出し層で開発し,予測性能を向上させる。
論文 参考訳(メタデータ) (2022-09-29T07:48:10Z) - MetaRF: Differentiable Random Forest for Reaction Yield Prediction with
a Few Trails [58.47364143304643]
本稿では,反応収率予測問題に焦点をあてる。
筆者らはまず,数発の収量予測のために特別に設計された,注意に基づく識別可能なランダム森林モデルであるMetaRFを紹介した。
数発の学習性能を改善するために,さらに次元還元に基づくサンプリング手法を導入する。
論文 参考訳(メタデータ) (2022-08-22T06:40:13Z) - SSM-DTA: Breaking the Barriers of Data Scarcity in Drug-Target Affinity
Prediction [127.43571146741984]
薬物標的親和性(DTA)は、早期の薬物発見において極めて重要である。
湿式実験は依然として最も信頼性の高い方法であるが、時間と資源が集中している。
既存の手法は主に、データ不足の問題に適切に対処することなく、利用可能なDTAデータに基づく技術開発に重点を置いている。
SSM-DTAフレームワークについて述べる。
論文 参考訳(メタデータ) (2022-06-20T14:53:25Z) - Accurate and Robust Feature Importance Estimation under Distribution
Shifts [49.58991359544005]
PRoFILEは、新しい特徴重要度推定法である。
忠実さと頑健さの両面で、最先端のアプローチよりも大幅に改善されていることを示す。
論文 参考訳(メタデータ) (2020-09-30T05:29:01Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。