論文の概要: Deep Learning for Virtual Screening: Five Reasons to Use ROC Cost
Functions
- arxiv url: http://arxiv.org/abs/2007.07029v1
- Date: Thu, 25 Jun 2020 08:46:37 GMT
- ステータス: 処理完了
- システム内更新日: 2022-11-17 03:48:35.835740
- Title: Deep Learning for Virtual Screening: Five Reasons to Use ROC Cost
Functions
- Title(参考訳): 仮想スクリーニングのためのディープラーニング - ROCコスト関数を使用する5つの理由
- Authors: Vladimir Golkov, Alexander Becker, Daniel T. Plop, Daniel
\v{C}uturilo, Neda Davoudi, Jeffrey Mendenhall, Rocco Moretti, Jens Meiler,
Daniel Cremers
- Abstract要約: 深層学習は サイリコの何十億もの分子を 迅速にスクリーニングする 重要なツールとなりました
その重要性にもかかわらず、厳密なクラス不均衡、高い決定しきい値、いくつかのデータセットにおける基底真理ラベルの欠如など、これらのモデルのトレーニングにおいて重大な課題が続いている。
このような場合、クラス不均衡に対するロバスト性から、レシーバ動作特性(ROC)を直接最適化することを好んで論じる。
- 参考スコア(独自算出の注目度): 80.12620331438052
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Computer-aided drug discovery is an essential component of modern drug
development. Therein, deep learning has become an important tool for rapid
screening of billions of molecules in silico for potential hits containing
desired chemical features. Despite its importance, substantial challenges
persist in training these models, such as severe class imbalance, high decision
thresholds, and lack of ground truth labels in some datasets. In this work we
argue in favor of directly optimizing the receiver operating characteristic
(ROC) in such cases, due to its robustness to class imbalance, its ability to
compromise over different decision thresholds, certain freedom to influence the
relative weights in this compromise, fidelity to typical benchmarking measures,
and equivalence to positive/unlabeled learning. We also propose new training
schemes (coherent mini-batch arrangement, and usage of out-of-batch samples)
for cost functions based on the ROC, as well as a cost function based on the
logAUC metric that facilitates early enrichment (i.e. improves performance at
high decision thresholds, as often desired when synthesizing predicted hit
compounds). We demonstrate that these approaches outperform standard deep
learning approaches on a series of PubChem high-throughput screening datasets
that represent realistic and diverse drug discovery campaigns on major drug
target families.
- Abstract(参考訳): コンピュータ支援薬物発見は、現代薬物開発の重要な要素である。
これにより、深層学習は、望まれる化学的特徴を含む潜在的なヒットに対して、シリコ中の数十億の分子を迅速にスクリーニングするための重要なツールとなった。
その重要性にもかかわらず、厳格なクラス不均衡、高い決定しきい値、いくつかのデータセットにおける根拠の真理ラベルの欠如など、これらのモデルのトレーニングにおいて重大な課題が続いている。
本研究は,クラス不均衡に対する頑健性,異なる決定しきい値を超えて妥協する能力,この妥協における相対重みに影響を及ぼす一定の自由度,典型的なベンチマーク尺度に対する忠実度,正・未ラベル学習に対する同値性などの理由から,レシーバ動作特性(ROC)を直接最適化することを支持する。
また、ROCに基づくコスト関数に対する新しいトレーニングスキーム(コヒーレント・ミニバッチ・アレンジメントおよびアウト・オブ・バッチ・サンプルの使用)や、早期の濃縮を容易にするlogAUCメトリックに基づくコスト関数(予測ヒット化合物の合成においてしばしば望まれるような高い判定しきい値の性能向上)を提案する。
これらのアプローチは、主要な薬物標的家族に対する現実的で多様な薬物発見キャンペーンを表す一連のPubChem高スループットスクリーニングデータセットにおいて、標準的なディープラーニングアプローチよりも優れていることを示す。
関連論文リスト
- Take the Bull by the Horns: Hard Sample-Reweighted Continual Training
Improves LLM Generalization [165.98557106089777]
大きな言語モデル(LLM)の能力を高めることが大きな課題だ。
本研究は,従来の事前学習データセットを用いたLCMの光連続訓練に関する実証的戦略から始まった。
次に、この戦略をインスタンス重み付け分散ロバスト最適化の原則化されたフレームワークに定式化します。
論文 参考訳(メタデータ) (2024-02-22T04:10:57Z) - FSscore: A Machine Learning-based Synthetic Feasibility Score Leveraging
Human Expertise [0.7917874428066525]
Focused Synthesizability score (FSscore) はグラフアテンションネットワークを用いて二進選好に基づいて構造をランク付けする。
焦点を絞ったデータセットの微調整は、適度な性能と一般化性を示す事前訓練されたモデルよりも、これらの化学スコープの性能を向上させる。
論文 参考訳(メタデータ) (2023-12-20T03:18:56Z) - Machine Learning Small Molecule Properties in Drug Discovery [44.62264781248437]
我々は, 結合親和性, 溶解性, ADMET (吸収, 分布, 代謝, 排出, 毒性) を含む幅広い特性について検討する。
化学指紋やグラフベースニューラルネットワークなど,既存の一般的な記述子や埋め込みについて論じる。
最後に、モデル予測の理解を提供する技術、特に薬物発見における重要な意思決定について評価する。
論文 参考訳(メタデータ) (2023-08-02T22:18:41Z) - Pruning the Way to Reliable Policies: A Multi-Objective Deep Q-Learning
Approach to Critical Care [68.8204255655161]
我々は、より信頼性の高いクリティカルケアポリシーを得ることができる深いQ-ラーニングアプローチを導入する。
まず、利用可能なすべての報酬に基づいてアクションセットを抽出し、次に、スパース主報酬に基づいて最終モデルを訓練し、制限されたアクションセットで達成する。
論文 参考訳(メタデータ) (2023-06-13T18:02:57Z) - Unpaired Deep Learning for Pharmacokinetic Parameter Estimation from
Dynamic Contrast-Enhanced MRI [37.358265461543716]
薬物動態パラメータとAIFの両方を推定する新しい未経験深層学習法を提案する。
提案するCycleGANフレームワークは、基礎となる物理モデルに基づいて設計されており、単一のジェネレータと識別器ペアによるよりシンプルなアーキテクチャを実現する。
実験の結果,AIF測定を別途必要とせず,他の方法よりも信頼性の高い薬物動態パラメータが得られた。
論文 参考訳(メタデータ) (2023-06-07T11:10:10Z) - Frugal Reinforcement-based Active Learning [12.18340575383456]
本稿では,ラベル効率向上のための新しい能動的学習手法を提案する。
提案手法は反復的であり,多様性,表現性,不確実性の基準を混合した制約対象関数の最小化を目的としている。
また、強化学習に基づく新たな重み付け機構を導入し、各トレーニングイテレーションでこれらの基準を適応的にバランスさせる。
論文 参考訳(メタデータ) (2022-12-09T14:17:45Z) - Accurate, reliable and interpretable solubility prediction of druglike
molecules with attention pooling and Bayesian learning [1.8275108630751844]
可溶性のシリコ予測は, 仮想スクリーニングと鉛最適化において有用性について研究されている。
近年,物理に基づく手法は高スループットタスクには適さないため,実験データを用いた機械学習(ML)手法が普及している。
本稿では,グラフニューラルネットワーク(GNN)を自己注意型読み出し層で開発し,予測性能を向上させる。
論文 参考訳(メタデータ) (2022-09-29T07:48:10Z) - MetaRF: Differentiable Random Forest for Reaction Yield Prediction with
a Few Trails [58.47364143304643]
本稿では,反応収率予測問題に焦点をあてる。
筆者らはまず,数発の収量予測のために特別に設計された,注意に基づく識別可能なランダム森林モデルであるMetaRFを紹介した。
数発の学習性能を改善するために,さらに次元還元に基づくサンプリング手法を導入する。
論文 参考訳(メタデータ) (2022-08-22T06:40:13Z) - SSM-DTA: Breaking the Barriers of Data Scarcity in Drug-Target Affinity
Prediction [127.43571146741984]
薬物標的親和性(DTA)は、早期の薬物発見において極めて重要である。
湿式実験は依然として最も信頼性の高い方法であるが、時間と資源が集中している。
既存の手法は主に、データ不足の問題に適切に対処することなく、利用可能なDTAデータに基づく技術開発に重点を置いている。
SSM-DTAフレームワークについて述べる。
論文 参考訳(メタデータ) (2022-06-20T14:53:25Z) - Accurate and Robust Feature Importance Estimation under Distribution
Shifts [49.58991359544005]
PRoFILEは、新しい特徴重要度推定法である。
忠実さと頑健さの両面で、最先端のアプローチよりも大幅に改善されていることを示す。
論文 参考訳(メタデータ) (2020-09-30T05:29:01Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。