Fugu-MT 論文翻訳(概要): Deep Learning for Virtual Screening: Five Reasons to Use ROC Cost Functions

論文の概要: Deep Learning for Virtual Screening: Five Reasons to Use ROC Cost Functions

arxiv url: http://arxiv.org/abs/2007.07029v1
Date: Thu, 25 Jun 2020 08:46:37 GMT
ステータス: 翻訳完了
システム内更新日: 2022-11-17 03:48:35.835740
Title: Deep Learning for Virtual Screening: Five Reasons to Use ROC Cost Functions
Title（参考訳）: 仮想スクリーニングのためのディープラーニング - ROCコスト関数を使用する5つの理由
Authors: Vladimir Golkov, Alexander Becker, Daniel T. Plop, Daniel \v{C}uturilo, Neda Davoudi, Jeffrey Mendenhall, Rocco Moretti, Jens Meiler, Daniel Cremers
Abstract要約: 深層学習はサイリコの何十億もの分子を迅速にスクリーニングする重要なツールとなりましたその重要性にもかかわらず、厳密なクラス不均衡、高い決定しきい値、いくつかのデータセットにおける基底真理ラベルの欠如など、これらのモデルのトレーニングにおいて重大な課題が続いている。このような場合、クラス不均衡に対するロバスト性から、レシーバ動作特性(ROC)を直接最適化することを好んで論じる。
参考スコア（独自算出の注目度）: 80.12620331438052
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: Computer-aided drug discovery is an essential component of modern drug development. Therein, deep learning has become an important tool for rapid screening of billions of molecules in silico for potential hits containing desired chemical features. Despite its importance, substantial challenges persist in training these models, such as severe class imbalance, high decision thresholds, and lack of ground truth labels in some datasets. In this work we argue in favor of directly optimizing the receiver operating characteristic (ROC) in such cases, due to its robustness to class imbalance, its ability to compromise over different decision thresholds, certain freedom to influence the relative weights in this compromise, fidelity to typical benchmarking measures, and equivalence to positive/unlabeled learning. We also propose new training schemes (coherent mini-batch arrangement, and usage of out-of-batch samples) for cost functions based on the ROC, as well as a cost function based on the logAUC metric that facilitates early enrichment (i.e. improves performance at high decision thresholds, as often desired when synthesizing predicted hit compounds). We demonstrate that these approaches outperform standard deep learning approaches on a series of PubChem high-throughput screening datasets that represent realistic and diverse drug discovery campaigns on major drug target families.
Abstract（参考訳）: コンピュータ支援薬物発見は、現代薬物開発の重要な要素である。これにより、深層学習は、望まれる化学的特徴を含む潜在的なヒットに対して、シリコ中の数十億の分子を迅速にスクリーニングするための重要なツールとなった。その重要性にもかかわらず、厳格なクラス不均衡、高い決定しきい値、いくつかのデータセットにおける根拠の真理ラベルの欠如など、これらのモデルのトレーニングにおいて重大な課題が続いている。本研究は,クラス不均衡に対する頑健性,異なる決定しきい値を超えて妥協する能力,この妥協における相対重みに影響を及ぼす一定の自由度,典型的なベンチマーク尺度に対する忠実度,正・未ラベル学習に対する同値性などの理由から,レシーバ動作特性(ROC)を直接最適化することを支持する。また、ROCに基づくコスト関数に対する新しいトレーニングスキーム(コヒーレント・ミニバッチ・アレンジメントおよびアウト・オブ・バッチ・サンプルの使用)や、早期の濃縮を容易にするlogAUCメトリックに基づくコスト関数(予測ヒット化合物の合成においてしばしば望まれるような高い判定しきい値の性能向上)を提案する。これらのアプローチは、主要な薬物標的家族に対する現実的で多様な薬物発見キャンペーンを表す一連のPubChem高スループットスクリーニングデータセットにおいて、標準的なディープラーニングアプローチよりも優れていることを示す。

関連論文リスト

A Semi-supervised Molecular Learning Framework for Activity Cliff Estimation [10.640733919289643]
そこで本研究では,SemiMolと呼ばれる新しい半教師付き学習手法を提案する。 SemiMolは、後続のトレーニングに擬似信号として、多くの無注釈データに対する予測を使用する。また,SemiMolはグラフベースのMLアーキテクチャを大幅に強化し,最先端の事前トレーニングやSSLベースラインを克服することを示す。
論文参考訳（メタデータ） (2026-01-08T02:20:25Z)
A Hybrid Computational Intelligence Framework with Metaheuristic Optimization for Drug-Drug Interaction Prediction [0.8602553195689512]
薬物と薬物の相互作用(DDI)は予防可能な有害事象の主要な原因であり、しばしば治療を複雑にし、医療費を増大させる。本稿では、DDI予測を改善するために、現代の機械学習とドメイン知識を融合した解釈可能かつ効率的なフレームワークを提案する。提案手法は, フラグメントレベルの構造パターンをキャプチャする Mol2Vec と, 文脈化学的特徴を学習する SMILES-BERT の2つの補完的な埋め込みを組み合わせる。
論文参考訳（メタデータ） (2025-10-08T09:55:18Z)
Robust Molecular Property Prediction via Densifying Scarce Labeled Data [51.55434084913129]
薬物発見において、研究を進める上で最も重要な化合物は、しばしば訓練セットを越えている。本稿では,未ラベルデータを利用したメタラーニングに基づく新しい手法を提案する。実世界のデータセットに挑戦する上で、大きなパフォーマンス向上を示す。
論文参考訳（メタデータ） (2025-06-13T15:27:40Z)
Efficient Biological Data Acquisition through Inference Set Design [3.9633147697178996]
本研究は,システム全体としての所望の精度を実現するため,最小の候補群を選択することを目的とする。本稿では,このメカニズムを推論セット設計と呼び,信頼性に基づくアクティブラーニングソリューションを用いて,挑戦的な事例を抽出する手法を提案する。
論文参考訳（メタデータ） (2024-10-25T15:34:03Z)
Electroencephalogram Emotion Recognition via AUC Maximization [0.0]
不均衡データセットは神経科学、認知科学、医学診断などの分野で大きな課題を提起する。本研究は,DEAPデータセットにおけるライキングラベルを例として,イシュークラスの不均衡に対処する。
論文参考訳（メタデータ） (2024-08-16T19:08:27Z)
SMILES-Mamba: Chemical Mamba Foundation Models for Drug ADMET Prediction [16.189335444981353]
小分子の薬物の吸収、分布、代謝、排出、毒性を予測することは安全性と有効性を確保するために重要である。本稿では,ラベル付きデータとラベル付きデータの両方を活用する2段階モデルを提案する。その結果,SMILES-Mambaは22のADMETデータセットの競合性能を示し,14のタスクで最高スコアを達成した。
論文参考訳（メタデータ） (2024-08-11T04:53:12Z)
YZS-model: A Predictive Model for Organic Drug Solubility Based on Graph Convolutional Networks and Transformer-Attention [9.018408514318631]
伝統的な手法は複雑な分子構造を見逃し、不正確な結果をもたらすことが多い。本稿では,グラフ畳み込みネットワーク(GCN),トランスフォーマーアーキテクチャ,Long Short-Term Memory(LSTM)ネットワークを統合するディープラーニングフレームワークであるYZS-Modelを紹介する。 YZS-Modelは、R2$ 0.59、RMSE$ 0.57を達成し、ベンチマークモデルを上回った。
論文参考訳（メタデータ） (2024-06-27T12:40:29Z)
Physical formula enhanced multi-task learning for pharmacokinetics prediction [54.13787789006417]
AIによる薬物発見の大きな課題は、高品質なデータの不足である。薬物動態の4つの重要なパラメータを同時に予測するPEMAL法を開発した。実験の結果,PEMALは一般的なグラフニューラルネットワークに比べてデータ需要を著しく低減することがわかった。
論文参考訳（メタデータ） (2024-04-16T07:42:55Z)
Take the Bull by the Horns: Hard Sample-Reweighted Continual Training Improves LLM Generalization [165.98557106089777]
大きな言語モデル(LLM)の能力を高めることが大きな課題だ。本研究は,従来の事前学習データセットを用いたLCMの光連続訓練に関する実証的戦略から始まった。次に、この戦略をインスタンス重み付け分散ロバスト最適化の原則化されたフレームワークに定式化します。
論文参考訳（メタデータ） (2024-02-22T04:10:57Z)
Unpaired Deep Learning for Pharmacokinetic Parameter Estimation from Dynamic Contrast-Enhanced MRI [37.358265461543716]
薬物動態パラメータとAIFの両方を推定する新しい未経験深層学習法を提案する。提案するCycleGANフレームワークは、基礎となる物理モデルに基づいて設計されており、単一のジェネレータと識別器ペアによるよりシンプルなアーキテクチャを実現する。実験の結果,AIF測定を別途必要とせず,他の方法よりも信頼性の高い薬物動態パラメータが得られた。
論文参考訳（メタデータ） (2023-06-07T11:10:10Z)
Accurate, reliable and interpretable solubility prediction of druglike molecules with attention pooling and Bayesian learning [1.8275108630751844]
可溶性のシリコ予測は, 仮想スクリーニングと鉛最適化において有用性について研究されている。近年,物理に基づく手法は高スループットタスクには適さないため,実験データを用いた機械学習(ML)手法が普及している。本稿では,グラフニューラルネットワーク(GNN)を自己注意型読み出し層で開発し,予測性能を向上させる。
論文参考訳（メタデータ） (2022-09-29T07:48:10Z)
MetaRF: Differentiable Random Forest for Reaction Yield Prediction with a Few Trails [58.47364143304643]
本稿では,反応収率予測問題に焦点をあてる。筆者らはまず,数発の収量予測のために特別に設計された,注意に基づく識別可能なランダム森林モデルであるMetaRFを紹介した。数発の学習性能を改善するために,さらに次元還元に基づくサンプリング手法を導入する。
論文参考訳（メタデータ） (2022-08-22T06:40:13Z)
SSM-DTA: Breaking the Barriers of Data Scarcity in Drug-Target Affinity Prediction [127.43571146741984]
薬物標的親和性(DTA)は、早期の薬物発見において極めて重要である。湿式実験は依然として最も信頼性の高い方法であるが、時間と資源が集中している。既存の手法は主に、データ不足の問題に適切に対処することなく、利用可能なDTAデータに基づく技術開発に重点を置いている。 SSM-DTAフレームワークについて述べる。
論文参考訳（メタデータ） (2022-06-20T14:53:25Z)
Accurate and Robust Feature Importance Estimation under Distribution Shifts [49.58991359544005]
PRoFILEは、新しい特徴重要度推定法である。忠実さと頑健さの両面で、最先端のアプローチよりも大幅に改善されていることを示す。
論文参考訳（メタデータ） (2020-09-30T05:29:01Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。