論文の概要: Scaffold Splits Overestimate Virtual Screening Performance
- arxiv url: http://arxiv.org/abs/2406.00873v1
- Date: Sun, 2 Jun 2024 21:40:13 GMT
- ステータス: 処理完了
- システム内更新日: 2024-06-06 02:56:53.388558
- Title: Scaffold Splits Overestimate Virtual Screening Performance
- Title(参考訳): Scaffoldが仮想スクリーニング性能を過大評価
- Authors: Qianrong Guo, Saiveth Hernandez-Hernandez, Pedro J Ballester,
- Abstract要約: 人工知能(AI)モデルでガイドされた膨大な複合ライブラリの仮想スクリーニング(VS)は、初期の薬物発見に対する極めて生産的なアプローチである。
従来のランダムデータ分割は、トレーニングとテストセットの間に同様の分子を生成し、VSライブラリの現実と矛盾する。
本研究では,NCI-60の60データセットを対象とした3つの代表的AIモデルについて,足場分割と,よりリアルなUniform Manifold Approximation and Projection (UMAP)ベースのクラスタリング分割を用いて検討した。
- 参考スコア(独自算出の注目度): 0.43940242530756707
- License: http://creativecommons.org/licenses/by-nc-sa/4.0/
- Abstract: Virtual Screening (VS) of vast compound libraries guided by Artificial Intelligence (AI) models is a highly productive approach to early drug discovery. Data splitting is crucial for the reliable benchmarking of such AI models. Traditional random data splits produce similar molecules between training and test sets, conflicting with the reality of VS libraries which mostly contain structurally distinct compounds. Scaffold split, grouping molecules by shared core structure, is widely considered to reflect this real-world scenario. However, here we show that this split also overestimates VS performance. Our study examined three representative AI models on 60 datasets from NCI-60 using scaffold split and a more realistic Uniform Manifold Approximation and Projection (UMAP)-based clustering split. We found models perform substantially worse under UMAP splits. These results highlight the need for improved benchmarks to tune, compare, and select models for VS. Our code is available at https://github.com/ScaffoldSplitsOverestimateVS/Scaffold SplitsOverestimateVS.git
- Abstract(参考訳): 人工知能(AI)モデルでガイドされた膨大な複合ライブラリの仮想スクリーニング(VS)は、初期の薬物発見に対する極めて生産的なアプローチである。
このようなAIモデルの信頼性の高いベンチマークには、データの分割が不可欠だ。
従来のランダムデータ分割は、トレーニングとテストセットの間に類似した分子を生成し、主に構造的に異なる化合物を含むVSライブラリの現実と矛盾する。
共有コア構造によって分子をグループ化するスカフォード分割は、この現実世界のシナリオを反映していると広く考えられている。
しかしここでは、この分割がVSのパフォーマンスを過大評価していることを示す。
本研究では,NCI-60の60データセットを対象とした3つの代表的AIモデルについて,足場分割と,よりリアルなUniform Manifold Approximation and Projection (UMAP)ベースのクラスタリング分割を用いて検討した。
UMAP分割ではモデルの性能が著しく低下することがわかった。
これらの結果は、VSのチューニング、比較、選択のための改善されたベンチマークの必要性を強調している。私たちのコードはhttps://github.com/ScaffoldSplitsOverestimateVS/Scaffold SplitsOverestimateVS.gitで入手できる。
関連論文リスト
- Upgrading VAE Training With Unlimited Data Plans Provided by Diffusion
Models [12.542073306638988]
VAEにおけるオーバーフィッティングエンコーダは,事前学習した拡散モデルからのサンプルのトレーニングによって効果的に緩和できることを示す。
提案手法を用いて学習したVAEの一般化性能,償却ギャップ,ロバスト性を3つの異なるデータセットで解析した。
論文 参考訳(メタデータ) (2023-10-30T15:38:39Z) - The effect of data augmentation and 3D-CNN depth on Alzheimer's Disease
detection [51.697248252191265]
この研究は、データハンドリング、実験設計、モデル評価に関するベストプラクティスを要約し、厳密に観察する。
我々は、アルツハイマー病(AD)の検出に焦点を当て、医療における課題のパラダイム的な例として機能する。
このフレームワークでは,3つの異なるデータ拡張戦略と5つの異なる3D CNNアーキテクチャを考慮し,予測15モデルを訓練する。
論文 参考訳(メタデータ) (2023-09-13T10:40:41Z) - Convolutions, Transformers, and their Ensembles for the Segmentation of
Organs at Risk in Radiation Treatment of Cervical Cancer [0.0]
子宮頸癌の放射線治療におけるOAR(Organs At Risk)のセグメンテーションの課題に答える。
我々は、異なるアーキテクチャに属するいくつかの最先端モデルと、いくつかの最先端モデルの側面を組み合わせたいくつかの新しいモデルを比較した。
モデル予測を可視化し、その出力確率を平均化し、モデル予測間のDice Coefficientを計算する。
論文 参考訳(メタデータ) (2023-03-20T23:44:35Z) - Impact of PolSAR pre-processing and balancing methods on complex-valued
neural networks segmentation tasks [9.6556424340252]
複素値ニューラルネットワーク(CVNN)を用いたポラリメトリック合成開口レーダ(PolSAR)のセマンティックセグメンテーションについて検討する。
6つのモデルアーキテクチャ,3つの複素値,それぞれの実等価モデルについて,両手法を徹底的に比較する。
本稿では、このギャップを減らし、全ての入力表現、モデル、データセット前処理の結果を実行するための2つの方法を提案する。
論文 参考訳(メタデータ) (2022-10-28T12:49:43Z) - No Fear of Heterogeneity: Classifier Calibration for Federated Learning
with Non-IID Data [78.69828864672978]
実世界のフェデレーションシステムにおける分類モデルのトレーニングにおける中心的な課題は、非IIDデータによる学習である。
このアルゴリズムは, 近似されたssian混合モデルからサンプリングした仮想表現を用いて分類器を調整する。
実験の結果,CIFAR-10,CIFAR-100,CINIC-10など,一般的なフェデレーション学習ベンチマークにおけるCCVRの現状が示された。
論文 参考訳(メタデータ) (2021-06-09T12:02:29Z) - Contrastive Model Inversion for Data-Free Knowledge Distillation [60.08025054715192]
そこで、データ多様性を最適化可能な目的として明示的にモデル化するContrastive Model Inversionを提案します。
我々の主な観察では、同じ量のデータの制約の下では、高いデータの多様性は、通常より強いインスタンス識別を示す。
CIFAR-10, CIFAR-100, Tiny-ImageNetを用いた実験により, 生成したデータを知識蒸留に使用する場合, CMIは極めて優れた性能を示すことが示された。
論文 参考訳(メタデータ) (2021-05-18T15:13:00Z) - Clustering-based Unsupervised Generative Relation Extraction [3.342376225738321]
クラスタリングに基づく教師なし生成関係抽出フレームワーク(CURE)を提案する。
我々は「エンコーダ・デコーダ」アーキテクチャを用いて自己教師付き学習を行い、エンコーダが関係情報を抽出できるようにする。
我々のモデルは、ニューヨーク・タイムズ(NYT)と国連並列コーパス(UNPC)の標準データセットにおいて、最先端モデルよりも優れている。
論文 参考訳(メタデータ) (2020-09-26T20:36:40Z) - Bringing Light Into the Dark: A Large-scale Evaluation of Knowledge
Graph Embedding Models Under a Unified Framework [31.35912529064612]
我々はPyKEENソフトウェアパッケージで21のインタラクションモデルを再実装し評価した。
4つのデータセットに対して、数千の実験と24,804のGPU時間で大規模なベンチマークを行いました。
論文 参考訳(メタデータ) (2020-06-23T22:30:52Z) - Good Classifiers are Abundant in the Interpolating Regime [64.72044662855612]
補間分類器間のテストエラーの完全な分布を正確に計算する手法を開発した。
テストエラーは、最悪の補間モデルのテストエラーから大きく逸脱する、小さな典型的な$varepsilon*$に集中する傾向にある。
以上の結果から,統計的学習理論における通常の解析手法は,実際に観測された優れた一般化性能を捉えるのに十分な粒度にはならない可能性が示唆された。
論文 参考訳(メタデータ) (2020-06-22T21:12:31Z) - Deep Mining External Imperfect Data for Chest X-ray Disease Screening [57.40329813850719]
我々は、外部のCXRデータセットを組み込むことで、不完全なトレーニングデータにつながると論じ、課題を提起する。
本研究は,多ラベル病分類問題を重み付き独立二分課題として分類する。
我々のフレームワークは、ドメインとラベルの相違を同時にモデル化し、対処し、優れた知識マイニング能力を実現する。
論文 参考訳(メタデータ) (2020-06-06T06:48:40Z) - A Systematic Approach to Featurization for Cancer Drug Sensitivity
Predictions with Deep Learning [49.86828302591469]
35,000以上のニューラルネットワークモデルをトレーニングし、一般的な成果化技術を駆使しています。
RNA-seqは128以上のサブセットであっても非常に冗長で情報的であることがわかった。
論文 参考訳(メタデータ) (2020-04-30T20:42:17Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。