論文の概要: Scaffold Splits Overestimate Virtual Screening Performance
- arxiv url: http://arxiv.org/abs/2406.00873v2
- Date: Sun, 30 Jun 2024 12:12:23 GMT
- ステータス: 処理完了
- システム内更新日: 2024-07-02 13:40:49.100192
- Title: Scaffold Splits Overestimate Virtual Screening Performance
- Title(参考訳): Scaffoldが仮想スクリーニング性能を過大評価
- Authors: Qianrong Guo, Saiveth Hernandez-Hernandez, Pedro J Ballester,
- Abstract要約: 人工知能(AI)モデルでガイドされた膨大な複合ライブラリの仮想スクリーニング(VS)は、初期の薬物発見に対する極めて生産的なアプローチである。
従来のランダムデータ分割は、トレーニングとテストセットの間に同様の分子を生成し、VSライブラリの現実と矛盾する。
ここでは、スキャフォールドの分割がVSのパフォーマンスを過大評価していることを示す。
- 参考スコア(独自算出の注目度): 0.43940242530756707
- License: http://creativecommons.org/licenses/by-nc-sa/4.0/
- Abstract: Virtual Screening (VS) of vast compound libraries guided by Artificial Intelligence (AI) models is a highly productive approach to early drug discovery. Data splitting is crucial for better benchmarking of such AI models. Traditional random data splits produce similar molecules between training and test sets, conflicting with the reality of VS libraries which mostly contain structurally distinct compounds. Scaffold split, grouping molecules by shared core structure, is widely considered to reflect this real-world scenario. However, here we show that the scaffold split also overestimates VS performance. The reason is that molecules with different chemical scaffolds are often similar, which hence introduces unrealistically high similarities between training molecules and test molecules following a scaffold split. Our study examined three representative AI models on 60 NCI-60 datasets, each with approximately 30,000 to 50,000 molecules tested on a different cancer cell line. Each dataset was split with three methods: scaffold, Butina clustering and the more accurate Uniform Manifold Approximation and Projection (UMAP) clustering. Regardless of the model, model performance is much worse with UMAP splits from the results of the 2100 models trained and evaluated for each algorithm and split. These robust results demonstrate the need for more realistic data splits to tune, compare, and select models for VS. For the same reason, avoiding the scaffold split is also recommended for other molecular property prediction problems. The code to reproduce these results is available at https://github.com/ScaffoldSplitsOverestimateVS
- Abstract(参考訳): 人工知能(AI)モデルでガイドされた膨大な複合ライブラリの仮想スクリーニング(VS)は、初期の薬物発見に対する極めて生産的なアプローチである。
このようなAIモデルのより良いベンチマークには、データの分割が不可欠だ。
従来のランダムデータ分割は、トレーニングとテストセットの間に類似した分子を生成し、主に構造的に異なる化合物を含むVSライブラリの現実と矛盾する。
共有コア構造によって分子をグループ化するスカフォード分割は、この現実世界のシナリオを反映していると広く考えられている。
しかしここでは、スキャフォールドの分割がVSのパフォーマンスを過大評価していることを示す。
理由は、異なる化学的足場を持つ分子はしばしば類似しており、それゆえ、足場が分裂した後に、訓練分子とテスト分子の間に非現実的に高い類似性をもたらすからである。
NCI-60データセットの3つの代表的AIモデルについて検討し、それぞれ3万から5万の分子を異なるがん細胞株でテストした。
各データセットは、足場、Butinaクラスタリング、より正確なUniform Manifold Approximation and Projection(UMAP)クラスタリングの3つの方法に分けられた。
モデルにかかわらず、モデル性能は、各アルゴリズムでトレーニングされ評価された2100モデルの結果と、各アルゴリズムで評価された2100モデルの結果とを UMAP の分割で比較すると、はるかに悪化する。
これらの堅牢な結果は、VSのチューニング、比較、選択のためのより現実的なデータ分割の必要性を示している。
これらの結果を再現するコードはhttps://github.com/ScaffoldSplitsOverestimateVSで公開されている。
関連論文リスト
- Upgrading VAE Training With Unlimited Data Plans Provided by Diffusion
Models [12.542073306638988]
VAEにおけるオーバーフィッティングエンコーダは,事前学習した拡散モデルからのサンプルのトレーニングによって効果的に緩和できることを示す。
提案手法を用いて学習したVAEの一般化性能,償却ギャップ,ロバスト性を3つの異なるデータセットで解析した。
論文 参考訳(メタデータ) (2023-10-30T15:38:39Z) - The effect of data augmentation and 3D-CNN depth on Alzheimer's Disease
detection [51.697248252191265]
この研究は、データハンドリング、実験設計、モデル評価に関するベストプラクティスを要約し、厳密に観察する。
我々は、アルツハイマー病(AD)の検出に焦点を当て、医療における課題のパラダイム的な例として機能する。
このフレームワークでは,3つの異なるデータ拡張戦略と5つの異なる3D CNNアーキテクチャを考慮し,予測15モデルを訓練する。
論文 参考訳(メタデータ) (2023-09-13T10:40:41Z) - Convolutions, Transformers, and their Ensembles for the Segmentation of
Organs at Risk in Radiation Treatment of Cervical Cancer [0.0]
子宮頸癌の放射線治療におけるOAR(Organs At Risk)のセグメンテーションの課題に答える。
我々は、異なるアーキテクチャに属するいくつかの最先端モデルと、いくつかの最先端モデルの側面を組み合わせたいくつかの新しいモデルを比較した。
モデル予測を可視化し、その出力確率を平均化し、モデル予測間のDice Coefficientを計算する。
論文 参考訳(メタデータ) (2023-03-20T23:44:35Z) - Impact of PolSAR pre-processing and balancing methods on complex-valued
neural networks segmentation tasks [9.6556424340252]
複素値ニューラルネットワーク(CVNN)を用いたポラリメトリック合成開口レーダ(PolSAR)のセマンティックセグメンテーションについて検討する。
6つのモデルアーキテクチャ,3つの複素値,それぞれの実等価モデルについて,両手法を徹底的に比較する。
本稿では、このギャップを減らし、全ての入力表現、モデル、データセット前処理の結果を実行するための2つの方法を提案する。
論文 参考訳(メタデータ) (2022-10-28T12:49:43Z) - No Fear of Heterogeneity: Classifier Calibration for Federated Learning
with Non-IID Data [78.69828864672978]
実世界のフェデレーションシステムにおける分類モデルのトレーニングにおける中心的な課題は、非IIDデータによる学習である。
このアルゴリズムは, 近似されたssian混合モデルからサンプリングした仮想表現を用いて分類器を調整する。
実験の結果,CIFAR-10,CIFAR-100,CINIC-10など,一般的なフェデレーション学習ベンチマークにおけるCCVRの現状が示された。
論文 参考訳(メタデータ) (2021-06-09T12:02:29Z) - Contrastive Model Inversion for Data-Free Knowledge Distillation [60.08025054715192]
そこで、データ多様性を最適化可能な目的として明示的にモデル化するContrastive Model Inversionを提案します。
我々の主な観察では、同じ量のデータの制約の下では、高いデータの多様性は、通常より強いインスタンス識別を示す。
CIFAR-10, CIFAR-100, Tiny-ImageNetを用いた実験により, 生成したデータを知識蒸留に使用する場合, CMIは極めて優れた性能を示すことが示された。
論文 参考訳(メタデータ) (2021-05-18T15:13:00Z) - Clustering-based Unsupervised Generative Relation Extraction [3.342376225738321]
クラスタリングに基づく教師なし生成関係抽出フレームワーク(CURE)を提案する。
我々は「エンコーダ・デコーダ」アーキテクチャを用いて自己教師付き学習を行い、エンコーダが関係情報を抽出できるようにする。
我々のモデルは、ニューヨーク・タイムズ(NYT)と国連並列コーパス(UNPC)の標準データセットにおいて、最先端モデルよりも優れている。
論文 参考訳(メタデータ) (2020-09-26T20:36:40Z) - Bringing Light Into the Dark: A Large-scale Evaluation of Knowledge
Graph Embedding Models Under a Unified Framework [31.35912529064612]
我々はPyKEENソフトウェアパッケージで21のインタラクションモデルを再実装し評価した。
4つのデータセットに対して、数千の実験と24,804のGPU時間で大規模なベンチマークを行いました。
論文 参考訳(メタデータ) (2020-06-23T22:30:52Z) - Good Classifiers are Abundant in the Interpolating Regime [64.72044662855612]
補間分類器間のテストエラーの完全な分布を正確に計算する手法を開発した。
テストエラーは、最悪の補間モデルのテストエラーから大きく逸脱する、小さな典型的な$varepsilon*$に集中する傾向にある。
以上の結果から,統計的学習理論における通常の解析手法は,実際に観測された優れた一般化性能を捉えるのに十分な粒度にはならない可能性が示唆された。
論文 参考訳(メタデータ) (2020-06-22T21:12:31Z) - Deep Mining External Imperfect Data for Chest X-ray Disease Screening [57.40329813850719]
我々は、外部のCXRデータセットを組み込むことで、不完全なトレーニングデータにつながると論じ、課題を提起する。
本研究は,多ラベル病分類問題を重み付き独立二分課題として分類する。
我々のフレームワークは、ドメインとラベルの相違を同時にモデル化し、対処し、優れた知識マイニング能力を実現する。
論文 参考訳(メタデータ) (2020-06-06T06:48:40Z) - A Systematic Approach to Featurization for Cancer Drug Sensitivity
Predictions with Deep Learning [49.86828302591469]
35,000以上のニューラルネットワークモデルをトレーニングし、一般的な成果化技術を駆使しています。
RNA-seqは128以上のサブセットであっても非常に冗長で情報的であることがわかった。
論文 参考訳(メタデータ) (2020-04-30T20:42:17Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。