論文の概要: Activity Cliff Prediction: Dataset and Benchmark
- arxiv url: http://arxiv.org/abs/2302.07541v1
- Date: Wed, 15 Feb 2023 09:19:07 GMT
- ステータス: 処理完了
- システム内更新日: 2023-02-16 15:35:37.850314
- Title: Activity Cliff Prediction: Dataset and Benchmark
- Title(参考訳): activity cliff予測:データセットとベンチマーク
- Authors: Ziqiao Zhang, Bangyi Zhao, Ailin Xie, Yatao Bian, Shuigeng Zhou
- Abstract要約: 本稿ではまず,AC予測のための大規模データセットACNetを紹介する。
ACNetは400K以上のMMP(Matched Molecular Pairs)を190のターゲットに対してキュレートする。
本稿では、深いニューラルネットワークで符号化された分子表現の予測性能を交流予測のためにベンチマークするためのベースラインフレームワークを提案する。
- 参考スコア(独自算出の注目度): 20.41770222873952
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Activity cliffs (ACs), which are generally defined as pairs of structurally
similar molecules that are active against the same bio-target but significantly
different in the binding potency, are of great importance to drug discovery. Up
to date, the AC prediction problem, i.e., to predict whether a pair of
molecules exhibit the AC relationship, has not yet been fully explored. In this
paper, we first introduce ACNet, a large-scale dataset for AC prediction. ACNet
curates over 400K Matched Molecular Pairs (MMPs) against 190 targets, including
over 20K MMP-cliffs and 380K non-AC MMPs, and provides five subsets for model
development and evaluation. Then, we propose a baseline framework to benchmark
the predictive performance of molecular representations encoded by deep neural
networks for AC prediction, and 16 models are evaluated in experiments. Our
experimental results show that deep learning models can achieve good
performance when the models are trained on tasks with adequate amount of data,
while the imbalanced, low-data and out-of-distribution features of the ACNet
dataset still make it challenging for deep neural networks to cope with. In
addition, the traditional ECFP method shows a natural advantage on MMP-cliff
prediction, and outperforms other deep learning models on most of the data
subsets. To the best of our knowledge, our work constructs the first
large-scale dataset for AC prediction, which may stimulate the study of AC
prediction models and prompt further breakthroughs in AI-aided drug discovery.
The codes and dataset can be accessed by https://drugai.github.io/ACNet/.
- Abstract(参考訳): 活性崖(英: Activity cliffs、AC)は、通常、同じバイオターゲットに対して活性を持つが結合能が著しく異なる構造的に類似した分子の対として定義される。
これまでのところ、一対の分子が交流関係を示すかどうかを予測するAC予測問題は、まだ完全には研究されていない。
本稿では,AC 予測のための大規模データセット ACNet について紹介する。
ACNetは、20K MMPクリフと380K非AC MMPを含む190のターゲットに対して400K以上のマッチング分子ペア(MMP)をキュレートし、モデル開発と評価のための5つのサブセットを提供する。
そこで我々は,深部ニューラルネットワークで符号化された分子表現の予測性能をAC予測のためにベンチマークするベースラインフレームワークを提案し,実験により16モデルの評価を行った。
実験結果から,ACNetデータセットの不均衡,低データ化,アウト・オブ・ディストリビューションの両面において,モデルが十分な量のデータを持つタスクでトレーニングされた場合,ディープラーニングモデルは優れた性能を発揮することが示された。
さらに、従来のECFP法は、MMP-cliff予測に対して自然な優位性を示し、多くのデータサブセットで他のディープラーニングモデルよりも優れている。
我々の知る限り、我々の研究は、AC予測のための最初の大規模なデータセットを構築し、AC予測モデルの研究を刺激し、AI支援薬物発見のさらなるブレークスルーを促す可能性がある。
コードとデータセットはhttps://drugai.github.io/acnet/でアクセスできる。
関連論文リスト
- Transfer Learning for Molecular Property Predictions from Small Data Sets [0.0]
2つの小さなデータセット上での分子特性の予測のために、一般的な機械学習モデルをベンチマークする。
本稿では,大規模なデータセットを用いて各モデルを事前学習し,元のデータセットを微調整した上で,より正確なモデルを得ることができる転送学習戦略を提案する。
論文 参考訳(メタデータ) (2024-04-20T14:25:34Z) - A Meta-Learning Approach to Predicting Performance and Data Requirements [163.4412093478316]
本稿では,モデルが目標性能に達するために必要なサンプル数を推定する手法を提案する。
モデル性能を推定するデファクト原理であるパワー法則が,小さなデータセットを使用する場合の誤差が大きいことが判明した。
本稿では,2つのデータを異なる方法で処理するPPL法について紹介する。
論文 参考訳(メタデータ) (2023-03-02T21:48:22Z) - Clinical Deterioration Prediction in Brazilian Hospitals Based on
Artificial Neural Networks and Tree Decision Models [56.93322937189087]
超強化ニューラルネットワーク(XBNet)は臨床劣化(CD)を予測するために用いられる
XGBoostモデルはブラジルの病院のデータからCDを予測する最良の結果を得た。
論文 参考訳(メタデータ) (2022-12-17T23:29:14Z) - Deep Learning Architectures for FSCV, a Comparison [0.0]
適合性は、"out-of-probe"の場合の予測性能、人工的に誘導される電気ノイズに対する応答、与えられたプローブに対してモデルがいつ不完全になるかを予測する能力によって決定される。
深い畳み込みニューラルネットワークであるInceptionTimeアーキテクチャは、テストされたモデルの最高の絶対的な予測性能を持つが、ノイズの影響を受けやすい。
単純多層型パーセプトロンアーキテクチャは2番目に低い予測誤差を有しており、人工ノイズの影響を受けていないため、畳み込みは疑わしいほど重要でない可能性がある。
論文 参考訳(メタデータ) (2022-12-05T00:20:10Z) - Ensemble Machine Learning Model Trained on a New Synthesized Dataset
Generalizes Well for Stress Prediction Using Wearable Devices [3.006016887654771]
本研究では,少数の被験者を含むデータセット上に構築されたモデルの一般化能力について検討した。
本研究では,新たな未知のデータに対する予測パワーを測定するために,勾配押し上げと人工ニューラルネットワークを組み合わせたアンサンブル手法を提案する。
論文 参考訳(メタデータ) (2022-09-30T00:20:57Z) - Pre-training via Denoising for Molecular Property Prediction [53.409242538744444]
本稿では,3次元分子構造の大規模データセットを平衡に利用した事前学習手法について述べる。
近年のノイズレギュラー化の進展に触発されて, 事前学習の目的は, 雑音の除去に基づくものである。
論文 参考訳(メタデータ) (2022-05-31T22:28:34Z) - Learning brain MRI quality control: a multi-factorial generalization
problem [0.0]
本研究の目的は,MRIQCパイプラインの性能評価である。
分析はMRIQCの前処理ステップに焦点を合わせ、パイプラインをそれなしでテストした。
我々は、CATIデータセットのような異種集団のデータで訓練されたモデルが、目に見えないデータの最良のスコアを提供すると結論付けた。
論文 参考訳(メタデータ) (2022-05-31T15:46:44Z) - Comparing Test Sets with Item Response Theory [53.755064720563]
我々は,18の事前学習トランスフォーマーモデルから予測した29のデータセットを個別のテスト例で評価した。
Quoref、HellaSwag、MC-TACOは最先端のモデルを区別するのに最適である。
また、QAMRやSQuAD2.0のようなQAデータセットに使用されるスパン選択タスク形式は、強いモデルと弱いモデルとの差別化に有効である。
論文 参考訳(メタデータ) (2021-06-01T22:33:53Z) - Comparing hundreds of machine learning classifiers and discrete choice
models in predicting travel behavior: an empirical benchmark [3.0969191504482247]
本研究では、数百の機械学習(ML)と離散選択モデル(DCM)を比較して、一般化可能な経験的ベンチマークを提供することを目的とする。
実験は4つの超次元にまたがって予測精度と計算コストを評価する。
ディープニューラルネットワークは予測性能が最も高いが、計算コストは比較的高い。
論文 参考訳(メタデータ) (2021-02-01T19:45:47Z) - A Systematic Approach to Featurization for Cancer Drug Sensitivity
Predictions with Deep Learning [49.86828302591469]
35,000以上のニューラルネットワークモデルをトレーニングし、一般的な成果化技術を駆使しています。
RNA-seqは128以上のサブセットであっても非常に冗長で情報的であることがわかった。
論文 参考訳(メタデータ) (2020-04-30T20:42:17Z) - Assessing Graph-based Deep Learning Models for Predicting Flash Point [52.931492216239995]
グラフベースのディープラーニング(GBDL)モデルは初めてフラッシュポイントを予測するために実装された。
MPNNの平均R2と平均絶対誤差(MAE)は、それぞれ2.3%低、2.0K高である。
論文 参考訳(メタデータ) (2020-02-26T06:10:12Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。