論文の概要: Calibration and generalizability of probabilistic models on low-data
chemical datasets with DIONYSUS
- arxiv url: http://arxiv.org/abs/2212.01574v2
- Date: Tue, 6 Dec 2022 18:37:51 GMT
- ステータス: 処理完了
- システム内更新日: 2022-12-07 13:18:09.873754
- Title: Calibration and generalizability of probabilistic models on low-data
chemical datasets with DIONYSUS
- Title(参考訳): DIONYSUSを用いた低データ化学データセットにおける確率モデルの校正と一般化可能性
- Authors: Gary Tom, Riley J. Hickman, Aniket Zinzuwadia, Afshan Mohajeri,
Benjamin Sanchez-Lengeling, Alan Aspuru-Guzik
- Abstract要約: 我々は、小さな化学データセット上での確率論的機械学習モデルの校正と一般化可能性について広範な研究を行う。
私たちは、さまざまなタスク(バイナリ、回帰)とデータセットにおける予測と不確実性の品質を分析します。
我々は、新しい化学実験において一般的なシナリオである、小さな化学データセットをモデル化するためのモデルと特徴の選択に関する実践的な洞察を提供する。
- 参考スコア(独自算出の注目度): 0.0
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Deep learning models that leverage large datasets are often the state of the
art for modelling molecular properties. When the datasets are smaller (< 2000
molecules), it is not clear that deep learning approaches are the right
modelling tool. In this work we perform an extensive study of the calibration
and generalizability of probabilistic machine learning models on small chemical
datasets. Using different molecular representations and models, we analyse the
quality of their predictions and uncertainties in a variety of tasks (binary,
regression) and datasets. We also introduce two simulated experiments that
evaluate their performance: (1) Bayesian optimization guided molecular design,
(2) inference on out-of-distribution data via ablated cluster splits. We offer
practical insights into model and feature choice for modelling small chemical
datasets, a common scenario in new chemical experiments. We have packaged our
analysis into the DIONYSUS repository, which is open sourced to aid in
reproducibility and extension to new datasets.
- Abstract(参考訳): 大規模なデータセットを利用するディープラーニングモデルは、しばしば分子特性のモデリングの最先端である。
データセットがより小さい(<2000分子)場合、ディープラーニングアプローチが正しいモデリングツールであることは明らかではない。
本研究では,小型ケミカルデータセットを用いた確率的機械学習モデルのキャリブレーションと一般化可能性に関する詳細な研究を行う。
異なる分子表現とモデルを用いて、様々なタスク(バイナリ、レグレッション)とデータセットにおける予測と不確実性の品質を分析する。
また,(1)ベイズ最適化による分子設計,(2)クラスター分割による分散データの推定,という2つのシミュレーション実験を行った。
我々は、新しい化学実験でよく見られるシナリオである小さな化学データセットのモデリングのために、モデルと特徴の選択に関する実践的な洞察を提供する。
私たちは分析結果をdionysusリポジトリにパッケージしました。dionysusは、新しいデータセットの再現性と拡張を支援するためにオープンソースです。
関連論文リスト
- A survey of probabilistic generative frameworks for molecular simulations [0.0]
生成的人工知能は現在、分子科学において広く使われているツールである。
本稿では,フローベースモデルと拡散モデルという2つのカテゴリに大別された生成モデルのクラスを紹介し,説明する。
可変次元, 複雑性, モーダル非対称性を持つデータセットの精度, 計算コスト, 生成速度について検討する。
論文 参考訳(メタデータ) (2024-11-14T12:05:08Z) - Synthetic Model Combination: An Instance-wise Approach to Unsupervised
Ensemble Learning [92.89846887298852]
ラベル付きデータのトレーニングセットから学ぶ機会のない、新しいテストデータに対する予測を検討する。
専門家モデルのセットと予測へのアクセスと、トレーニングに使用するデータセットに関する制限された情報を提供すること。
論文 参考訳(メタデータ) (2022-10-11T10:20:31Z) - Unraveling Key Elements Underlying Molecular Property Prediction: A
Systematic Study [27.56700461408765]
分子特性予測の根底にある重要な要素はほとんど未発見のままである。
我々は,MoreculeNetデータセット上の様々な表現を用いて,代表モデルの広範囲な評価を行う。
合計で62,820モデル、固定表現の50,220モデル、SMILES配列の4,200モデル、分子グラフの8,400モデルを含む訓練を行った。
論文 参考訳(メタデータ) (2022-09-26T14:07:59Z) - Molecular Attributes Transfer from Non-Parallel Data [57.010952598634944]
分子最適化をスタイル伝達問題として定式化し、非並列データの2つのグループ間の内部差を自動的に学習できる新しい生成モデルを提案する。
毒性修飾と合成性向上という2つの分子最適化タスクの実験により,本モデルがいくつかの最先端手法を著しく上回ることを示した。
論文 参考訳(メタデータ) (2021-11-30T06:10:22Z) - Size doesn't matter: predicting physico- or biochemical properties based
on dozens of molecules [0.0]
本論文は,データ不足を伴う対象特性のモデルの性能を著しく改善したことを示す。
また,データセット構成がモデル品質および結果モデルの適用性領域に及ぼす影響についても検討した。
論文 参考訳(メタデータ) (2021-07-22T18:57:24Z) - Model-agnostic multi-objective approach for the evolutionary discovery
of mathematical models [55.41644538483948]
現代のデータ科学では、どの部分がより良い結果を得るために置き換えられるかというモデルの性質を理解することがより興味深い。
合成データ駆動型モデル学習において,多目的進化最適化を用いてアルゴリズムの所望特性を求める。
論文 参考訳(メタデータ) (2021-07-07T11:17:09Z) - Kernel-Based Models for Influence Maximization on Graphs based on
Gaussian Process Variance Minimization [9.357483974291899]
グラフ上の新しい影響モデル(IM)の導入と検討を行う。
データ駆動アプローチは、このIMモデルの適切なカーネルを決定するために適用することができる。
この分野でコストのかかるモンテカルロシミュレーションに依存するモデルと比較して、我々のモデルはシンプルでコスト効率のよい更新戦略を可能にする。
論文 参考訳(メタデータ) (2021-03-02T08:55:34Z) - Learning Neural Generative Dynamics for Molecular Conformation
Generation [89.03173504444415]
分子グラフから分子コンフォメーション(つまり3d構造)を生成する方法を検討した。
分子グラフから有効かつ多様なコンフォーメーションを生成する新しい確率論的枠組みを提案する。
論文 参考訳(メタデータ) (2021-02-20T03:17:58Z) - Predicting Chemical Properties using Self-Attention Multi-task Learning
based on SMILES Representation [0.0]
本研究では,変圧器変圧器モデルの構造的差異について検討し,新しい自己注意モデルを提案する。
不均衡な化学データセットを用いたマルチタスク学習環境において,自己認識モジュールの表現学習性能を評価した。
論文 参考訳(メタデータ) (2020-10-19T09:46:50Z) - Robust Finite Mixture Regression for Heterogeneous Targets [70.19798470463378]
本稿では,サンプルクラスタの探索と,複数の不完全な混合型ターゲットを同時にモデル化するFMRモデルを提案する。
我々は、高次元の学習フレームワークの下で、無症状のオラクルのパフォーマンス境界をモデルに提供します。
その結果,我々のモデルは最先端の性能を達成できることがわかった。
論文 参考訳(メタデータ) (2020-10-12T03:27:07Z) - Modeling Shared Responses in Neuroimaging Studies through MultiView ICA [94.31804763196116]
被験者の大規模なコホートを含むグループ研究は、脳機能組織に関する一般的な結論を引き出す上で重要である。
グループ研究のための新しい多視点独立成分分析モデルを提案し、各被験者のデータを共有独立音源と雑音の線形結合としてモデル化する。
まず、fMRIデータを用いて、被験者間の共通音源の同定における感度の向上を示す。
論文 参考訳(メタデータ) (2020-06-11T17:29:53Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。