論文の概要: Building Robust Machine Learning Models for Small Chemical Science Data:
The Case of Shear Viscosity
- arxiv url: http://arxiv.org/abs/2208.10784v1
- Date: Tue, 23 Aug 2022 07:33:14 GMT
- ステータス: 処理完了
- システム内更新日: 2022-08-24 14:11:54.518730
- Title: Building Robust Machine Learning Models for Small Chemical Science Data:
The Case of Shear Viscosity
- Title(参考訳): 小さな化学データのためのロバストな機械学習モデルの構築--せん断粘性の場合
- Authors: Nikhil V. S. Avula and Shivanand K. Veesam and Sudarshan Behera and
Sundaram Balasubramanian
- Abstract要約: 我々はLennard-Jones (LJ)流体のせん断粘度を予測するために、いくつかの機械学習モデルを訓練する。
具体的には,モデル選択,性能評価,不確実性定量化に関する課題について検討した。
- 参考スコア(独自算出の注目度): 3.4761212729163313
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Shear viscosity, though being a fundamental property of all liquids, is
computationally expensive to estimate from equilibrium molecular dynamics
simulations. Recently, Machine Learning (ML) methods have been used to augment
molecular simulations in many contexts, thus showing promise to estimate
viscosity too in a relatively inexpensive manner. However, ML methods face
significant challenges like overfitting when the size of the data set is small,
as is the case with viscosity. In this work, we train several ML models to
predict the shear viscosity of a Lennard-Jones (LJ) fluid, with particular
emphasis on addressing issues arising from a small data set. Specifically, the
issues related to model selection, performance estimation and uncertainty
quantification were investigated. First, we show that the widely used
performance estimation procedure of using a single unseen data set shows a wide
variability on small data sets. In this context, the common practice of using
Cross validation (CV) to select the hyperparameters (model selection) can be
adapted to estimate the generalization error (performance estimation) as well.
We compare two simple CV procedures for their ability to do both model
selection and performance estimation, and find that k-fold CV based procedure
shows a lower variance of error estimates. We discuss the role of performance
metrics in training and evaluation. Finally, Gaussian Process Regression (GPR)
and ensemble methods were used to estimate the uncertainty on individual
predictions. The uncertainty estimates from GPR were also used to construct an
applicability domain using which the ML models provided more reliable
predictions on another small data set generated in this work. Overall, the
procedures prescribed in this work, together, lead to robust ML models for
small data sets.
- Abstract(参考訳): せん断粘度は全ての液体の基本的な性質であるが、平衡分子動力学シミュレーションから推定するには計算コストがかかる。
近年,機械学習(ml)手法が分子シミュレーションの強化に用いられており,比較的安価に粘度を推定できる可能性が示唆されている。
しかし、ML手法は、粘性の場合と同様にデータセットのサイズが小さい場合に過度に適合するなど、重大な課題に直面している。
本研究では,LJ流体のせん断粘度を予測するため,いくつかのMLモデルを訓練する。
具体的には,モデル選択,性能推定,不確実性定量化に関する問題を検討した。
まず,1つの未知のデータセットを広く使用した性能推定手法は,小さなデータセットに対して大きなばらつきを示す。
この文脈では、超パラメータ(モデル選択)を選択するためにクロスバリデーション(cv)を使用する一般的なプラクティスは、一般化誤差(性能推定)を推定するためにも適用できる。
モデル選択と性能推定の両方を行うための2つの簡単なCVプロシージャを比較し、k倍CVベースのプロシージャが誤差推定のばらつきを低くすることを示した。
トレーニングと評価におけるパフォーマンス指標の役割について論じる。
最後にガウス過程回帰 (gpr) とアンサンブル法を用いて個々の予測の不確かさを推定した。
GPRによる不確実性推定は、この研究で生成された別の小さなデータセットに対してより信頼性の高い予測を提供するMLモデルを用いた適用可能性領域の構築にも使用された。
全体として、この研究で規定された手順は、小さなデータセットに対して堅牢なMLモデルをもたらす。
関連論文リスト
- Model aggregation: minimizing empirical variance outperforms minimizing
empirical error [0.29008108937701327]
多様なモデルからの予測を単一のより正確な出力に集約する,データ駆動型フレームワークを提案する。
モデルはブラックボックス関数として扱う、モデルに依存しない、最小限の仮定を必要とする、広範囲のモデルからの出力を組み合わせることができる。
従来の解法と機械学習モデルをうまく統合して、堅牢性と精度の両方を改善する方法を示す。
論文 参考訳(メタデータ) (2024-09-25T18:33:21Z) - Measuring Variable Importance in Individual Treatment Effect Estimation with High Dimensional Data [35.104681814241104]
因果機械学習(ML)は、個々の治療効果を推定するための強力なツールを提供する。
ML手法は、医療応用にとって重要な解釈可能性の重要な課題に直面している。
統計的に厳密な変数重要度評価のための条件置換重要度(CPI)法に基づく新しいアルゴリズムを提案する。
論文 参考訳(メタデータ) (2024-08-23T11:44:07Z) - Accelerated training of deep learning surrogate models for surface displacement and flow, with application to MCMC-based history matching of CO2 storage operations [0.0]
本研究では,CO2飽和度,圧力,表面変位を予測し,炭素貯蔵操作の履歴マッチングに用いるための新しいサロゲートモデリングフレームワークを提案する。
ここでのトレーニングには、多数の安価なフローオンリーのシミュレーションと、結合された実行回数のはるかに少ない組み合わせが含まれる。
論文 参考訳(メタデータ) (2024-08-20T10:31:52Z) - Analytical results for uncertainty propagation through trained machine learning regression models [0.10878040851637999]
本稿では、トレーニング/修正機械学習(ML)回帰モデルによる不確実性伝播の課題に対処する。
計算効率の観点から,本手法の有効性を検証し,モンテカルロ法と比較する数値実験を行った。
論文 参考訳(メタデータ) (2024-04-17T10:16:20Z) - A prediction and behavioural analysis of machine learning methods for
modelling travel mode choice [0.26249027950824505]
我々は、モデル選択に影響を及ぼす可能性のある重要な要因の観点から、複数のモデリング問題に対して異なるモデリングアプローチを体系的に比較する。
その結果,非凝集性予測性能が最も高いモデルでは,行動指標やアグリゲーションモードのシェアが低下することが示唆された。
MNLモデルは様々な状況において堅牢に機能するが、ML手法はWillingness to Payのような行動指標の推定を改善することができる。
論文 参考訳(メタデータ) (2023-01-11T11:10:32Z) - Benchmarking Machine Learning Robustness in Covid-19 Genome Sequence
Classification [109.81283748940696]
我々は、IlluminaやPacBioといった一般的なシークエンシングプラットフォームのエラープロファイルを模倣するために、SARS-CoV-2ゲノム配列を摂動する方法をいくつか紹介する。
シミュレーションに基づくいくつかのアプローチは、入力シーケンスに対する特定の敵攻撃に対する特定の埋め込み手法に対して、他の手法よりも堅牢(かつ正確)であることを示す。
論文 参考訳(メタデータ) (2022-07-18T19:16:56Z) - Prediction of liquid fuel properties using machine learning models with
Gaussian processes and probabilistic conditional generative learning [56.67751936864119]
本研究の目的は、代替燃料の物理的特性を予測するためのクロージャ方程式として機能する、安価で計算可能な機械学習モデルを構築することである。
これらのモデルは、MDシミュレーションのデータベースや、データ融合-忠実性アプローチによる実験的な測定を用いて訓練することができる。
その結果,MLモデルでは,広範囲の圧力および温度条件の燃料特性を正確に予測できることがわかった。
論文 参考訳(メタデータ) (2021-10-18T14:43:50Z) - X-model: Improving Data Efficiency in Deep Learning with A Minimax Model [78.55482897452417]
ディープラーニングにおける分類と回帰設定の両面でのデータ効率の向上を目標とする。
両世界の力を生かすために,我々は新しいX-モデルを提案する。
X-モデルは、特徴抽出器とタスク固有のヘッドの間でミニマックスゲームを行う。
論文 参考訳(メタデータ) (2021-10-09T13:56:48Z) - Generalized Matrix Factorization: efficient algorithms for fitting
generalized linear latent variable models to large data arrays [62.997667081978825]
一般化線形潜在変数モデル(GLLVM)は、そのような因子モデルを非ガウス応答に一般化する。
GLLVMのモデルパラメータを推定する現在のアルゴリズムは、集約的な計算を必要とし、大規模なデータセットにスケールしない。
本稿では,GLLVMを高次元データセットに適用するための新しい手法を提案する。
論文 参考訳(メタデータ) (2020-10-06T04:28:19Z) - Good Classifiers are Abundant in the Interpolating Regime [64.72044662855612]
補間分類器間のテストエラーの完全な分布を正確に計算する手法を開発した。
テストエラーは、最悪の補間モデルのテストエラーから大きく逸脱する、小さな典型的な$varepsilon*$に集中する傾向にある。
以上の結果から,統計的学習理論における通常の解析手法は,実際に観測された優れた一般化性能を捉えるのに十分な粒度にはならない可能性が示唆された。
論文 参考訳(メタデータ) (2020-06-22T21:12:31Z) - Localized Debiased Machine Learning: Efficient Inference on Quantile
Treatment Effects and Beyond [69.83813153444115]
因果推論における(局所)量子化処理効果((L)QTE)の効率的な推定式を検討する。
Debiased Machine Learning (DML)は、高次元のニュアンスを推定するデータ分割手法である。
本稿では、この負担のかかるステップを避けるために、局所的脱バイアス機械学習(LDML)を提案する。
論文 参考訳(メタデータ) (2019-12-30T14:42:52Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。