論文の概要: How False Data Affects Machine Learning Models in Electrochemistry?
- arxiv url: http://arxiv.org/abs/2311.10795v1
- Date: Fri, 17 Nov 2023 04:30:31 GMT
- ステータス: 処理完了
- システム内更新日: 2023-11-22 14:24:44.256675
- Title: How False Data Affects Machine Learning Models in Electrochemistry?
- Title(参考訳): 電気化学における機械学習モデルに対するFalseデータの影響
- Authors: Krittapong Deshsorna, Luckhana Lawtrakul, Pawin Iamprasertkun
- Abstract要約: 電気化学データは、12のスタンドアロンモデルと積み重ねモデルで試験された。
線形モデルは、ノイズの100%あたりの平均誤差(傾斜)を1.75Fg-1まで処理し、ノイズをうまく処理する。
木に基づくモデルはノイズハンドリングの点で失敗する(平均傾きは100%ノイズで55.24Fg-1)が、予測精度(最も低い23.9Fg-1)は線形よりも高い。
- 参考スコア(独自算出の注目度): 0.0
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Recently, the selection of machine learning model based on only the data
distribution without concerning the noise of the data. This study aims to
distinguish, which models perform well under noisy data, and establish whether
stacking machine learning models actually provide robustness to otherwise
weak-to-noise models. The electrochemical data were tested with 12 standalone
models and stacking model. This includes XGB, LGBM, RF, GB, ADA, NN, ELAS,
LASS, RIDGE, SVM, KNN, DT, and the stacking model. It is found that linear
models handle noise well with the average error of (slope) to 1.75 F g-1 up to
error per 100% percent noise added; but it suffers from prediction accuracy due
to having an average of 60.19 F g-1 estimated at minimal error at 0% noise
added. Tree-based models fail in terms of noise handling (average slope is
55.24 F g-1 at 100% percent noise), but it can provide higher prediction
accuracy (lowest error of 23.9 F g-1) than that of linear. To address the
controversial between prediction accuracy and error handling, the stacking
model was constructed, which is not only show high accuracy (intercept of 25.03
F g-1), but it also exhibits good noise handling (slope of 43.58 F g-1), making
stacking models a relatively low risk and viable choice for beginner and
experienced machine learning research in electrochemistry. Even though neural
networks (NN) are gaining popularity in the electrochemistry field. However,
this study presents that NN is not suitable for electrochemical data, and
improper tuning resulting in a model that is susceptible to noise. Thus, STACK
models should provide better benefits in that even with untuned base models,
they can achieve an accurate and noise-tolerant model. Overall, this work
provides insight into machine learning model selection for electrochemical
data, which should aid the understanding of data science in chemistry context.
- Abstract(参考訳): 近年,データ分布のみに基づく機械学習モデルの選択が,データのノイズを考慮せずに行われている。
本研究は,ノイズのあるデータに対して,どのモデルが正常に動作しているかを識別することを目的としている。
電気化学データは12のスタンドアロンモデルと積み重ねモデルで試験された。
これにはXGB、LGBM、RF、GB、ADA、NN、ELAS、LASS、RIDGE、SVM、KNN、DT、スタックモデルが含まれる。
線形モデルは、100%の雑音に対して平均誤差(傾斜)から1.75Fg-1まで、ノイズをうまく処理するが、0%の雑音で最小誤差で60.19Fg-1を推定すると予測精度が低下する。
木ベースのモデルはノイズハンドリングで失敗する(平均勾配は55.24 f g-1で100%ノイズ)が、線形よりも高い予測精度(最低誤差は23.9 f g-1)を提供できる。
予測精度とエラーハンドリングの論争に対処するため、スタックモデルは高い精度(25.03 f g-1のインセプション)を示すだけでなく、優れたノイズハンドリング(43.58 f g-1のスロー)を示し、スタックモデルは比較的リスクが低く、初心者や電気化学の経験豊富な機械学習研究にとって有効な選択肢となっている。
ニューラルネットワーク(NN)は電気化学分野で人気を博している。
しかし, nnは電気化学データには適さないこと, ノイズの影響を受けやすいモデルとなる不適切な調律であることがわかった。
したがって、STACKモデルは、修正されていないベースモデルであっても、正確で耐雑音性のあるモデルを実現することができる、より良い利点を提供するべきである。
全体として、この研究は電気化学データの機械学習モデル選択に関する洞察を与え、化学の文脈におけるデータ科学の理解に役立つだろう。
関連論文リスト
- Robust Neural Processes for Noisy Data [1.7268667700090563]
ノイズによってデータが汚染された場合の文脈内学習モデルの振る舞いについて検討する。
クリーンなデータで最高のパフォーマンスを示すモデルは、ノイズの多いデータで最高のパフォーマンスを示すモデルとは異なることが分かりました。
本稿では,NPモデルの学習方法を提案する。
論文 参考訳(メタデータ) (2024-11-03T20:00:55Z) - Brain Tumor Classification on MRI in Light of Molecular Markers [61.77272414423481]
1p/19q遺伝子の同時欠失は、低グレードグリオーマの臨床成績と関連している。
本研究の目的は,MRIを用いた畳み込みニューラルネットワークを脳がん検出に活用することである。
論文 参考訳(メタデータ) (2024-09-29T07:04:26Z) - More precise edge detections [0.0]
エッジ検出 (ED) はコンピュータビジョンの基本的なタスクである。
現在のモデルは相変わらず不満足な精度に悩まされている。
より正確な予測のためのモデルアーキテクチャはまだ調査が必要である。
論文 参考訳(メタデータ) (2024-07-29T13:24:55Z) - Learning with Noisy Foundation Models [95.50968225050012]
本論文は、事前学習データセットにおけるノイズの性質を包括的に理解し分析する最初の研究である。
雑音の悪影響を緩和し、一般化を改善するため、特徴空間に適応するチューニング法(NMTune)を提案する。
論文 参考訳(メタデータ) (2024-03-11T16:22:41Z) - Machine Learning Force Fields with Data Cost Aware Training [94.78998399180519]
分子動力学(MD)シミュレーションを加速するために機械学習力場(MLFF)が提案されている。
最もデータ効率のよいMLFFであっても、化学精度に達するには数百フレームの力とエネルギーのラベルが必要になる。
我々は、安価な不正確なデータと高価な正確なデータの組み合わせを利用して、MLFFのデータコストを下げる多段階計算フレームワークASTEROIDを提案する。
論文 参考訳(メタデータ) (2023-06-05T04:34:54Z) - Convolutional Neural Networks for the classification of glitches in
gravitational-wave data streams [52.77024349608834]
我々は、高度LIGO検出器のデータから過渡ノイズ信号(グリッチ)と重力波を分類する。
どちらも、Gravity Spyデータセットを使用して、スクラッチからトレーニングされた、教師付き学習アプローチのモデルを使用します。
また、擬似ラベルの自動生成による事前学習モデルの自己教師型アプローチについても検討する。
論文 参考訳(メタデータ) (2023-03-24T11:12:37Z) - Learning from aggregated data with a maximum entropy model [73.63512438583375]
我々は,観測されていない特徴分布を最大エントロピー仮説で近似することにより,ロジスティック回帰と類似した新しいモデルが,集約データからのみ学習されることを示す。
我々は、この方法で学習したモデルが、完全な非凝集データでトレーニングされたロジスティックモデルに匹敵するパフォーマンスを達成することができるという、いくつかの公開データセットに関する実証的な証拠を提示する。
論文 参考訳(メタデータ) (2022-10-05T09:17:27Z) - PCA-RF: An Efficient Parkinson's Disease Prediction Model based on
Random Forest Classification [3.6704226968275258]
本稿では,パーキンソン病に対する無作為な森林分類を行う病気予測手法を提案する。
このモデルの精度を主成分分析 (PCA) に適用したニューラルネットワーク (ANN) モデルと比較し, 可視差を捉えた。
モデルの精度は最大90%まで向上した。
論文 参考訳(メタデータ) (2022-03-21T18:59:08Z) - Machine learning models for prediction of droplet collision outcomes [8.223798883838331]
液滴衝突の結果を予測することは、広く研究されている現象である。
現在の物理学に基づく結果を予測するモデルは不十分である。
ML設定では、この問題は4つのクラスを持つ分類問題に直接変換される。
論文 参考訳(メタデータ) (2021-10-01T01:53:09Z) - Assessing Graph-based Deep Learning Models for Predicting Flash Point [52.931492216239995]
グラフベースのディープラーニング(GBDL)モデルは初めてフラッシュポイントを予測するために実装された。
MPNNの平均R2と平均絶対誤差(MAE)は、それぞれ2.3%低、2.0K高である。
論文 参考訳(メタデータ) (2020-02-26T06:10:12Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。