論文の概要: Categorical data as a stone guest in a data science project for
predicting defective water meters
- arxiv url: http://arxiv.org/abs/2102.03284v1
- Date: Fri, 5 Feb 2021 16:55:31 GMT
- ステータス: 処理完了
- システム内更新日: 2021-02-08 21:52:10.061009
- Title: Categorical data as a stone guest in a data science project for
predicting defective water meters
- Title(参考訳): 異常水位予測のためのデータサイエンスプロジェクトにおける石客としてのカテゴリーデータ
- Authors: Giovanni Delnevo, Marco Roccetti, Luca Casini
- Abstract要約: 機械式水量計が時間の経過とともに故障するかどうかを予測できる機械学習型分類器を開発した。
リカレントディープニューラルネットワーク(RNN)は、100万メートルから収集された1500万個の水消費データから外挿されたデータをトレーニングした。
連続データを用いてRNNの予測精度は平均80%を超えているが,分類情報の導入により性能は向上しなかった。
- 参考スコア(独自算出の注目度): 1.7259898169307613
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: After a one-year long effort of research on the field, we developed a machine
learning-based classifier, tailored to predict whether a mechanical water meter
would fail with passage of time and intensive use as well. A recurrent deep
neural network (RNN) was trained with data extrapolated from 15 million
readings of water consumption, gathered from 1 million meters. The data we used
for training were essentially of two types: continuous vs categorical.
Categorical being a type of data that can take on one of a limited and fixed
number of possible values, on the basis of some qualitative property; while
continuous, in this case, are the values of the measurements. taken at the
meters, of the quantity of consumed water (cubic meters). In this paper, we
want to discuss the fact that while the prediction accuracy of our RNN has
exceeded the 80% on average, based on the use of continuous data, those
performances did not improve, significantly, with the introduction of
categorical information during the training phase. From a specific viewpoint,
this remains an unsolved and critical problem of our research. Yet, if we
reason about this controversial case from a data science perspective, we
realize that we have had a confirmation that accurate machine learning
solutions cannot be built without the participation of domain experts, who can
differentiate on the importance of (the relation between) different types of
data, each with its own sense, validity, and implications. Past all the
original hype, the science of data is thus evolving towards a multifaceted
discipline, where the designitations of data scientist/machine learning expert
and domain expert are symbiotic
- Abstract(参考訳): この分野で1年間の研究の末、機械式水量計が経時的かつ集中的な使用によって失敗するかどうかを予測できる機械学習ベースの分類器を開発した。
繰り返しのディープニューラルネットワーク(RNN)は、100万メートルから集められた1500万回の水消費から抽出されたデータで訓練されました。
トレーニングに使用したデータには,基本的に2つのタイプがあります。
カテゴリ(Categorical)とは、ある定性的性質に基づいて、可能な値の限定値と固定値の1つを取ることのできるデータの一種であり、一方、連続は、この場合、測定値である。
メートルで取られた、消費された水の量(立方メートル)。
本稿では,連続データを用いた場合,RNNの予測精度が平均80%を超えているにもかかわらず,学習段階におけるカテゴリ情報の導入により,その性能は著しく向上しなかったという事実を論じる。
特定の観点からは、この研究は未解決で批判的な問題です。
しかし、データサイエンスの観点からこの議論の余地があるとすれば、ドメインの専門家の参加なしには正確な機械学習ソリューションを構築することはできないということに気付きました。彼らは、それぞれが独自の感覚、妥当性、意味を持つさまざまな種類のデータの重要性(関係)を区別することができます。
データの科学は、データサイエンティスト/機械学習の専門家とドメインの専門家の指定が共生である多面的な分野に向かって進化しています。
関連論文リスト
- DaFoEs: Mixing Datasets towards the generalization of vision-state
deep-learning Force Estimation in Minimally Invasive Robotic Surgery [6.55111164866752]
深部神経モデルのトレーニングを行うために,様々なソフト環境を持つ新しい視覚触覚データセット(DaFoEs)を提案する。
また,単一入力や入力シーケンスを用いて腹腔鏡ツールが行う力を予測するための可変エンコーダデコーダアーキテクチャを提案する。
論文 参考訳(メタデータ) (2024-01-17T14:39:55Z) - D3A-TS: Denoising-Driven Data Augmentation in Time Series [0.0]
本研究は,分類と回帰問題に対する時系列におけるデータ拡張のための異なる手法の研究と分析に焦点をあてる。
提案手法は拡散確率モデルを用いており、近年画像処理の分野で成功している。
その結果、この手法が、分類と回帰モデルを訓練するための合成データを作成する上で、高い有用性を示している。
論文 参考訳(メタデータ) (2023-12-09T11:37:07Z) - A Pretrainer's Guide to Training Data: Measuring the Effects of Data
Age, Domain Coverage, Quality, & Toxicity [84.6421260559093]
この研究は、テキスト事前学習に関する文書化されていない直観を検証、定量化、公開するための最大の実験である。
以上の結果から,トレーニングデータをフィルタリングする一大ソリューションが存在しないことが示唆された。
論文 参考訳(メタデータ) (2023-05-22T15:57:53Z) - Dataset Bias in Human Activity Recognition [57.91018542715725]
このコントリビューションは、トレーニングデータを統計的にキュレートし、人間の身体的特性がHARのパフォーマンスにどの程度影響するかを評価する。
時系列HARのセンサ,アクティビティ,記録の異なる2つのHARデータセット上で,最先端の畳み込みニューラルネットワークの性能を評価する。
論文 参考訳(メタデータ) (2023-01-19T12:33:50Z) - Analyzing Wearables Dataset to Predict ADLs and Falls: A Pilot Study [0.0]
本稿では,日常の生活と転倒の行動を認識するシステムの評価に使用できる,30のウェアラブルベースのデータセットを網羅的にレビューする。
5つの機械学習手法を用いたSisFallデータセットの比較分析をピソンで行う。
本研究から得られた結果は,KNNが他の機械学習手法よりも精度,精度,リコールの点で優れていることを証明している。
論文 参考訳(メタデータ) (2022-09-11T04:41:40Z) - Conformal prediction for the design problem [72.14982816083297]
機械学習の現実的な展開では、次にテストすべきデータを選択するために予測アルゴリズムを使用します。
このような設定では、トレーニングデータとテストデータの間には、異なるタイプの分散シフトがある。
このような環境で予測の不確実性を定量化する手法を提案する。
論文 参考訳(メタデータ) (2022-02-08T02:59:12Z) - TACTiS: Transformer-Attentional Copulas for Time Series [76.71406465526454]
時間変化量の推定は、医療や金融などの分野における意思決定の基本的な構成要素である。
本稿では,アテンションベースデコーダを用いて関節分布を推定する多元的手法を提案する。
本研究では,本モデルが実世界の複数のデータセットに対して最先端の予測を生成することを示す。
論文 参考訳(メタデータ) (2022-02-07T21:37:29Z) - HYDRA: Hypergradient Data Relevance Analysis for Interpreting Deep
Neural Networks [51.143054943431665]
本稿では、深層ニューラルネットワーク(DNN)による予測をトレーニングデータの効果として解釈する高次データ関連分析(HYDRA)を提案する。
HYDRAは、トレーニング軌跡全体を通して、テストデータポイントに対するトレーニングデータの貢献を評価する。
さらに,HyDRAは,データのコントリビューションを正確に推定し,ノイズのあるデータラベルを検出することで,影響関数よりも優れていることを定量的に示す。
論文 参考訳(メタデータ) (2021-02-04T10:00:13Z) - Graph Embedding with Data Uncertainty [113.39838145450007]
スペクトルベースのサブスペース学習は、多くの機械学習パイプラインにおいて、一般的なデータ前処理ステップである。
ほとんどの部分空間学習法は、不確実性の高いデータにつながる可能性のある測定の不正確さやアーティファクトを考慮していない。
論文 参考訳(メタデータ) (2020-09-01T15:08:23Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。