論文の概要: Detection of Anomalies in a Time Series Data using InfluxDB and Python
- arxiv url: http://arxiv.org/abs/2012.08439v1
- Date: Tue, 15 Dec 2020 17:27:39 GMT
- ステータス: 処理完了
- システム内更新日: 2021-05-07 11:05:06.988711
- Title: Detection of Anomalies in a Time Series Data using InfluxDB and Python
- Title(参考訳): InfluxDBとPythonを用いた時系列データの異常検出
- Authors: Tochukwu John Anih, Chika Amadi Bede, and Chima Festus Umeokpala
- Abstract要約: 本論文では,時系列データに対するデータクリーニングと準備について述べる。
さらに,時系列データに異常なデータ点を検出するソリューションとして,コストに敏感な機械学習アルゴリズムを提案する。
- 参考スコア(独自算出の注目度): 0.0
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Analysis of water and environmental data is an important aspect of many
intelligent water and environmental system applications where inference from
such analysis plays a significant role in decision making. Quite often these
data that are collected through sensible sensors can be anomalous due to
different reasons such as systems breakdown, malfunctioning of sensor
detectors, and more. Regardless of their root causes, such data severely affect
the results of the subsequent analysis. This paper demonstrates data cleaning
and preparation for time-series data and further proposes cost-sensitive
machine learning algorithms as a solution to detect anomalous data points in
time-series data. The following models: Logistic Regression, Random Forest,
Support Vector Machines have been modified to support the cost-sensitive
learning which penalizes misclassified samples thereby minimizing the total
misclassification cost. Our results showed that Random Forest outperformed the
rest of the models at predicting the positive class (i.e anomalies). Applying
predictive model improvement techniques like data oversampling seems to provide
little or no improvement to the Random Forest model. Interestingly, with
recursive feature elimination, we achieved a better model performance thereby
reducing the dimensions in the data. Finally, with Influxdb and Kapacitor the
data was ingested and streamed to generate new data points to further evaluate
the model performance on unseen data, this will allow for early recognition of
undesirable changes in the drinking water quality and will enable the water
supply companies to rectify on a timely basis whatever undesirable changes
abound.
- Abstract(参考訳): 水と環境データの分析は多くのインテリジェントな水と環境システムの応用において重要な側面であり、そのような分析からの推論が意思決定において重要な役割を果たす。
センシティブなセンサーによって収集されるこれらのデータは、システムの故障やセンサー検出器の故障など、さまざまな理由により異常な場合がある。
根本原因にかかわらず、これらのデータはその後の分析結果に大きく影響する。
本稿では,時系列データのクリーニングと準備を行い,時系列データの異常点検出のための解としてコストに敏感な機械学習アルゴリズムを提案する。
ロジスティック回帰、ランダムフォレスト、サポートベクターマシンは、誤分類サンプルをペナルティ化するコスト感受性学習をサポートするために修正され、全体的な誤分類コストを最小化する。
その結果,ランダムフォレストは正のクラス(すなわち異常)を予測するのに他のモデルよりも優れていた。
データオーバーサンプリングのような予測モデルの改善技術を適用することは、ランダムフォレストモデルにはほとんど、あるいは全く改善しないようだ。
興味深いことに、再帰的特徴除去により、我々はより良いモデル性能を達成し、データの次元を減らした。
最後に、InfluxdbとKapacitorは、データを取り込み、ストリームし、新しいデータポイントを生成して、目に見えないデータでモデルパフォーマンスを更に評価する。これにより、飲料水の品質の望ましくない変化を早期に認識し、望ましくない変化が何であれ、水供給会社がタイムリーに修正できるようにする。
関連論文リスト
- DetDiffusion: Synergizing Generative and Perceptive Models for Enhanced Data Generation and Perception [78.26734070960886]
現在の知覚モデルは、リソース集約的なデータセットに大きく依存している。
セグメンテーションを通じて知覚認識損失(P.A.損失)を導入し、品質と制御性の両方を改善した。
本手法は,世代間における知覚認識属性(P.A. Attr)の抽出と利用により,データ拡張をカスタマイズする。
論文 参考訳(メタデータ) (2024-03-20T04:58:03Z) - An Automated Machine Learning Approach for Detecting Anomalous Peak
Patterns in Time Series Data from a Research Watershed in the Northeastern
United States Critical Zone [3.1747517745997014]
本稿では,米国北東部臨界水域におけるセンサによる時系列データの異常検出を支援する機械学習フレームワークを提案する。
このフレームワークは特に、センサーの故障や自然現象から生じるピークパターンの異常を識別することに焦点を当てている。
論文 参考訳(メタデータ) (2023-09-14T19:07:50Z) - Exploring the Effectiveness of Dataset Synthesis: An application of
Apple Detection in Orchards [68.95806641664713]
本研究では,リンゴ樹の合成データセットを生成するための安定拡散2.1-baseの有用性について検討する。
我々は、現実世界のリンゴ検出データセットでリンゴを予測するために、YOLOv5mオブジェクト検出モデルを訓練する。
その結果、実世界の画像でトレーニングされたベースラインモデルと比較して、生成データでトレーニングされたモデルはわずかに性能が劣っていることがわかった。
論文 参考訳(メタデータ) (2023-06-20T09:46:01Z) - Synthetic data, real errors: how (not) to publish and use synthetic data [86.65594304109567]
生成過程が下流MLタスクにどのように影響するかを示す。
本稿では、生成プロセスモデルパラメータの後方分布を近似するために、Deep Generative Ensemble (DGE)を導入する。
論文 参考訳(メタデータ) (2023-05-16T07:30:29Z) - A Bayesian Generative Adversarial Network (GAN) to Generate Synthetic
Time-Series Data, Application in Combined Sewer Flow Prediction [3.3139597764446607]
機械学習では、生成モデル(generative model)は、データ分散を学習して人工データを生成する方法のクラスである。
本研究では,限られた時系列データのバランスをとるために,合成時系列を生成するGANモデルを開発した。
本研究の目的は, 降水量データを用いて流れを予測し, モデル性能における合成データを用いたデータ増大の影響を検討することである。
論文 参考訳(メタデータ) (2023-01-31T16:12:26Z) - DynImp: Dynamic Imputation for Wearable Sensing Data Through Sensory and
Temporal Relatedness [78.98998551326812]
従来の手法では、データの時系列ダイナミクスと、異なるセンサーの特徴の関連性の両方をめったに利用していない、と我々は主張する。
我々はDynImpと呼ばれるモデルを提案し、特徴軸に沿って近接する隣人と異なる時間点の欠如を扱う。
本手法は, 関連センサのマルチモーダル性特性を活かし, 履歴時系列のダイナミックスから学習し, 極端に欠落した状態でデータを再構築することができることを示す。
論文 参考訳(メタデータ) (2022-09-26T21:59:14Z) - Convolutional generative adversarial imputation networks for
spatio-temporal missing data in storm surge simulations [86.5302150777089]
GAN(Generative Adversarial Imputation Nets)とGANベースの技術は、教師なし機械学習手法として注目されている。
提案手法を Con Conval Generative Adversarial Imputation Nets (Conv-GAIN) と呼ぶ。
論文 参考訳(メタデータ) (2021-11-03T03:50:48Z) - Preprocessing and Modeling of Radial Fan Data for Health State
Prediction [0.0]
重要な機械では、品質と量の両方において、誇張されたセンサーの傾向に気づくことがある。
本稿では、ダウンサンプリングとビンニングによるデータ削減に焦点を当てる。
論文 参考訳(メタデータ) (2021-09-08T07:37:18Z) - Time Series Anomaly Detection with label-free Model Selection [0.6303112417588329]
ラベルのない時系列データに対するラベルなしモデル選択を用いた新しい異常検出アルゴリズムであるLaF-ADを提案する。
我々のアルゴリズムは容易に並列化可能であり、不条件データや季節データに対してより堅牢であり、多数の異常モデルに対して非常にスケーラブルである。
論文 参考訳(メタデータ) (2021-06-11T00:21:06Z) - Back2Future: Leveraging Backfill Dynamics for Improving Real-time
Predictions in Future [73.03458424369657]
公衆衛生におけるリアルタイム予測では、データ収集は簡単で要求の多いタスクである。
過去の文献では「バックフィル」現象とそのモデル性能への影響についてはほとんど研究されていない。
我々は、与えられたモデルの予測をリアルタイムで洗練することを目的とした、新しい問題とニューラルネットワークフレームワークBack2Futureを定式化する。
論文 参考訳(メタデータ) (2021-06-08T14:48:20Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。