論文の概要: Pre-treatment of outliers and anomalies in plant data: Methodology and
case study of a Vacuum Distillation Unit
- arxiv url: http://arxiv.org/abs/2106.14641v1
- Date: Thu, 17 Jun 2021 11:17:29 GMT
- ステータス: 処理完了
- システム内更新日: 2021-07-04 19:40:18.841008
- Title: Pre-treatment of outliers and anomalies in plant data: Methodology and
case study of a Vacuum Distillation Unit
- Title(参考訳): 植物データにおける外れ値と異常値の事前処理:真空蒸留装置の方法論と事例研究
- Authors: Kamil Oster, Stefan G\"uttel, Jonathan L. Shapiro, Lu Chen, Megan
Jobson
- Abstract要約: 短期値(誤データ、ノイズ)と長期値(例えば長期間の故障)の2種類が検討された。
我々は3$sigma$メソッドが時系列全体に適用される3$sigma$メソッドよりも、短期的な外れ値検出により良いアプローチを提供することを示した。
- 参考スコア(独自算出の注目度): 5.728037880354686
- License: http://creativecommons.org/licenses/by-nc-nd/4.0/
- Abstract: Data pre-treatment plays a significant role in improving data quality, thus
allowing extraction of accurate information from raw data. One of the data
pre-treatment techniques commonly used is outliers detection. The so-called
3${\sigma}$ method is a common practice to identify the outliers. As shown in
the manuscript, it does not identify all outliers, resulting in possible
distortion of the overall statistics of the data. This problem can have a
significant impact on further data analysis and can lead to reduction in the
accuracy of predictive models. There is a plethora of various techniques for
outliers detection, however, aside from theoretical work, they all require case
study work. Two types of outliers were considered: short-term (erroneous data,
noise) and long-term outliers (e.g. malfunctioning for longer periods). The
data used were taken from the vacuum distillation unit (VDU) of an Asian
refinery and included 40 physical sensors (temperature, pressure and flow
rate). We used a modified method for 3${\sigma}$ thresholds to identify the
short-term outliers, i.e. ensors data are divided into chunks determined by
change points and 3${\sigma}$ thresholds are calculated within each chunk
representing near-normal distribution. We have shown that piecewise 3${\sigma}$
method offers a better approach to short-term outliers detection than
3${\sigma}$ method applied to the entire time series. Nevertheless, this does
not perform well for long-term outliers (which can represent another state in
the data). In this case, we used principal component analysis (PCA) with
Hotelling's $T^2$ statistics to identify the long-term outliers. The results
obtained with PCA were subject to DBSCAN clustering method. The outliers (which
were visually obvious and correctly detected by the PCA method) were also
correctly identified by DBSCAN which supported the consistency and accuracy of
the PCA method.
- Abstract(参考訳): データ前処理は、データ品質を改善する上で重要な役割を果たすため、生データから正確な情報を抽出することができる。
一般的に使用されるデータ前処理技法の1つは、outliers detectionである。
いわゆる3${\sigma}$メソッドは、外れ値を特定するための一般的なプラクティスである。
原稿に示されているように、全ての異常値が識別されないため、データの全体的な統計値が歪む可能性がある。
この問題は、さらなるデータ分析に大きな影響を与え、予測モデルの精度を低下させる可能性がある。
外れ値検出には様々なテクニックがあるが、理論的な作業は別として、いずれもケーススタディの作業が必要である。
短期的(誤ったデータ、ノイズ)と長期的(例えば)の2種類が検討された。
長期間の故障)。
使用したデータは、アジアの製油所の真空蒸留ユニット(VDU)から採取され、40個の物理センサー(温度、圧力、流量)が含まれていた。
3${\sigma}$しきい値の修正手法を用いて,短期値,すなわち,短期値の同定を行った。
エンサーデータは変化点によって決定されるチャンクに分割され、近正規分布を表すチャンクごとに3${\sigma}$しきい値が計算される。
我々は、3${\sigma}$メソッドが、時系列全体に適用される3${\sigma}$メソッドよりも、短期の外れ値検出により良いアプローチを提供することを示した。
それでも、これは長期の外れ値(データ内の別の状態を表すことができる)ではうまく機能しない。
この場合、Hotellingの$T^2$統計を用いた主成分分析(PCA)を用いて、長期的なアウトリーチを同定した。
pcaで得られた結果はdbscanクラスタリング法で得られた。
また,PCA法の整合性と正確性を支持するDBSCANにより,アウトリーチ(PCA法で視覚的に明確かつ正しく検出された)を正しく同定した。
関連論文リスト
- Mitigating covariate shift in non-colocated data with learned parameter priors [0.0]
textitFragmentation-induced co-shift remediation(FIcsR$)は、フラグメントの共変量分布と標準クロスバリデーションベースラインとの$f$-divergenceを最小限にする。
複数のデータクラス、40ドル以上のデータセット、および複数のシーケンス長にわたってバッチ化されたデータに対して、広範な分類実験を行います。
バッチとフォールド・オブ・ザ・アーティファクトに対する精度は、それぞれ5%以上と10%以上向上している。
論文 参考訳(メタデータ) (2024-11-10T15:48:29Z) - Imbalanced Aircraft Data Anomaly Detection [103.01418862972564]
航空シナリオ下でのセンサーからの時間データの異常検出は実用的だが難しい課題である。
本稿では,グラフィカル・テンポラル・データ分析フレームワークを提案する。
シリーズ・トゥ・イメージ (S2I) と呼ばれる3つのモジュール、ユークリッド距離 (CRD) を用いたクラスタ・ベース・リサンプリング・アプローチ、変数・ベース・ロス (VBL) から構成される。
論文 参考訳(メタデータ) (2023-05-17T09:37:07Z) - ODIM: Outlier Detection via Likelihood of Under-Fitted Generative Models [4.956259629094216]
Unsupervised Outlier Detection (UOD) とは、非教師付き外乱検出(unsupervised outlier detection, UOD)問題である。
我々は、IM効果(ODIM)による外れ検知と呼ばれる新しい手法を開発した。
注目すべきなのは、ODIMはほんの数回の更新しか必要とせず、計算効率が他のディープラーニングベースのアルゴリズムの何倍も高速であることだ。
論文 参考訳(メタデータ) (2023-01-11T01:02:27Z) - Robust computation of optimal transport by $\beta$-potential
regularization [79.24513412588745]
最適輸送(OT)は、確率分布間の差を測定する機械学習分野で広く使われているツールである。
我々は、いわゆる$beta$-divergenceに付随するベータポテンシャル項でOTを正規化することを提案する。
提案アルゴリズムで計算した輸送行列は,外乱が存在する場合でも確率分布を頑健に推定するのに役立つことを実験的に実証した。
論文 参考訳(メタデータ) (2022-12-26T18:37:28Z) - Capturing the Denoising Effect of PCA via Compression Ratio [3.967854215226183]
主成分分析(PCA)は機械学習における最も基本的なツールの1つである。
本稿では,PCAが高次元雑音データに与える影響を捉えるために,Emphcompression ratioと呼ばれる新しい指標を提案する。
この新しい指標に基づいて、我々は、外れ値を検出するのに使える簡単なアルゴリズムを設計する。
論文 参考訳(メタデータ) (2022-04-22T18:43:47Z) - Leveraging Unlabeled Data to Predict Out-of-Distribution Performance [63.740181251997306]
実世界の機械学習デプロイメントは、ソース(トレーニング)とターゲット(テスト)ディストリビューションのミスマッチによって特徴づけられる。
本研究では,ラベル付きソースデータとラベルなしターゲットデータのみを用いて,対象領域の精度を予測する手法を検討する。
本稿では,モデルの信頼度をしきい値として学習し,精度をラベルなし例のごく一部として予測する実践的手法である平均閾値保持信頼度(ATC)を提案する。
論文 参考訳(メタデータ) (2022-01-11T23:01:12Z) - Efficient remedies for outlier detection with variational autoencoders [8.80692072928023]
深層生成モデルによって計算される類似度は、ラベルなしデータによる外れ値検出の候補メトリックである。
理論的に定位された補正は、VAE推定値による鍵バイアスを容易に改善することを示す。
また,VAEのアンサンブル上で計算される確率の分散により,ロバストな外乱検出が可能となることを示す。
論文 参考訳(メタデータ) (2021-08-19T16:00:58Z) - Noise-Resistant Deep Metric Learning with Probabilistic Instance
Filtering [59.286567680389766]
ノイズラベルは現実世界のデータによく見られ、ディープニューラルネットワークの性能劣化を引き起こす。
DMLのための確率的ランク付けに基づくメモリを用いたインスタンス選択(PRISM)手法を提案する。
PRISMはラベルがクリーンである確率を計算し、潜在的にノイズの多いサンプルをフィルタリングする。
論文 参考訳(メタデータ) (2021-08-03T12:15:25Z) - SLOE: A Faster Method for Statistical Inference in High-Dimensional
Logistic Regression [68.66245730450915]
実用データセットに対する予測の偏見を回避し、頻繁な不確実性を推定する改善された手法を開発している。
私たちの主な貢献は、推定と推論の計算時間をマグニチュードの順序で短縮する収束保証付き信号強度の推定器SLOEです。
論文 参考訳(メタデータ) (2021-03-23T17:48:56Z) - Evaluating representations by the complexity of learning low-loss
predictors [55.94170724668857]
下流タスクの解決に使用されるデータの表現を評価することの問題点を考察する。
本稿では,関心のあるタスクにおける低損失を実現する表現の上に,予測器を学習する複雑性によって表現の質を測定することを提案する。
論文 参考訳(メタデータ) (2020-09-15T22:06:58Z) - robROSE: A robust approach for dealing with imbalanced data in fraud
detection [2.1734195143282697]
不正を検知しようとする際の大きな課題は、不正行為が少数派を形成し、データセットのごく一部を占めることだ。
我々はロロースと呼ばれるROSEの頑健なバージョンを提案し、これは不均衡なデータに同時に対処するいくつかの有望なアプローチを組み合わせたものである。
論文 参考訳(メタデータ) (2020-03-22T16:11:07Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。