論文の概要: SECODA: Segmentation- and Combination-Based Detection of Anomalies
- arxiv url: http://arxiv.org/abs/2008.06869v1
- Date: Sun, 16 Aug 2020 10:03:14 GMT
- ステータス: 処理完了
- システム内更新日: 2022-10-28 09:05:11.118391
- Title: SECODA: Segmentation- and Combination-Based Detection of Anomalies
- Title(参考訳): SECODA: セグメントと組み合わせによる異常検出
- Authors: Ralph Foorthuis
- Abstract要約: SECODAは、連続的および分類的属性を含むデータセットの教師なし非パラメトリック異常検出アルゴリズムである。
このアルゴリズムはメモリのインプリントが低く、実行時のパフォーマンスはデータセットのサイズと線形にスケールする。
シミュレーションおよび実生活データセットによる評価は、このアルゴリズムが様々な種類の異常を識別できることを示している。
- 参考スコア(独自算出の注目度): 0.0
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: This study introduces SECODA, a novel general-purpose unsupervised
non-parametric anomaly detection algorithm for datasets containing continuous
and categorical attributes. The method is guaranteed to identify cases with
unique or sparse combinations of attribute values. Continuous attributes are
discretized repeatedly in order to correctly determine the frequency of such
value combinations. The concept of constellations, exponentially increasing
weights and discretization cut points, as well as a pruning heuristic are used
to detect anomalies with an optimal number of iterations. Moreover, the
algorithm has a low memory imprint and its runtime performance scales linearly
with the size of the dataset. An evaluation with simulated and real-life
datasets shows that this algorithm is able to identify many different types of
anomalies, including complex multidimensional instances. An evaluation in terms
of a data quality use case with a real dataset demonstrates that SECODA can
bring relevant and practical value to real-world settings.
- Abstract(参考訳): 本研究は、連続的および分類的属性を含むデータセットに対する、新しい汎用的非パラメトリック異常検出アルゴリズムであるSECODAを紹介する。
このメソッドは、属性値のユニークまたはスパースの組み合わせでケースを識別することが保証されている。
連続属性は、そのような値の組み合わせの頻度を正確に決定するために、繰り返し離散化される。
星座の概念、指数関数的に増加する重みと離散化切断点、そしてプラニングのヒューリスティックは、最適なイテレーション数で異常を検出するために用いられる。
さらに、アルゴリズムは低いメモリインプリントを持ち、実行時のパフォーマンスはデータセットのサイズと線形にスケールする。
シミュレーションおよび実生活データセットによる評価は、このアルゴリズムが複雑な多次元インスタンスを含む多くの異なる種類の異常を識別できることを示している。
データ品質のユースケースを実際のデータセットで評価すると、SECODAが現実の設定に関連性があり実用的な価値をもたらすことが示される。
関連論文リスト
- Large-scale Fully-Unsupervised Re-Identification [78.47108158030213]
大規模未ラベルデータから学ぶための2つの戦略を提案する。
第1の戦略は、近傍関係に違反することなく、それぞれのデータセットサイズを減らすために、局所的な近傍サンプリングを行う。
第2の戦略は、低時間上限の複雑さを持ち、メモリの複雑さを O(n2) から O(kn) に k n で還元する新しい再帰的手法を利用する。
論文 参考訳(メタデータ) (2023-07-26T16:19:19Z) - Learning to Bound Counterfactual Inference in Structural Causal Models
from Observational and Randomised Data [64.96984404868411]
我々は、従来のEMベースのアルゴリズムを拡張するための全体的なデータの特徴付けを導出する。
新しいアルゴリズムは、そのような混合データソースからモデルパラメータの(不特定性)領域を近似することを学ぶ。
反実的な結果に間隔近似を与え、それが特定可能な場合の点に崩壊する。
論文 参考訳(メタデータ) (2022-12-06T12:42:11Z) - Autoencoder Based Iterative Modeling and Multivariate Time-Series
Subsequence Clustering Algorithm [0.0]
本稿では、過渡時系列データ(MTSD)における変化点の検出と対応する部分列の同定のためのアルゴリズムを提案する。
我々は、リカレントニューラルネットワーク(RNN)ベースのオートエンコーダ(AE)を用いて、入ってくるデータに基づいて反復的に訓練する。
同定されたサブシーケンスのモデルを保存し、繰り返しサブシーケンスの認識と高速オフラインクラスタリングに使用する。
論文 参考訳(メタデータ) (2022-09-09T09:59:56Z) - Estimating leverage scores via rank revealing methods and randomization [50.591267188664666]
任意のランクの正方形密度あるいはスパース行列の統計レバレッジスコアを推定するアルゴリズムについて検討した。
提案手法は,高密度およびスパースなランダム化次元性還元変換の合成と階調明細化法を組み合わせることに基づく。
論文 参考訳(メタデータ) (2021-05-23T19:21:55Z) - Model-based clustering of partial records [11.193504036335503]
観測値の限界密度を用いたモデルベースの手法でクラスタリング手法を開発しています。
提案アルゴリズムは,不完全データセットの欠落値を考慮した,対応する全期待最大化(EM)手法と比較する。
シミュレーション研究により,本手法は実クラスタ分割の回復に有利であることが示された。
論文 参考訳(メタデータ) (2021-03-30T13:30:59Z) - Sparse PCA via $l_{2,p}$-Norm Regularization for Unsupervised Feature
Selection [138.97647716793333]
再構成誤差を$l_2,p$ノルム正規化と組み合わせることで,単純かつ効率的な特徴選択手法を提案する。
提案する非教師付きモデルを解くための効率的な最適化アルゴリズムを提案し,アルゴリズムの収束と計算の複雑さを理論的に解析する。
論文 参考訳(メタデータ) (2020-12-29T04:08:38Z) - Learning from Incomplete Features by Simultaneous Training of Neural
Networks and Sparse Coding [24.3769047873156]
本稿では,不完全な特徴を持つデータセット上で分類器を訓練する問題に対処する。
私たちは、各データインスタンスで異なる機能のサブセット(ランダムまたは構造化)が利用できると仮定します。
新しい教師付き学習法が開発され、サンプルあたりの機能のサブセットのみを使用して、一般的な分類器を訓練する。
論文 参考訳(メタデータ) (2020-11-28T02:20:39Z) - The Impact of Discretization Method on the Detection of Six Types of
Anomalies in Datasets [0.0]
異常検出は、何らかの方法で異常であり、データセットに存在する一般的なパターンに適合しないケース、またはケースのグループを特定するプロセスである。
多数のアルゴリズムは、検出プロセスにおいて数値データの離散化を利用する。
本研究では,最近のデータ異常のタイプで認識されている6種類の異常のそれぞれを教師なし検出する上で,離散化法が与える影響について検討した。
論文 参考訳(メタデータ) (2020-08-27T18:43:55Z) - Asymptotic Analysis of an Ensemble of Randomly Projected Linear
Discriminants [94.46276668068327]
[1]では、ランダムに投影された線形判別式のアンサンブルを用いてデータセットを分類する。
我々は,計算コストのかかるクロスバリデーション推定器の代替として,誤分類確率の一貫した推定器を開発する。
また、実データと合成データの両方で投影次元を調整するための推定器の使用を実証する。
論文 参考訳(メタデータ) (2020-04-17T12:47:04Z) - New advances in enumerative biclustering algorithms with online
partitioning [80.22629846165306]
さらに、数値データセットの列に定数値を持つ最大二クラスタの効率的で完全で正しい非冗長列挙を実現できる二クラスタリングアルゴリズムであるRIn-Close_CVCを拡張した。
改良されたアルゴリズムはRIn-Close_CVC3と呼ばれ、RIn-Close_CVCの魅力的な特性を保ちます。
論文 参考訳(メタデータ) (2020-03-07T14:54:26Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。