論文の概要: Categorical anomaly detection in heterogeneous data using minimum
description length clustering
- arxiv url: http://arxiv.org/abs/2006.07916v1
- Date: Sun, 14 Jun 2020 14:48:37 GMT
- ステータス: 処理完了
- システム内更新日: 2022-11-21 13:22:35.910654
- Title: Categorical anomaly detection in heterogeneous data using minimum
description length clustering
- Title(参考訳): 最小記述長クラスタリングを用いた異種データのカテゴリー異常検出
- Authors: James Cheney, Xavier Gombau, Ghita Berrada and Sidahmed
Benabderrahmane
- Abstract要約: 異種データを扱うため,MPLに基づく異常検出モデルの拡張のためのメタアルゴリズムを提案する。
実験の結果, 離散混合モデルを用いることで, 従来の2つの異常検出アルゴリズムと比較して, 競合性能が向上することがわかった。
- 参考スコア(独自算出の注目度): 3.871148938060281
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Fast and effective unsupervised anomaly detection algorithms have been
proposed for categorical data based on the minimum description length (MDL)
principle. However, they can be ineffective when detecting anomalies in
heterogeneous datasets representing a mixture of different sources, such as
security scenarios in which system and user processes have distinct behavior
patterns. We propose a meta-algorithm for enhancing any MDL-based anomaly
detection model to deal with heterogeneous data by fitting a mixture model to
the data, via a variant of k-means clustering. Our experimental results show
that using a discrete mixture model provides competitive performance relative
to two previous anomaly detection algorithms, while mixtures of more
sophisticated models yield further gains, on both synthetic datasets and
realistic datasets from a security scenario.
- Abstract(参考訳): 最小記述長(mdl)原理に基づく分類データに対して,高速かつ効果的な教師なし異常検出アルゴリズムが提案されている。
しかし、システムとユーザプロセスが異なる振る舞いパターンを持つセキュリティシナリオなど、異なるソースの混合を表す異種データセットの異常を検出する場合には、効果がない可能性がある。
我々は,k-meansクラスタリングの変種を用いて,混合モデルをデータに適合させて異種データを扱うため,MDLに基づく異常検出モデルを拡張するメタアルゴリズムを提案する。
実験結果から,従来の2つの異常検出アルゴリズムと比較して,離散混合モデルを用いた場合の競合性能が向上する一方,より高度なモデルの混合は,セキュリティシナリオからの合成データセットと現実的データセットの両方において,さらなる利益をもたらすことが示された。
関連論文リスト
- Research on Dynamic Data Flow Anomaly Detection based on Machine Learning [11.526496773281938]
本研究では,非教師なし学習法を用いて動的データフローの異常を同定する。
類似したデータをクラスタリングすることで、ラベル付きデータを必要とせずに、通常のトラフィックから著しく逸脱するデータ挙動を検出することができる。
特に、不均衡なデータのコンテキストにおいて、堅牢で適応可能なパフォーマンスを示す。
論文 参考訳(メタデータ) (2024-09-23T08:19:15Z) - Anomaly Detection of Tabular Data Using LLMs [54.470648484612866]
我々は,事前訓練された大規模言語モデル (LLM) がゼロショットバッチレベルの異常検出器であることを示す。
本稿では,実異常検出におけるLCMの潜在性を明らかにするために,エンドツーエンドの微調整手法を提案する。
論文 参考訳(メタデータ) (2024-06-24T04:17:03Z) - Weakly-supervised anomaly detection for multimodal data distributions [25.60381244912307]
Weakly-supervised Variational-mixture-based Anomaly Detector (WVAD)を提案する。
WVADはマルチモーダルデータセットで優れている。
3つの実世界のデータセットの実験結果は、WVADの優位性を示している。
論文 参考訳(メタデータ) (2024-06-13T14:14:27Z) - Learning to Bound Counterfactual Inference in Structural Causal Models
from Observational and Randomised Data [64.96984404868411]
我々は、従来のEMベースのアルゴリズムを拡張するための全体的なデータの特徴付けを導出する。
新しいアルゴリズムは、そのような混合データソースからモデルパラメータの(不特定性)領域を近似することを学ぶ。
反実的な結果に間隔近似を与え、それが特定可能な場合の点に崩壊する。
論文 参考訳(メタデータ) (2022-12-06T12:42:11Z) - A Robust and Flexible EM Algorithm for Mixtures of Elliptical
Distributions with Missing Data [71.9573352891936]
本稿では、ノイズや非ガウス的なデータに対するデータ計算の欠如に対処する。
楕円分布と潜在的な欠落データを扱う特性を混合した新しいEMアルゴリズムについて検討した。
合成データの実験的結果は,提案アルゴリズムが外れ値に対して頑健であり,非ガウスデータで使用可能であることを示す。
論文 参考訳(メタデータ) (2022-01-28T10:01:37Z) - Riemannian classification of EEG signals with missing values [67.90148548467762]
本稿では脳波の分類に欠落したデータを扱うための2つの方法を提案する。
第1のアプローチでは、インプットされたデータと$k$-nearestの隣人アルゴリズムとの共分散を推定し、第2のアプローチでは、期待最大化アルゴリズム内で観測データの可能性を活用することにより、観測データに依存する。
その結果, 提案手法は観測データに基づく分類よりも優れており, 欠落したデータ比が増大しても高い精度を維持することができることがわかった。
論文 参考訳(メタデータ) (2021-10-19T14:24:50Z) - Explainable Deep Few-shot Anomaly Detection with Deviation Networks [123.46611927225963]
本稿では,弱い教師付き異常検出フレームワークを導入し,検出モデルを訓練する。
提案手法は,ラベル付き異常と事前確率を活用することにより,識別正規性を学習する。
我々のモデルはサンプル効率が高く頑健であり、クローズドセットとオープンセットの両方の設定において最先端の競合手法よりもはるかに優れている。
論文 参考訳(メタデータ) (2021-08-01T14:33:17Z) - Model-based clustering of partial records [11.193504036335503]
観測値の限界密度を用いたモデルベースの手法でクラスタリング手法を開発しています。
提案アルゴリズムは,不完全データセットの欠落値を考慮した,対応する全期待最大化(EM)手法と比較する。
シミュレーション研究により,本手法は実クラスタ分割の回復に有利であることが示された。
論文 参考訳(メタデータ) (2021-03-30T13:30:59Z) - Sparse PCA via $l_{2,p}$-Norm Regularization for Unsupervised Feature
Selection [138.97647716793333]
再構成誤差を$l_2,p$ノルム正規化と組み合わせることで,単純かつ効率的な特徴選択手法を提案する。
提案する非教師付きモデルを解くための効率的な最適化アルゴリズムを提案し,アルゴリズムの収束と計算の複雑さを理論的に解析する。
論文 参考訳(メタデータ) (2020-12-29T04:08:38Z) - Modeling Heterogeneous Statistical Patterns in High-dimensional Data by
Adversarial Distributions: An Unsupervised Generative Framework [33.652544673163774]
本研究では,不均質な統計的パターンに適合して解き放つために,逆分布を利用した新しい非監視生成フレームワークFIRDを提案する。
離散空間に適用する場合、firdは同期された詐欺師を通常のユーザーと効果的に区別する。
論文 参考訳(メタデータ) (2020-12-15T08:51:20Z) - Factor Analysis of Mixed Data for Anomaly Detection [5.77019633619109]
異常な観察は、金融詐欺、健康リスク、または実際には不正に測定されたデータに対応することがある。
我々は,まずデータを埋め込み,異常スコアリング方式を評価することによって,高次元混合データにおける異常の検出を向上することを示す。
論文 参考訳(メタデータ) (2020-05-25T14:13:10Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。