論文の概要: Unsupervised anomaly detection algorithms on real-world data: how many
do we need?
- arxiv url: http://arxiv.org/abs/2305.00735v1
- Date: Mon, 1 May 2023 09:27:42 GMT
- ステータス: 処理完了
- システム内更新日: 2023-05-02 13:32:17.533112
- Title: Unsupervised anomaly detection algorithms on real-world data: how many
do we need?
- Title(参考訳): 実世界のデータに対する教師なし異常検出アルゴリズム:何人必要か?
- Authors: Roel Bouman, Zaharah Bukhsh, Tom Heskes
- Abstract要約: この研究は、これまでで最大の教師なし異常検出アルゴリズムの比較である。
ローカルデータセットでは、$k$NN ($k$-nearest neighbor)アルゴリズムがトップに表示される。
グローバルデータセットでは、EDF(extended isolation forest)アルゴリズムが最善を尽くしている。
- 参考スコア(独自算出の注目度): 1.4610038284393165
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: In this study we evaluate 32 unsupervised anomaly detection algorithms on 52
real-world multivariate tabular datasets, performing the largest comparison of
unsupervised anomaly detection algorithms to date. On this collection of
datasets, the $k$-thNN (distance to the $k$-nearest neighbor) algorithm
significantly outperforms the most other algorithms. Visualizing and then
clustering the relative performance of the considered algorithms on all
datasets, we identify two clear clusters: one with ``local'' datasets, and
another with ``global'' datasets. ``Local'' anomalies occupy a region with low
density when compared to nearby samples, while ``global'' occupy an overall low
density region in the feature space. On the local datasets the $k$NN
($k$-nearest neighbor) algorithm comes out on top. On the global datasets, the
EIF (extended isolation forest) algorithm performs the best. Also taking into
consideration the algorithms' computational complexity, a toolbox with these
three unsupervised anomaly detection algorithms suffices for finding anomalies
in this representative collection of multivariate datasets. By providing access
to code and datasets, our study can be easily reproduced and extended with more
algorithms and/or datasets.
- Abstract(参考訳): 本研究では,52個の実世界の多変量表型データセット上で32個の教師なし異常検出アルゴリズムを評価し,教師なし異常検出アルゴリズムのこれまでの最大比較を行った。
このデータセットのコレクションでは、$k$-thNN($k$-nearestの隣人に対する)アルゴリズムが、他のアルゴリズムよりも大幅に優れています。
すべてのデータセットで考慮されたアルゴリズムの相対的なパフォーマンスを視覚化し、クラスタ化すると、"`local''データセットと‘`global'データセットの2つの明確なクラスタが特定されます。
局所的' 異常は、近傍のサンプルと比較して密度の低い領域を占有し、一方 ``global'' は特徴空間の全体的な低密度領域を占有する。
ローカルデータセットでは、$k$NN ($k$-nearest neighbor)アルゴリズムがトップに表示される。
グローバルデータセットでは、eif(extended isolation forest)アルゴリズムが最善を尽くしている。
アルゴリズムの計算複雑性も考慮し、これら3つの教師なし異常検出アルゴリズムを備えたツールボックスは、この代表的多変量データセットの異常を見つけるのに十分である。
コードやデータセットへのアクセスを提供することで、より多くのアルゴリズムやデータセットで簡単に再現および拡張することができます。
関連論文リスト
- A Novel Adaptive Fine-Tuning Algorithm for Multimodal Models: Self-Optimizing Classification and Selection of High-Quality Datasets in Remote Sensing [46.603157010223505]
マルチモーダル大モデルに対する適応的な微調整アルゴリズムを提案する。
我々は、GeoChatマルチモーダルリモートセンシングデータセットの3分の1を使用して、2台の3090 GPU上でモデルをトレーニングする。
このモデルはUCMercedおよびAID評価データセットで89.86と77.19のスコアを得た。
論文 参考訳(メタデータ) (2024-09-20T09:19:46Z) - ParlayANN: Scalable and Deterministic Parallel Graph-Based Approximate
Nearest Neighbor Search Algorithms [5.478671305092084]
本稿では,ParlayANNについて紹介する。ParlayANNは決定論的および並列グラフに基づく近接探索アルゴリズムのライブラリである。
我々は、数十億のデータセットにスケールする4つの最先端グラフベースのANNSアルゴリズムに対して、新しい並列実装を開発する。
論文 参考訳(メタデータ) (2023-05-07T19:28:23Z) - Quantum Algorithm for Unsupervised Anomaly Detection [5.4335077019052145]
不正検出、医療侵入検出、軍事監視などにおいて、異常検出は重要な役割を果たす。
Local Outlier Factor Algorithm (LOF algorithm) は広く研究されている。
ここでは古典的アルゴリズムに対応する3つの部分からなる量子LOFアルゴリズムを提案する。
論文 参考訳(メタデータ) (2023-04-18T03:20:11Z) - Linearized Wasserstein dimensionality reduction with approximation
guarantees [65.16758672591365]
LOT Wassmap は、ワーッサーシュタイン空間の低次元構造を明らかにするための計算可能なアルゴリズムである。
我々は,LOT Wassmapが正しい埋め込みを実現し,サンプルサイズの増加とともに品質が向上することを示す。
また、LOT Wassmapがペア距離計算に依存するアルゴリズムと比較して計算コストを大幅に削減することを示す。
論文 参考訳(メタデータ) (2023-02-14T22:12:16Z) - Differentially-Private Hierarchical Clustering with Provable
Approximation Guarantees [79.59010418610625]
階層クラスタリングのための微分プライベート近似アルゴリズムについて検討する。
例えば、$epsilon$-DPアルゴリズムは入力データセットに対して$O(|V|2/epsilon)$-additiveエラーを示さなければならない。
本稿では,ブロックを正確に復元する1+o(1)$近似アルゴリズムを提案する。
論文 参考訳(メタデータ) (2023-01-31T19:14:30Z) - Learning to Bound Counterfactual Inference in Structural Causal Models
from Observational and Randomised Data [64.96984404868411]
我々は、従来のEMベースのアルゴリズムを拡張するための全体的なデータの特徴付けを導出する。
新しいアルゴリズムは、そのような混合データソースからモデルパラメータの(不特定性)領域を近似することを学ぶ。
反実的な結果に間隔近似を与え、それが特定可能な場合の点に崩壊する。
論文 参考訳(メタデータ) (2022-12-06T12:42:11Z) - SSDBCODI: Semi-Supervised Density-Based Clustering with Outliers
Detection Integrated [1.8444322599555096]
クラスタリング分析は、機械学習における重要なタスクの1つだ。
クラスタリングクラスタリングのパフォーマンスが、異常値によって著しく損なわれる可能性があるため、アルゴリズムは、異常値検出のプロセスを組み込もうとする。
我々は,半教師付き検出素子であるSSDBCODIを提案する。
論文 参考訳(メタデータ) (2022-08-10T21:06:38Z) - Multi-granularity Relabeled Under-sampling Algorithm for Imbalanced Data [15.030895782548576]
不均衡な分類問題は、データマイニングと機械学習において重要かつ困難な問題の1つであることが判明した。
Tomek-Linkサンプリングアルゴリズムは、データ上のクラスオーバーラップを効果的に低減し、識別が難しい多数インスタンスを除去し、アルゴリズムの分類精度を向上させる。
しかし、Tomek-Linksアンダーサンプリングアルゴリズムは、世界中に最も近い隣り合う境界インスタンスのみを考慮し、潜在的に局所的な重複するインスタンスを無視している。
本稿では,データセットの局所的情報を完全に考慮した多粒度アンダーサンプリングアルゴリズム(MGRU)を提案する。
論文 参考訳(メタデータ) (2022-01-11T14:07:55Z) - Clustered Hierarchical Anomaly and Outlier Detection Algorithms [0.0]
距離計量によって定義されるバナッハ空間の多様体を学習する高速階層的クラスタリング手法であるCLAMを提案する。
24の公開データセットで、CHAODAのパフォーマンスを最先端の監視されていない異常検出アルゴリズムと比較します。
論文 参考訳(メタデータ) (2021-02-09T15:27:52Z) - A Systematic Characterization of Sampling Algorithms for Open-ended
Language Generation [71.31905141672529]
本稿では,自己回帰型言語モデルに広く採用されている祖先サンプリングアルゴリズムについて検討する。
エントロピー低減, 秩序保存, 斜面保全の3つの重要な特性を同定した。
これらの特性を満たすサンプリングアルゴリズムのセットが,既存のサンプリングアルゴリズムと同等に動作することがわかった。
論文 参考訳(メタデータ) (2020-09-15T17:28:42Z) - FedPD: A Federated Learning Framework with Optimal Rates and Adaptivity
to Non-IID Data [59.50904660420082]
フェデレートラーニング(FL)は、分散データから学ぶための一般的なパラダイムになっています。
クラウドに移行することなく、さまざまなデバイスのデータを効果的に活用するために、Federated Averaging(FedAvg)などのアルゴリズムでは、"Computation then aggregate"(CTA)モデルを採用している。
論文 参考訳(メタデータ) (2020-05-22T23:07:42Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。