論文の概要: An Efficient Outlier Detection Algorithm for Data Streaming
- arxiv url: http://arxiv.org/abs/2501.01061v1
- Date: Thu, 02 Jan 2025 05:12:43 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-01-05 17:11:46.954290
- Title: An Efficient Outlier Detection Algorithm for Data Streaming
- Title(参考訳): データストリーミングのための効率的な外乱検出アルゴリズム
- Authors: Rui Hu, Luc, Chen, Yiwei Wang,
- Abstract要約: Local Outlier Factor (LOF)アルゴリズムのような従来の異常検出手法は、リアルタイムデータと競合する。
本稿では,オンライン異常検出におけるLOFアルゴリズムの効率向上のための新しい手法を提案し,EILOFアルゴリズムを提案する。
EILOFアルゴリズムは計算コストを大幅に削減するだけでなく、加算点数が増加すると検出精度を体系的に改善する。
- 参考スコア(独自算出の注目度): 51.56874851156008
- License:
- Abstract: The nature of modern data is increasingly real-time, making outlier detection crucial in any data-related field, such as finance for fraud detection and healthcare for monitoring patient vitals. Traditional outlier detection methods, such as the Local Outlier Factor (LOF) algorithm, struggle with real-time data due to the need for extensive recalculations with each new data point, limiting their application in real-time environments. While the Incremental LOF (ILOF) algorithm has been developed to tackle the challenges of online anomaly detection, it remains computationally expensive when processing large streams of data points, and its detection performance may degrade after a certain threshold of points have streamed in. In this paper, we propose a novel approach to enhance the efficiency of LOF algorithms for online anomaly detection, named the Efficient Incremental LOF (EILOF) algorithm. The EILOF algorithm only computes the LOF scores of new points without altering the LOF scores of existing data points. Although exact LOF scores have not yet been computed for the existing points in the new algorithm, datasets often contain noise, and minor deviations in LOF score calculations do not necessarily degrade detection performance. In fact, such deviations can sometimes enhance outlier detection. We systematically tested this approach on both simulated and real-world datasets, demonstrating that EILOF outperforms ILOF as the volume of streaming data increases across various scenarios. The EILOF algorithm not only significantly reduces computational costs, but also systematically improves detection accuracy when the number of additional points increases compared to the ILOF algorithm.
- Abstract(参考訳): 現代のデータの性質はますますリアルタイム化され、不正検出のためのファイナンスや患者のバイタルを監視するためのヘルスケアなど、あらゆるデータ関連分野において、異常検出が重要になっている。
Local Outlier Factor (LOF)アルゴリズムのような従来の外れ値検出手法は、各新しいデータポイントで広範囲に再計算する必要があるため、リアルタイムなデータに苦しむ。
Incremental LOF (ILOF) アルゴリズムはオンライン異常検出の課題に対処するために開発されたが、大量のデータストリームを処理する際には計算コストがかかり、一定の閾値のポイントが入力された後に検出性能が低下する可能性がある。
本稿では,オンライン異常検出におけるLOFアルゴリズムの効率向上のための新しい手法を提案する。
EILOFアルゴリズムは、既存のデータポイントのLOFスコアを変更することなく、新しいポイントのLOFスコアのみを計算する。
新しいアルゴリズムの既存の点について正確なLOFスコアはまだ計算されていないが、データセットにはノイズがしばしば含まれており、LOFスコア計算の小さな偏差は必ずしも検出性能を劣化させるわけではない。
実際、そのような偏差は時として外乱検出を高めることがある。
シミュレーションと実世界の両方のデータセットでこのアプローチを体系的にテストし、さまざまなシナリオでストリーミングデータの量が増加するにつれて、EILOFはILOFより優れていることを示した。
EILOFアルゴリズムは計算コストを大幅に削減するだけでなく、ILOFアルゴリズムと比較して追加点数が増加すると検出精度を体系的に向上する。
関連論文リスト
- LAVA: Data Valuation without Pre-Specified Learning Algorithms [20.578106028270607]
我々は、下流学習アルゴリズムに不利な方法でトレーニングデータを評価できる新しいフレームワークを導入する。
本研究では,訓練と検証セット間の非伝統的なクラスワイドワッサースタイン距離に基づいて,トレーニングセットに関連する検証性能のプロキシを開発する。
距離は、特定のリプシッツ条件下での任意のモデルに対する検証性能の上限を特徴付けることを示す。
論文 参考訳(メタデータ) (2023-04-28T19:05:16Z) - Quantum Algorithm for Unsupervised Anomaly Detection [5.4335077019052145]
不正検出、医療侵入検出、軍事監視などにおいて、異常検出は重要な役割を果たす。
Local Outlier Factor Algorithm (LOF algorithm) は広く研究されている。
ここでは古典的アルゴリズムに対応する3つの部分からなる量子LOFアルゴリズムを提案する。
論文 参考訳(メタデータ) (2023-04-18T03:20:11Z) - A Log-Linear Non-Parametric Online Changepoint Detection Algorithm based
on Functional Pruning [5.202524136984542]
シーケンスの分布の変化を検出するために,フレキシブルな非パラメトリック手法を構築した。
機能的プルーニングのアイデアのおかげで、NP-FOCuSは観測回数の対数直線的な計算コストを持つ。
検出能力の面では、NP-FOCuSは様々な設定で現在の非パラメトリックオンライン変更ポイント技術より優れている。
論文 参考訳(メタデータ) (2023-02-06T11:50:02Z) - PULL: Reactive Log Anomaly Detection Based On Iterative PU Learning [58.85063149619348]
本稿では,推定故障時間ウィンドウに基づくリアクティブ異常検出のための反復ログ解析手法PULLを提案する。
我々の評価では、PULLは3つの異なるデータセットで10のベンチマークベースラインを一貫して上回っている。
論文 参考訳(メタデータ) (2023-01-25T16:34:43Z) - Large-scale Optimization of Partial AUC in a Range of False Positive
Rates [51.12047280149546]
ROC曲線 (AUC) の下の領域は、機械学習において最も広く使われている分類モデルのパフォーマンス指標の1つである。
近年の封筒平滑化技術に基づく効率的な近似勾配降下法を開発した。
提案アルゴリズムは,効率のよい解法を欠くランク付けされた範囲損失の和を最小化するためにも利用できる。
論文 参考訳(メタデータ) (2022-03-03T03:46:18Z) - Little Help Makes a Big Difference: Leveraging Active Learning to
Improve Unsupervised Time Series Anomaly Detection [2.1684857243537334]
予期せぬネットワークインシデントを検出するために,多数の異常検出アルゴリズムがデプロイされている。
教師なし異常検出アルゴリズムは、しばしば過度の誤報に悩まされる。
本稿では,オペレータのフィードバックの導入とメリットをアクティブな学習に活用することを提案する。
論文 参考訳(メタデータ) (2022-01-25T13:54:19Z) - Local Learning Matters: Rethinking Data Heterogeneity in Federated
Learning [61.488646649045215]
フェデレートラーニング(FL)は、クライアントのネットワーク(エッジデバイス)でプライバシ保護、分散ラーニングを行うための有望な戦略である。
論文 参考訳(メタデータ) (2021-11-28T19:03:39Z) - IPOF: An Extremely and Excitingly Simple Outlier Detection Booster via
Infinite Propagation [30.91911545889579]
外部検出は、データマイニング分野で最も人気があり、継続的に増えているトピックの1つである。
本稿では,スコアに基づく外れ値検出カテゴリについて考察し,現在の外れ値検出アルゴリズムの性能は,スコア伝搬によってさらに向上する可能性があることを指摘する。
具体的には、無限伝播による極端かつエキサイティングに単純な外乱検出ブースターであるiPOFアルゴリズムの無限伝播を提案する。
論文 参考訳(メタデータ) (2021-08-01T03:48:09Z) - Bayesian Optimization with Machine Learning Algorithms Towards Anomaly
Detection [66.05992706105224]
本稿では,ベイズ最適化手法を用いた効果的な異常検出フレームワークを提案する。
ISCX 2012データセットを用いて検討したアルゴリズムの性能を評価する。
実験結果から, 精度, 精度, 低コストアラームレート, リコールの観点から, 提案手法の有効性が示された。
論文 参考訳(メタデータ) (2020-08-05T19:29:35Z) - FedPD: A Federated Learning Framework with Optimal Rates and Adaptivity
to Non-IID Data [59.50904660420082]
フェデレートラーニング(FL)は、分散データから学ぶための一般的なパラダイムになっています。
クラウドに移行することなく、さまざまなデバイスのデータを効果的に活用するために、Federated Averaging(FedAvg)などのアルゴリズムでは、"Computation then aggregate"(CTA)モデルを採用している。
論文 参考訳(メタデータ) (2020-05-22T23:07:42Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。