論文の概要: AnoShift: A Distribution Shift Benchmark for Unsupervised Anomaly
Detection
- arxiv url: http://arxiv.org/abs/2206.15476v1
- Date: Thu, 30 Jun 2022 17:59:22 GMT
- ステータス: 処理完了
- システム内更新日: 2022-07-01 14:36:59.241725
- Title: AnoShift: A Distribution Shift Benchmark for Unsupervised Anomaly
Detection
- Title(参考訳): AnoShift: 教師なし異常検出のための分散シフトベンチマーク
- Authors: Marius Dr\u{a}goi, Elena Burceanu, Emanuela Haller, Andrei Manolache
and Florin Brad
- Abstract要約: 本稿では,ネットワーク侵入検知のためのトラフィックデータセットである Kyoto-2006+ 上に構築された,時間とともに変化するデータを含む教師なし異常検出ベンチマークを提案する。
分散シフト問題を認識し,それを適切に処理することにより,従来のIDDトレーニングと比較して性能を向上できることを示す。
- 参考スコア(独自算出の注目度): 7.829710051617368
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Analyzing the distribution shift of data is a growing research direction in
nowadays Machine Learning, leading to emerging new benchmarks that focus on
providing a suitable scenario for studying the generalization properties of ML
models. The existing benchmarks are focused on supervised learning, and to the
best of our knowledge, there is none for unsupervised learning. Therefore, we
introduce an unsupervised anomaly detection benchmark with data that shifts
over time, built over Kyoto-2006+, a traffic dataset for network intrusion
detection. This kind of data meets the premise of shifting the input
distribution: it covers a large time span ($10$ years), with naturally
occurring changes over time (\eg users modifying their behavior patterns, and
software updates). We first highlight the non-stationary nature of the data,
using a basic per-feature analysis, t-SNE, and an Optimal Transport approach
for measuring the overall distribution distances between years. Next, we
propose AnoShift, a protocol splitting the data in IID, NEAR, and FAR testing
splits. We validate the performance degradation over time with diverse models
(MLM to classical Isolation Forest). Finally, we show that by acknowledging the
distribution shift problem and properly addressing it, the performance can be
improved compared to the classical IID training (by up to $3\%$, on average).
Dataset and code are available at https://github.com/bit-ml/AnoShift/.
- Abstract(参考訳): データの分散シフトを分析することは、機械学習における研究の方向性の高まりであり、MLモデルの一般化特性を研究するための適切なシナリオを提供することに焦点を当てた、新たなベンチマークへとつながる。
既存のベンチマークは教師なし学習にフォーカスしており、最善の知識は教師なし学習には何もありません。
そこで本稿では,ネットワーク侵入検知のためのトラフィックデータセットである Kyoto-2006+ 上に構築されたデータを用いた教師なし異常検出ベンチマークを導入する。
この種のデータは、入力の配布をシフトする前提に合致する: 大量の時間(10ドル)をカバーし、時間とともに自然に変化する変化(ユーザが行動パターンを変更したり、ソフトウェアのアップデートを行う)。
まず、基本機能毎の分析、t-sne、および年数間の分布距離を測定するための最適な輸送手法を用いて、データの非定常的性質を強調する。
次に、IID、NEAR、FARテスト分割でデータを分割するプロトコルであるAnoShiftを提案する。
様々なモデル(MLMから古典的孤立林まで)で時間とともに性能劣化を検証する。
最後に,分散シフト問題を認識し,適切な対応を行うことで,従来の iid トレーニングと比較して(平均で 3,$$$ まで)性能が向上することを示す。
データセットとコードはhttps://github.com/bit-ml/anoshift/で入手できる。
関連論文リスト
- Understanding the Generalizability of Link Predictors Under Distribution Shifts on Graphs [34.58496513149175]
多くの人気のあるベンチマークデータセットは、データセットのサンプルが同じ分布から引き出されると仮定している。
構造特性を利用して制御分布シフトを誘導するLP固有データ分割を導入する。
我々は、異なるSOTA LP手法の評価により、シフトの効果を実証的に検証し、その後、これらの手法を一般化手法と組み合わせる。
論文 参考訳(メタデータ) (2024-06-13T03:47:12Z) - PeFAD: A Parameter-Efficient Federated Framework for Time Series Anomaly Detection [51.20479454379662]
私たちはaを提案します。
フェデレートされた異常検出フレームワークであるPeFADは、プライバシーの懸念が高まっている。
我々は、4つの実際のデータセットに対して広範な評価を行い、PeFADは既存の最先端ベースラインを最大28.74%上回っている。
論文 参考訳(メタデータ) (2024-06-04T13:51:08Z) - LARA: A Light and Anti-overfitting Retraining Approach for Unsupervised
Time Series Anomaly Detection [49.52429991848581]
深部変分自動エンコーダに基づく時系列異常検出手法(VAE)のための光・反オーバーフィット学習手法(LARA)を提案する。
本研究の目的は,1) 再学習過程を凸問題として定式化し, 過度に収束できること,2) 履歴データを保存せずに活用するルミネートブロックを設計すること,3) 潜在ベクトルと再構成データの微調整を行うと, 線形形成が基底真実と微調整されたブロックとの誤りを最小に調整できることを数学的に証明することである。
論文 参考訳(メタデータ) (2023-10-09T12:36:16Z) - Wild-Time: A Benchmark of in-the-Wild Distribution Shift over Time [69.77704012415845]
時間的シフトは、現実世界にデプロイされた機械学習モデルのパフォーマンスを著しく低下させる可能性がある。
ドメイン一般化、連続学習、自己教師付き学習、アンサンブル学習の手法を含む13の先行手法をベンチマークする。
いずれの評価方略も,分布外データから分布外データへの平均的な性能低下を観察する。
論文 参考訳(メタデータ) (2022-11-25T17:07:53Z) - Anomaly Detection with Test Time Augmentation and Consistency Evaluation [13.709281244889691]
本稿では,TTA-AD(Test Time Augmentation Anomaly Detection)と呼ばれる簡易かつ効果的な異常検出アルゴリズムを提案する。
我々は、分散データよりもトレーニングされたネットワーク上でのオリジナルバージョンと拡張バージョンについて、分散データの方が一貫性のある予測を楽しむことを観察した。
様々な高解像度画像ベンチマークデータセットの実験は、TTA-ADが同等またはより良い検出性能を達成することを示した。
論文 参考訳(メタデータ) (2022-06-06T04:27:06Z) - CAFA: Class-Aware Feature Alignment for Test-Time Adaptation [50.26963784271912]
テスト時間適応(TTA)は、テスト時にラベルのないデータにモデルを適応させることによって、この問題に対処することを目的としている。
本稿では,クラス認識特徴アライメント(CAFA, Class-Aware Feature Alignment)と呼ばれる単純な機能アライメント損失を提案する。
論文 参考訳(メタデータ) (2022-06-01T03:02:07Z) - Deep Generative model with Hierarchical Latent Factors for Time Series
Anomaly Detection [40.21502451136054]
本研究は、時系列異常検出のための新しい生成モデルであるDGHLを提示する。
トップダウンの畳み込みネットワークは、新しい階層的な潜在空間を時系列ウィンドウにマッピングし、時間ダイナミクスを利用して情報を効率的にエンコードする。
提案手法は,4つのベンチマーク・データセットにおいて,現在の最先端モデルよりも優れていた。
論文 参考訳(メタデータ) (2022-02-15T17:19:44Z) - DATE: Detecting Anomalies in Text via Self-Supervision of Transformers [5.105840060102528]
画像の異常に対する最近の深い方法は、エンドツーエンドのセルフ監視設定で正常性のより良い特徴を学びます。
このアプローチは、テキストシーケンスに新しいプリテキストタスクを導入することで、テキストの異常検出に使用します。
20NewsgroupsおよびAG Newsデータセットで強力な定量的および定性的な結果を示します。
論文 参考訳(メタデータ) (2021-04-12T16:08:05Z) - BREEDS: Benchmarks for Subpopulation Shift [98.90314444545204]
本研究では,人口変動に対するモデルのロバスト性を評価する手法を開発した。
既存のデータセットの基盤となるクラス構造を利用して、トレーニングとテストの分散を構成するデータサブポピュレーションを制御する。
この手法をImageNetデータセットに適用し、様々な粒度のサブポピュレーションシフトベンチマークスイートを作成する。
論文 参考訳(メタデータ) (2020-08-11T17:04:47Z) - Evaluating Prediction-Time Batch Normalization for Robustness under
Covariate Shift [81.74795324629712]
我々は予測時間バッチ正規化と呼び、共変量シフト時のモデル精度とキャリブレーションを大幅に改善する。
予測時間バッチ正規化は、既存の最先端アプローチに相補的な利点をもたらし、ロバスト性を向上させることを示します。
この手法は、事前トレーニングと併用して使用すると、さまざまな結果が得られるが、より自然なタイプのデータセットシフトでは、パフォーマンスが良くないようだ。
論文 参考訳(メタデータ) (2020-06-19T05:08:43Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。