論文の概要: A Generic Machine Learning Framework for Fully-Unsupervised Anomaly
Detection with Contaminated Data
- arxiv url: http://arxiv.org/abs/2308.13352v3
- Date: Wed, 31 Jan 2024 14:53:18 GMT
- ステータス: 処理完了
- システム内更新日: 2024-02-01 17:56:23.143181
- Title: A Generic Machine Learning Framework for Fully-Unsupervised Anomaly
Detection with Contaminated Data
- Title(参考訳): 汚染データを用いた教師なし異常検出のための汎用機械学習フレームワーク
- Authors: Markus Ulmer, Jannik Zgraggen, and Lilach Goren Huber
- Abstract要約: 本稿では,ADタスクに対する汚染されたトレーニングデータの完全教師なし改善のためのフレームワークを提案する。
このフレームワークは汎用的であり、任意の残差ベースの機械学習モデルに適用することができる。
本研究は, 改質を伴わない汚染データを用いた学習において, ナイーブなアプローチよりも明らかに優れていることを示す。
- 参考スコア(独自算出の注目度): 0.0
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Anomaly detection (AD) tasks have been solved using machine learning
algorithms in various domains and applications. The great majority of these
algorithms use normal data to train a residual-based model and assign anomaly
scores to unseen samples based on their dissimilarity with the learned normal
regime. The underlying assumption of these approaches is that anomaly-free data
is available for training. This is, however, often not the case in real-world
operational settings, where the training data may be contaminated with an
unknown fraction of abnormal samples. Training with contaminated data, in turn,
inevitably leads to a deteriorated AD performance of the residual-based
algorithms.
In this paper we introduce a framework for a fully unsupervised refinement of
contaminated training data for AD tasks. The framework is generic and can be
applied to any residual-based machine learning model. We demonstrate the
application of the framework to two public datasets of multivariate time series
machine data from different application fields. We show its clear superiority
over the naive approach of training with contaminated data without refinement.
Moreover, we compare it to the ideal, unrealistic reference in which
anomaly-free data would be available for training. The method is based on
evaluating the contribution of individual samples to the generalization ability
of a given model, and contrasting the contribution of anomalies with the one of
normal samples. As a result, the proposed approach is comparable to, and often
outperforms training with normal samples only.
- Abstract(参考訳): 異常検出(AD)タスクは、さまざまなドメインやアプリケーションで機械学習アルゴリズムを用いて解決されている。
これらのアルゴリズムの大部分は、正規データを使用して残差ベースモデルをトレーニングし、学習された正規状態と相違点に基づいて異常スコアを未確認サンプルに割り当てる。
これらのアプローチの基本的な前提は、異常のないデータがトレーニングに利用できることだ。
しかし、実際の運用環境では、トレーニングデータが未知の異常サンプルの一部で汚染される場合が多い。
汚染データによるトレーニングは、必然的に残差ベースアルゴリズムのAD性能を低下させる。
本稿では,ADタスクに対する汚染されたトレーニングデータの完全教師なし改善のためのフレームワークを提案する。
フレームワークは汎用的であり、残差ベースの機械学習モデルに適用することができる。
本稿では,異なるアプリケーション分野からの時系列マシンデータの2つの公開データセットへのフレームワークの適用を実演する。
本研究は, 改質を伴わない汚染データを用いた簡易な訓練法よりも明らかに優れていることを示す。
さらに、異常のないデータがトレーニングに利用できる理想的で非現実的な参照と比較する。
この方法は、与えられたモデルの一般化能力に対する個々のサンプルの寄与を評価し、正常なサンプルとの異常の寄与を対比するものである。
その結果、提案手法は通常のサンプルのみによるトレーニングに匹敵し、しばしば優れる。
関連論文リスト
- Toward Generalist Anomaly Detection via In-context Residual Learning
with Few-shot Sample Prompts [30.278418852521344]
Generalist Anomaly Detection (GAD)は、ターゲットデータにさらなるトレーニングを加えることなく、異なるアプリケーションドメインからさまざまなデータセットの異常を検出するために一般化可能な、単一の検出モデルをトレーニングすることを目的としている。
InCTRLと呼ばれるGADのための文脈内残差学習モデルを学習する新しい手法を提案する。
クエリ画像と数発のサンプルプロンプト間の残差の全体的評価に基づいて、通常のサンプルから異常を識別する補助データセットを用いて訓練する。
論文 参考訳(メタデータ) (2024-03-11T08:07:46Z) - Learning from aggregated data with a maximum entropy model [73.63512438583375]
我々は,観測されていない特徴分布を最大エントロピー仮説で近似することにより,ロジスティック回帰と類似した新しいモデルが,集約データからのみ学習されることを示す。
我々は、この方法で学習したモデルが、完全な非凝集データでトレーニングされたロジスティックモデルに匹敵するパフォーマンスを達成することができるという、いくつかの公開データセットに関する実証的な証拠を提示する。
論文 参考訳(メタデータ) (2022-10-05T09:17:27Z) - Augment to Detect Anomalies with Continuous Labelling [10.646747658653785]
異常検出は、トレーニング観察と何らかの点で異なるサンプルを認識することである。
最近の最先端のディープラーニングに基づく異常検出手法は、計算コスト、複雑さ、不安定な訓練手順、非自明な実装に悩まされている。
我々は、軽量な畳み込みニューラルネットワークを訓練し、異常検出における最先端の性能に到達するための単純な学習手順を活用する。
論文 参考訳(メタデータ) (2022-07-03T20:11:51Z) - Self-Supervised Training with Autoencoders for Visual Anomaly Detection [55.52743265122446]
ディープオートエンコーダは視覚領域における異常検出のタスクに使われてきた。
我々は、訓練中に識別情報を使用することが可能な自己指導型学習体制を適用することで、この問題に対処する。
MVTec ADデータセットを用いた実験では,高い検出性能と局所化性能を示した。
論文 参考訳(メタデータ) (2022-06-23T14:16:30Z) - Explainable Deep Few-shot Anomaly Detection with Deviation Networks [123.46611927225963]
本稿では,弱い教師付き異常検出フレームワークを導入し,検出モデルを訓練する。
提案手法は,ラベル付き異常と事前確率を活用することにより,識別正規性を学習する。
我々のモデルはサンプル効率が高く頑健であり、クローズドセットとオープンセットの両方の設定において最先端の競合手法よりもはるかに優れている。
論文 参考訳(メタデータ) (2021-08-01T14:33:17Z) - Self Training with Ensemble of Teacher Models [8.257085583227695]
堅牢なディープラーニングモデルのトレーニングには,大量のラベル付きデータが必要である。
このようなラベル付きデータの大規模なリポジトリがなければ、ラベルなしのデータも同様に利用することができる。
準スーパービジョン学習は、そのようなラベルのないデータを分類モデルの訓練に活用することを目的としている。
論文 参考訳(メタデータ) (2021-07-17T09:44:09Z) - Self-Trained One-class Classification for Unsupervised Anomaly Detection [56.35424872736276]
異常検出(AD)は、製造から医療まで、さまざまな分野に応用されている。
本研究は、トレーニングデータ全体がラベル付けされておらず、正規サンプルと異常サンプルの両方を含む可能性のある、教師なしAD問題に焦点を当てる。
この問題に対処するため,データリファインメントによる堅牢な一級分類フレームワークを構築した。
本手法は6.3AUCと12.5AUCの平均精度で最先端の1クラス分類法より優れていることを示す。
論文 参考訳(メタデータ) (2021-06-11T01:36:08Z) - Deep Visual Anomaly detection with Negative Learning [18.79849041106952]
本稿では、異常検出の強化に負の学習概念を用いる、負の学習を伴う異常検出(ADNL)を提案する。
その考え方は、与えられた少数の異常例を用いて生成モデルの再構成能力を制限することである。
このようにして、ネットワークは通常のデータを再構築することを学ぶだけでなく、異常の可能性のある分布から遠く離れた正規分布を囲む。
論文 参考訳(メタデータ) (2021-05-24T01:48:44Z) - One for More: Selecting Generalizable Samples for Generalizable ReID
Model [92.40951770273972]
本稿では,選択したサンプルを損失関数として一般化する1対3の学習目標を提案する。
提案した1対3のサンプルは,ReIDトレーニングフレームワークにシームレスに統合できる。
論文 参考訳(メタデータ) (2020-12-10T06:37:09Z) - Good Classifiers are Abundant in the Interpolating Regime [64.72044662855612]
補間分類器間のテストエラーの完全な分布を正確に計算する手法を開発した。
テストエラーは、最悪の補間モデルのテストエラーから大きく逸脱する、小さな典型的な$varepsilon*$に集中する傾向にある。
以上の結果から,統計的学習理論における通常の解析手法は,実際に観測された優れた一般化性能を捉えるのに十分な粒度にはならない可能性が示唆された。
論文 参考訳(メタデータ) (2020-06-22T21:12:31Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。