論文の概要: Unsupervised Anomaly Detection for Tabular Data Using Noise Evaluation
- arxiv url: http://arxiv.org/abs/2412.11461v1
- Date: Mon, 16 Dec 2024 05:35:58 GMT
- ステータス: 翻訳完了
- システム内更新日: 2024-12-17 14:00:18.628907
- Title: Unsupervised Anomaly Detection for Tabular Data Using Noise Evaluation
- Title(参考訳): 騒音評価を用いた語彙データの教師なし異常検出
- Authors: Wei Dai, Kai Hwang, Jicong Fan,
- Abstract要約: 教師なし異常検出(UAD)は、現代のデータ分析において重要な役割を果たす。
データに含まれるノイズの量を評価することによって,新しいUAD手法を提案する。
提案手法が異常データの検出に有効であることを証明し,理論的保証を提供する。
- 参考スコア(独自算出の注目度): 26.312206159418903
- License:
- Abstract: Unsupervised anomaly detection (UAD) plays an important role in modern data analytics and it is crucial to provide simple yet effective and guaranteed UAD algorithms for real applications. In this paper, we present a novel UAD method for tabular data by evaluating how much noise is in the data. Specifically, we propose to learn a deep neural network from the clean (normal) training dataset and a noisy dataset, where the latter is generated by adding highly diverse noises to the clean data. The neural network can learn a reliable decision boundary between normal data and anomalous data when the diversity of the generated noisy data is sufficiently high so that the hard abnormal samples lie in the noisy region. Importantly, we provide theoretical guarantees, proving that the proposed method can detect anomalous data successfully, although the method does not utilize any real anomalous data in the training stage. Extensive experiments through more than 60 benchmark datasets demonstrate the effectiveness of the proposed method in comparison to 12 baselines of UAD. Our method obtains a 92.27\% AUC score and a 1.68 ranking score on average. Moreover, compared to the state-of-the-art UAD methods, our method is easier to implement.
- Abstract(参考訳): 教師なし異常検出(UAD)は、現代のデータ分析において重要な役割を果たす。
本稿では,このデータに含まれるノイズの量を評価することによって,表型データに対する新しいUAD手法を提案する。
具体的には、クリーンな(通常の)トレーニングデータセットとノイズの多いデータセットからディープニューラルネットワークを学習し、クリーンなデータに非常に多様なノイズを加えることで後者を生成することを提案する。
ニューラルネットワークは、生成したノイズデータの多様性が十分に高く、硬い異常サンプルがノイズ領域にある場合に、正常データと異常データとの信頼性の高い決定境界を学習することができる。
重要なことは,本手法がトレーニング段階で実際の異常データを利用していないにもかかわらず,提案手法が異常データを正常に検出できることを証明する理論的保証を提供することである。
60以上のベンチマークデータセットによる大規模な実験は、UADの12基準値と比較して提案手法の有効性を実証している。
本手法は平均92.27 % AUC スコアと1.68 ランクスコアを得る。
さらに,最先端のUAD手法と比較して,実装が容易である。
関連論文リスト
- On the Influence of Data Resampling for Deep Learning-Based Log Anomaly Detection: Insights and Recommendations [10.931620604044486]
本研究は,多様なデータ再サンプリング手法が既存のADアプローチに与える影響を詳細に分析する。
クラス不均衡のレベルが異なる4つのデータセットにまたがるこれらのADアプローチの性能を評価する。
正常なデータと異常なデータの最適な再サンプリング率を利用する際のデータ再サンプリング手法の有効性を評価する。
論文 参考訳(メタデータ) (2024-05-06T14:01:05Z) - SoftPatch: Unsupervised Anomaly Detection with Noisy Data [67.38948127630644]
本稿では,画像センサ異常検出におけるラベルレベルのノイズを初めて考察する。
本稿では,メモリベースの非教師付きAD手法であるSoftPatchを提案する。
既存の手法と比較して、SoftPatchは通常のデータの強力なモデリング能力を維持し、コアセットにおける過信問題を軽減する。
論文 参考訳(メタデータ) (2024-03-21T08:49:34Z) - Fast kernel methods for Data Quality Monitoring as a goodness-of-fit
test [10.882743697472755]
本稿では,粒子検出器をリアルタイムで監視するための機械学習手法を提案する。
目標は、入ってくる実験データと参照データセットとの互換性を評価し、通常の状況下でのデータ挙動を特徴づけることである。
このモデルはカーネルメソッドの現代的な実装に基づいており、十分なデータを与えられた連続関数を学習できる非パラメトリックアルゴリズムである。
論文 参考訳(メタデータ) (2023-03-09T16:59:35Z) - On-the-fly Denoising for Data Augmentation in Natural Language
Understanding [101.46848743193358]
よりクリーンなオリジナルデータに基づいて訓練された有機教師モデルによって提供されるソフトな拡張ラベルから学習する,データ拡張のためのオンザフライデノケーション手法を提案する。
本手法は,一般的な拡張手法に適用でき,テキスト分類と質問応答の両タスクの性能を一貫して向上させることができる。
論文 参考訳(メタデータ) (2022-12-20T18:58:33Z) - Improving the Robustness of Summarization Models by Detecting and
Removing Input Noise [50.27105057899601]
本研究では,様々な種類の入力ノイズから,様々なデータセットやモデルサイズに対する性能損失を定量化する大規模な実験的検討を行った。
本稿では,モデル推論中の入力中のそのようなノイズを検出し,除去するための軽量な手法を提案する。
論文 参考訳(メタデータ) (2022-12-20T00:33:11Z) - Robust Learning of Deep Time Series Anomaly Detection Models with
Contaminated Training Data [29.808942473293108]
時系列異常検出(TSAD)は、IoT時代の多くのアプリケーションにおいて重要なデータマイニングタスクである。
ディープTSADメソッドは通常、基礎となるダイナミクスの"正規プロファイル"を学ぶために、異常によって汚染されないクリーンなトレーニングデータセットに依存します。
本研究では,潜在的に汚染されたデータを用いて,メインストリームの深部TSADモデルの堅牢性を効果的に向上するモデルに依存しない手法を提案する。
論文 参考訳(メタデータ) (2022-08-03T04:52:08Z) - An Efficient Anomaly Detection Approach using Cube Sampling with
Streaming Data [2.0515785954568626]
異常検出は侵入検知、健康モニタリング、故障診断、センサネットワークイベント検出など様々な分野で重要である。
孤立林(アイフォレスト)アプローチは、異常を検出するためのよく知られた手法である。
本稿では,ストリーミングデータに有効なキューブサンプリングを用いた,効率的なiForestに基づく異常検出手法を提案する。
論文 参考訳(メタデータ) (2021-10-05T04:23:00Z) - Self-Trained One-class Classification for Unsupervised Anomaly Detection [56.35424872736276]
異常検出(AD)は、製造から医療まで、さまざまな分野に応用されている。
本研究は、トレーニングデータ全体がラベル付けされておらず、正規サンプルと異常サンプルの両方を含む可能性のある、教師なしAD問題に焦点を当てる。
この問題に対処するため,データリファインメントによる堅牢な一級分類フレームワークを構築した。
本手法は6.3AUCと12.5AUCの平均精度で最先端の1クラス分類法より優れていることを示す。
論文 参考訳(メタデータ) (2021-06-11T01:36:08Z) - Learning with Out-of-Distribution Data for Audio Classification [60.48251022280506]
我々は,OODインスタンスを破棄するよりも,特定のOODインスタンスを検出・復号化することで,学習に肯定的な影響を及ぼすことを示す。
提案手法は,畳み込みニューラルネットワークの性能を著しく向上させる。
論文 参考訳(メタデータ) (2020-02-11T21:08:06Z) - Radioactive data: tracing through training [130.2266320167683]
本稿では,このデータセットに認識不能な変化を生じさせる新しい手法であるEmphradioactive dataを提案する。
訓練されたモデルにより, 放射能データの利用を検知し, 信頼度(p-値)のレベルを提供する。
提案手法はディープネットワーク最適化におけるデータ拡張とバックドア性に対して堅牢である。
論文 参考訳(メタデータ) (2020-02-03T18:41:08Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。