論文の概要: Statistical Inference for Clustering-based Anomaly Detection
- arxiv url: http://arxiv.org/abs/2504.18633v1
- Date: Fri, 25 Apr 2025 18:21:26 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-05-02 19:15:53.923466
- Title: Statistical Inference for Clustering-based Anomaly Detection
- Title(参考訳): クラスタリングに基づく異常検出のための統計的推測
- Authors: Nguyen Thi Minh Phu, Duong Tan Loc, Vo Nguyen Le Duy,
- Abstract要約: 教師なし異常検出は、機械学習と統計学の基本的な問題である。
クラスタリングに基づくAD結果をテストするための新しい統計フレームワークであるSI-CLAD (Statistical Inference for Clustering-based Anomaly Detection)を提案する。
- 参考スコア(独自算出の注目度): 7.10052009802944
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Unsupervised anomaly detection (AD) is a fundamental problem in machine learning and statistics. A popular approach to unsupervised AD is clustering-based detection. However, this method lacks the ability to guarantee the reliability of the detected anomalies. In this paper, we propose SI-CLAD (Statistical Inference for CLustering-based Anomaly Detection), a novel statistical framework for testing the clustering-based AD results. The key strength of SI-CLAD lies in its ability to rigorously control the probability of falsely identifying anomalies, maintaining it below a pre-specified significance level $\alpha$ (e.g., $\alpha = 0.05$). By analyzing the selection mechanism inherent in clustering-based AD and leveraging the Selective Inference (SI) framework, we prove that false detection control is attainable. Moreover, we introduce a strategy to boost the true detection rate, enhancing the overall performance of SI-CLAD. Extensive experiments on synthetic and real-world datasets provide strong empirical support for our theoretical findings, showcasing the superior performance of the proposed method.
- Abstract(参考訳): 非教師付き異常検出(AD)は、機械学習と統計学の基本的な問題である。
非教師なしADに対する一般的なアプローチはクラスタリングに基づく検出である。
しかし,本手法は検出された異常の信頼性を保証する能力に欠ける。
本稿では、クラスタリングに基づくAD結果をテストするための新しい統計フレームワークであるSI-CLAD(Statistical Inference for Clustering-based Anomaly Detection)を提案する。
SI-CLAD の重要な強みは、偽の異常を識別する確率を厳格に制御する能力であり、それを予め特定された意味レベル $\alpha$ (eg , $\alpha = 0.05$) 以下に保つことである。
クラスタリングに基づくADに固有の選択機構を解析し、選択推論(SI)フレームワークを活用することにより、偽検出制御が可能であることを示す。
さらに本研究では,真の検出率を高め,SI-CLADの全体的な性能を向上させるための戦略を導入する。
合成および実世界のデータセットに対する大規模な実験は、提案手法の優れた性能を示すとともに、我々の理論的な発見に対して強力な実証的支援を提供する。
関連論文リスト
- Unsupervised Clustering Approaches for Autism Screening: Achieving 95.31% Accuracy with a Gaussian Mixture Model [0.0]
自閉症スペクトラム障害(ASD)は、効果的かつ迅速に診断する上で困難な状態である。
従来の診断方法はラベル付きデータの可用性を前提としています。
本稿では、4つの異なるクラスタリングアルゴリズムを用いて、ASDをスクリーニングした704人の成人の公開データセットを解析する。
論文 参考訳(メタデータ) (2025-02-20T18:12:59Z) - A Hybrid Framework for Statistical Feature Selection and Image-Based Noise-Defect Detection [55.2480439325792]
本稿では,統計的特徴選択と分類技術を統合し,欠陥検出精度を向上させるハイブリッドフレームワークを提案する。
工業画像から抽出した55個の特徴を統計的手法を用いて解析した。
これらの手法をフレキシブルな機械学習アプリケーションに統合することにより、検出精度を改善し、偽陽性や誤分類を減らす。
論文 参考訳(メタデータ) (2024-12-11T22:12:21Z) - Controllable RANSAC-based Anomaly Detection via Hypothesis Testing [7.10052009802944]
RANSAC(制御可能なRANSAC)により得られた異常検出結果をテストするための新しい統計的手法を提案する。
提案手法の主な強みは、予め特定されたレベル以下の異常を誤識別する確率を制御できることにある。
合成および実世界のデータセットで行った実験は、我々の理論結果をしっかりと支えている。
論文 参考訳(メタデータ) (2024-10-19T15:15:41Z) - FedAD-Bench: A Unified Benchmark for Federated Unsupervised Anomaly Detection in Tabular Data [11.42231457116486]
FedAD-Benchは、フェデレート学習の文脈における教師なし異常検出アルゴリズムを評価するためのベンチマークである。
モデル集約の非効率性やメトリクスの不確実性といった重要な課題を特定します。
本研究は,フェデレートされた異常検出における今後の研究・開発を導くための標準化されたベンチマークを確立することを目的としている。
論文 参考訳(メタデータ) (2024-08-08T13:14:19Z) - GCC: Generative Calibration Clustering [55.44944397168619]
本稿では,特徴学習と拡張をクラスタリングに組み込む新しいGCC法を提案する。
まず,実検体と実検体間の固有関係を識別する識別的特徴アライメント機構を開発する。
第二に、より信頼性の高いクラスタ割り当てを生成するための自己教師付きメトリック学習を設計する。
論文 参考訳(メタデータ) (2024-04-14T01:51:11Z) - On the Universal Adversarial Perturbations for Efficient Data-free
Adversarial Detection [55.73320979733527]
本稿では,UAPに対して正常サンプルと逆サンプルの異なる応答を誘導する,データに依存しない逆検出フレームワークを提案する。
実験結果から,本手法は様々なテキスト分類タスクにおいて,競合検出性能を実現することが示された。
論文 参考訳(メタデータ) (2023-06-27T02:54:07Z) - Learning Prompt-Enhanced Context Features for Weakly-Supervised Video
Anomaly Detection [37.99031842449251]
弱い監督下での映像異常検出は重大な課題を呈する。
本稿では,効率的なコンテキストモデリングとセマンティック識別性の向上に焦点をあてた,弱教師付き異常検出フレームワークを提案する。
提案手法は,特定の異常なサブクラスの検出精度を大幅に向上させ,その実用的価値と有効性を裏付けるものである。
論文 参考訳(メタデータ) (2023-06-26T06:45:16Z) - Parametric Classification for Generalized Category Discovery: A Baseline
Study [70.73212959385387]
Generalized Category Discovery (GCD)は、ラベル付きサンプルから学習した知識を用いて、ラベルなしデータセットで新しいカテゴリを発見することを目的としている。
パラメトリック分類器の故障を調査し,高品質な監視が可能であった場合の過去の設計選択の有効性を検証し,信頼性の低い疑似ラベルを重要課題として同定する。
エントロピー正規化の利点を生かし、複数のGCDベンチマークにおける最先端性能を実現し、未知のクラス数に対して強いロバスト性を示す、単純で効果的なパラメトリック分類法を提案する。
論文 参考訳(メタデータ) (2022-11-21T18:47:11Z) - Learn then Test: Calibrating Predictive Algorithms to Achieve Risk
Control [67.52000805944924]
Learn then Test (LTT)は、機械学習モデルを校正するフレームワークである。
私たちの主な洞察は、リスクコントロール問題を複数の仮説テストとして再設計することです。
我々は、コンピュータビジョンの詳細な実例を用いて、コア機械学習タスクの新しいキャリブレーション手法を提供するために、我々のフレームワークを使用します。
論文 参考訳(メタデータ) (2021-10-03T17:42:03Z) - Efficient Intrusion Detection Using Evidence Theory [0.0]
侵入検知システム(IDS)は、コンピュータやネットワークの安全に関して重要な要素となっている。
本稿では,情報源の信頼性と正常行動と異常行動の識別能力に基づく新しい文脈割引手法を提案する。
論文 参考訳(メタデータ) (2021-03-15T17:54:16Z) - Causal Feature Selection for Algorithmic Fairness [61.767399505764736]
データ管理の統合コンポーネントにおける公平性について検討する。
本稿では,データセットの公平性を保証する特徴のサブコレクションを同定する手法を提案する。
論文 参考訳(メタデータ) (2020-06-10T20:20:10Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。