論文の概要: Unsupervised Parameter-free Outlier Detection using HDBSCAN* Outlier Profiles
- arxiv url: http://arxiv.org/abs/2411.08867v1
- Date: Wed, 13 Nov 2024 18:48:51 GMT
- ステータス: 翻訳完了
- システム内更新日: 2024-11-14 16:10:43.464558
- Title: Unsupervised Parameter-free Outlier Detection using HDBSCAN* Outlier Profiles
- Title(参考訳): HDBSCAN*外乱プロファイルを用いた教師なしパラメータフリー外乱検出
- Authors: Kushankur Ghosh, Murilo Coelho Naldi, Jörg Sander, Euijin Choo,
- Abstract要約: アウトレーヤはデータセットと大きく異なるデータポイントである。
GLOSHは、HDBSCAN*内の教師なしの外れ値検出方法である。
最良値を求めるための教師なし戦略を提案する。
- 参考スコア(独自算出の注目度): 1.3107174618549584
- License:
- Abstract: In machine learning and data mining, outliers are data points that significantly differ from the dataset and often introduce irrelevant information that can induce bias in its statistics and models. Therefore, unsupervised methods are crucial to detect outliers if there is limited or no information about them. Global-Local Outlier Scores based on Hierarchies (GLOSH) is an unsupervised outlier detection method within HDBSCAN*, a state-of-the-art hierarchical clustering method. GLOSH estimates outlier scores for each data point by comparing its density to the highest density of the region they reside in the HDBSCAN* hierarchy. GLOSH may be sensitive to HDBSCAN*'s minpts parameter that influences density estimation. With limited knowledge about the data, choosing an appropriate minpts value beforehand is challenging as one or some minpts values may better represent the underlying cluster structure than others. Additionally, in the process of searching for ``potential outliers'', one has to define the number of outliers n a dataset has, which may be impractical and is often unknown. In this paper, we propose an unsupervised strategy to find the ``best'' minpts value, leveraging the range of GLOSH scores across minpts values to identify the value for which GLOSH scores can best identify outliers from the rest of the dataset. Moreover, we propose an unsupervised strategy to estimate a threshold for classifying points into inliers and (potential) outliers without the need to pre-define any value. Our experiments show that our strategies can automatically find the minpts value and threshold that yield the best or near best outlier detection results using GLOSH.
- Abstract(参考訳): 機械学習とデータマイニングでは、アウトレイア(outlier)はデータセットと大きく異なるデータポイントであり、統計やモデルにバイアスをもたらす可能性のある無関係な情報をしばしば導入する。
したがって、教師なしの手法は、情報に制限がある場合や、情報がない場合、外れ値を検出するのに不可欠である。
GLOSH(Global-Local Outlier Scores based on Hierarchies)は、HDBSCAN*内の教師なしのアウトリエ検出手法である。
GLOSHは、その密度を、HDBSCAN*階層に属する領域の最も高い密度と比較することによって、各データポイントのアウトリースコアを推定する。
GLOSHは密度推定に影響を与えるHDBSCAN*のミンプツパラメータに敏感である。
データに関する知識が限られているため、事前に適切なminpts値を選択することは難しい。
さらに、 ‘potential outliers' を検索する過程で、データセットが持つoutliers n の数を定義する必要がある。
本稿では,'best'' minpts値を求めるための教師なしの戦略を提案し,各minpts値にまたがるGLOSHスコアの範囲を利用して,GLOSHスコアがデータセットの他の部分から最適な外れ値を特定する。
さらに,任意の値の事前定義を必要とせず,inlier と(潜在的に)outlier に分類する閾値を推定するための教師なし戦略を提案する。
実験の結果,GLOSHを用いた最適又は最良外れ値検出結果が得られるミンプツ値としきい値を自動的に検出できることが判明した。
関連論文リスト
- Rethinking Unsupervised Outlier Detection via Multiple Thresholding [15.686139522490189]
本稿では,既存のスコアリング手法を進化させるために,マルチしきい値(Multi-T)モジュールを提案する。
これにより、2つのしきい値が生成され、不正なターゲットデータセットからインレーヤとアウトレーヤを分離する。
実験により,Multi-Tが提案したアウトリースコアリング法を大幅に改善できることが確認された。
論文 参考訳(メタデータ) (2024-07-07T14:09:50Z) - Minimally Supervised Learning using Topological Projections in
Self-Organizing Maps [55.31182147885694]
自己組織化マップ(SOM)におけるトポロジカルプロジェクションに基づく半教師付き学習手法を提案する。
提案手法は,まずラベル付きデータ上でSOMを訓練し,最小限のラベル付きデータポイントをキーベストマッチングユニット(BMU)に割り当てる。
提案した最小教師付きモデルが従来の回帰手法を大幅に上回ることを示す。
論文 参考訳(メタデータ) (2024-01-12T22:51:48Z) - SSB: Simple but Strong Baseline for Boosting Performance of Open-Set
Semi-Supervised Learning [106.46648817126984]
本稿では,挑戦的で現実的なオープンセットSSL設定について検討する。
目標は、inlierを正しく分類し、outlierを検知することである。
信頼度の高い疑似ラベル付きデータを組み込むことで、不整合分類性能を大幅に改善できることが判明した。
論文 参考訳(メタデータ) (2023-11-17T15:14:40Z) - Large-scale Fully-Unsupervised Re-Identification [78.47108158030213]
大規模未ラベルデータから学ぶための2つの戦略を提案する。
第1の戦略は、近傍関係に違反することなく、それぞれのデータセットサイズを減らすために、局所的な近傍サンプリングを行う。
第2の戦略は、低時間上限の複雑さを持ち、メモリの複雑さを O(n2) から O(kn) に k n で還元する新しい再帰的手法を利用する。
論文 参考訳(メタデータ) (2023-07-26T16:19:19Z) - Characterizing the Optimal 0-1 Loss for Multi-class Classification with
a Test-time Attacker [57.49330031751386]
我々は,任意の離散データセット上の複数クラス分類器に対するテスト時間攻撃の存在下での損失に対する情報理論的下位境界を求める。
本稿では,データと敵対的制約から競合ハイパーグラフを構築する際に発生する最適0-1損失を求めるための一般的なフレームワークを提供する。
論文 参考訳(メタデータ) (2023-02-21T15:17:13Z) - SSDBCODI: Semi-Supervised Density-Based Clustering with Outliers
Detection Integrated [1.8444322599555096]
クラスタリング分析は、機械学習における重要なタスクの1つだ。
クラスタリングクラスタリングのパフォーマンスが、異常値によって著しく損なわれる可能性があるため、アルゴリズムは、異常値検出のプロセスを組み込もうとする。
我々は,半教師付き検出素子であるSSDBCODIを提案する。
論文 参考訳(メタデータ) (2022-08-10T21:06:38Z) - Few-Shot Non-Parametric Learning with Deep Latent Variable Model [50.746273235463754]
遅延変数を用いた圧縮による非パラメトリック学習(NPC-LV)を提案する。
NPC-LVは、ラベルなしデータが多いがラベル付きデータはほとんどないデータセットの学習フレームワークである。
我々は,NPC-LVが低データ構造における画像分類における3つのデータセットの教師あり手法よりも優れていることを示す。
論文 参考訳(メタデータ) (2022-06-23T09:35:03Z) - On the Eigenvalues of Global Covariance Pooling for Fine-grained Visual
Recognition [65.67315418971688]
グローバル共分散プーリング(GCP)の小さな固有値をトラッピングすることで、よりスムーズな勾配が得られることを示す。
きめ細かいデータセットでは、小さな固有値の切り抜きは、モデルを収束させるのに失敗する。
この観測から着想を得て,小さな固有値の重要性を拡大するネットワーク分岐を提案する。
論文 参考訳(メタデータ) (2022-05-26T11:41:36Z) - Homophily Outlier Detection in Non-IID Categorical Data [43.51919113927003]
この研究は、新しい外れ値検出フレームワークとその2つのインスタンスを導入し、カテゴリデータの外れ値を特定する。
まず、分布に敏感な外部因子とその相互依存性を値値グラフベースの表現に定義し、組み込む。
学習した値の外れ度は、直接の外れ値検出または特徴選択の除外を可能にする。
論文 参考訳(メタデータ) (2021-03-21T23:29:33Z) - SDCOR: Scalable Density-based Clustering for Local Outlier Detection in
Massive-Scale Datasets [0.0]
本稿では,大規模データセットにおける局所外乱検出のためのバッチワイド密度に基づくクラスタリング手法を提案する。
実生活および合成データセットの評価は,提案手法の線形時間複雑性が低いことを示す。
論文 参考訳(メタデータ) (2020-06-13T11:07:37Z) - Outlier Detection Using a Novel method: Quantum Clustering [24.11904406960212]
通常のデータインスタンスは、データ密度の変動がほとんどない領域に常駐する。
我々は、教師なし外乱検出に新しい密度に基づくアプローチを適用した。
論文 参考訳(メタデータ) (2020-06-08T17:19:41Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。