論文の概要: ECOD: Unsupervised Outlier Detection Using Empirical Cumulative
Distribution Functions
- arxiv url: http://arxiv.org/abs/2201.00382v1
- Date: Sun, 2 Jan 2022 17:28:35 GMT
- ステータス: 処理完了
- システム内更新日: 2022-01-04 13:54:12.571426
- Title: ECOD: Unsupervised Outlier Detection Using Empirical Cumulative
Distribution Functions
- Title(参考訳): ECOD:経験的累積分布関数を用いた教師なし外乱検出
- Authors: Zheng Li, Yue Zhao, Xiyang Hu, Nicola Botta, Cezar Ionescu, George H.
Chen
- Abstract要約: 外乱検出(英: Outlier detection)とは、一般的なデータ分布から逸脱するデータ点の同定である。
本稿では,ECOD(Empirical-Cumulative-Distribution-based Outlier Detection)について述べる。
- 参考スコア(独自算出の注目度): 12.798256312657136
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Outlier detection refers to the identification of data points that deviate
from a general data distribution. Existing unsupervised approaches often suffer
from high computational cost, complex hyperparameter tuning, and limited
interpretability, especially when working with large, high-dimensional
datasets. To address these issues, we present a simple yet effective algorithm
called ECOD (Empirical-Cumulative-distribution-based Outlier Detection), which
is inspired by the fact that outliers are often the "rare events" that appear
in the tails of a distribution. In a nutshell, ECOD first estimates the
underlying distribution of the input data in a nonparametric fashion by
computing the empirical cumulative distribution per dimension of the data. ECOD
then uses these empirical distributions to estimate tail probabilities per
dimension for each data point. Finally, ECOD computes an outlier score of each
data point by aggregating estimated tail probabilities across dimensions. Our
contributions are as follows: (1) we propose a novel outlier detection method
called ECOD, which is both parameter-free and easy to interpret; (2) we perform
extensive experiments on 30 benchmark datasets, where we find that ECOD
outperforms 11 state-of-the-art baselines in terms of accuracy, efficiency, and
scalability; and (3) we release an easy-to-use and scalable (with distributed
support) Python implementation for accessibility and reproducibility.
- Abstract(参考訳): 外乱検出は、一般的なデータ分布から逸脱するデータポイントの識別を指す。
既存の教師なしアプローチは高い計算コスト、複雑なハイパーパラメータチューニング、限られた解釈可能性、特に大規模な高次元データセットを扱う場合にしばしば発生する。
これらの問題に対処するために,ecod(empirical-cumulative-distribution-based outlier detection)と呼ばれる単純かつ効果的なアルゴリズムを提案する。
簡単に言うと、ecodはデータの次元ごとの経験的累積分布を計算することで、入力データの基本的な分布を非パラメトリックな方法で推定する。
次にecodは、これらの経験的分布を用いて各データポイントの次元ごとのテール確率を推定する。
最後に、ecodは、次元にわたって推定されたテール確率を集約することにより、各データポイントの外れ値を計算する。
我々は,(1)パラメータフリーかつ解釈が容易なecodと呼ばれる新しい外れ値検出手法を提案し,(2)ecodが11の最先端のベースラインよりも精度,効率,スケーラビリティにおいて優れており,(3)アクセシビリティと再現性を備えたpython実装を,30のベンチマークデータセットで広範囲に実施する。
関連論文リスト
- Geometry-Aware Instrumental Variable Regression [56.16884466478886]
本稿では,データ導出情報によるデータ多様体の幾何を考慮した移動型IV推定器を提案する。
本手法のプラグイン・アンド・プレイ実装は,標準設定で関連する推定器と同等に動作する。
論文 参考訳(メタデータ) (2024-05-19T17:49:33Z) - SCOD: From Heuristics to Theory [4.512926716151403]
本稿では,不確かさやアウト・オブ・ディストリビューション・サンプルに直面する場合の予測を無視する信頼性のある予測モデルを設計する上での問題に対処する。
SCOD(Out-of-Distribution Data)の存在下では,選択分類に3つの重要な貢献をしている。
論文 参考訳(メタデータ) (2024-03-25T16:36:13Z) - Distributed Semi-Supervised Sparse Statistical Inference [6.685997976921953]
縮退推定器は高次元モデルパラメータの統計的推測において重要なツールである。
従来の手法では、すべてのマシンで偏りのある推定器を計算する必要がある。
ラベル付きデータと非ラベル付きデータを統合した効率的なマルチラウンド分散脱バイアス推定器を開発した。
論文 参考訳(メタデータ) (2023-06-17T17:30:43Z) - A parametric distribution for exact post-selection inference with data
carving [0.0]
ポスト選択推論(PoSI)は、仮説の生成とテストで同じデータソースを使用するとき、有効な信頼区間とp値を得る技術である。
データ彫刻はPoSIの変種であり、保持されたデータの一部を推論時に仮説生成データと組み合わせる。
論文 参考訳(メタデータ) (2023-05-21T22:29:55Z) - Data thinning for convolution-closed distributions [2.299914829977005]
本稿では,観測を2つ以上の独立した部分に分割する手法であるデータ薄型化を提案する。
教師なし学習手法の結果の検証には,データの薄化が有効であることを示す。
論文 参考訳(メタデータ) (2023-01-18T02:47:41Z) - Leveraging Unlabeled Data to Predict Out-of-Distribution Performance [63.740181251997306]
実世界の機械学習デプロイメントは、ソース(トレーニング)とターゲット(テスト)ディストリビューションのミスマッチによって特徴づけられる。
本研究では,ラベル付きソースデータとラベルなしターゲットデータのみを用いて,対象領域の精度を予測する手法を検討する。
本稿では,モデルの信頼度をしきい値として学習し,精度をラベルなし例のごく一部として予測する実践的手法である平均閾値保持信頼度(ATC)を提案する。
論文 参考訳(メタデータ) (2022-01-11T23:01:12Z) - COPOD: Copula-Based Outlier Detection [7.963284082401154]
外乱検出とは、一般的なデータ分布から逸脱した希少なアイテムを識別することを指す。
既存のアプローチは、高い計算複雑性、低い予測能力、限られた解釈可能性に悩まされている。
COPODと呼ばれる新しい異常検出アルゴリズムを提案する。
論文 参考訳(メタデータ) (2020-09-20T16:06:39Z) - Evaluating representations by the complexity of learning low-loss
predictors [55.94170724668857]
下流タスクの解決に使用されるデータの表現を評価することの問題点を考察する。
本稿では,関心のあるタスクにおける低損失を実現する表現の上に,予測器を学習する複雑性によって表現の質を測定することを提案する。
論文 参考訳(メタデータ) (2020-09-15T22:06:58Z) - Graph Embedding with Data Uncertainty [113.39838145450007]
スペクトルベースのサブスペース学習は、多くの機械学習パイプラインにおいて、一般的なデータ前処理ステップである。
ほとんどの部分空間学習法は、不確実性の高いデータにつながる可能性のある測定の不正確さやアーティファクトを考慮していない。
論文 参考訳(メタデータ) (2020-09-01T15:08:23Z) - Improving Generative Adversarial Networks with Local Coordinate Coding [150.24880482480455]
GAN(Generative Adversarial Network)は、事前定義された事前分布から現実的なデータを生成することに成功している。
実際には、意味情報はデータから学んだ潜在的な分布によって表現される。
ローカル座標符号化(LCC)を用いたLCCGANモデルを提案する。
論文 参考訳(メタデータ) (2020-07-28T09:17:50Z) - Generalized ODIN: Detecting Out-of-distribution Image without Learning
from Out-of-distribution Data [87.61504710345528]
我々は,OoD検出性能を改善しつつ,ニューラルネットワークをOoDデータのチューニングから解放する2つの方法を提案する。
具体的には、信頼性スコアリングと修正された入力前処理法を分離することを提案する。
大規模画像データセットのさらなる解析により、セマンティックシフトと非セマンティックシフトの2種類の分布シフトが有意な差を示すことが示された。
論文 参考訳(メタデータ) (2020-02-26T04:18:25Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。