論文の概要: Homophily Outlier Detection in Non-IID Categorical Data
- arxiv url: http://arxiv.org/abs/2103.11516v1
- Date: Sun, 21 Mar 2021 23:29:33 GMT
- ステータス: 処理完了
- システム内更新日: 2021-03-23 15:05:09.891713
- Title: Homophily Outlier Detection in Non-IID Categorical Data
- Title(参考訳): 非IIDカテゴリーデータにおけるホモフィリ・アウトリア検出
- Authors: Guansong Pang, Longbing Cao, Ling Chen
- Abstract要約: この研究は、新しい外れ値検出フレームワークとその2つのインスタンスを導入し、カテゴリデータの外れ値を特定する。
まず、分布に敏感な外部因子とその相互依存性を値値グラフベースの表現に定義し、組み込む。
学習した値の外れ度は、直接の外れ値検出または特徴選択の除外を可能にする。
- 参考スコア(独自算出の注目度): 43.51919113927003
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Most of existing outlier detection methods assume that the outlier factors
(i.e., outlierness scoring measures) of data entities (e.g., feature values and
data objects) are Independent and Identically Distributed (IID). This
assumption does not hold in real-world applications where the outlierness of
different entities is dependent on each other and/or taken from different
probability distributions (non-IID). This may lead to the failure of detecting
important outliers that are too subtle to be identified without considering the
non-IID nature. The issue is even intensified in more challenging contexts,
e.g., high-dimensional data with many noisy features. This work introduces a
novel outlier detection framework and its two instances to identify outliers in
categorical data by capturing non-IID outlier factors. Our approach first
defines and incorporates distribution-sensitive outlier factors and their
interdependence into a value-value graph-based representation. It then models
an outlierness propagation process in the value graph to learn the outlierness
of feature values. The learned value outlierness allows for either direct
outlier detection or outlying feature selection. The graph representation and
mining approach is employed here to well capture the rich non-IID
characteristics. Our empirical results on 15 real-world data sets with
different levels of data complexities show that (i) the proposed outlier
detection methods significantly outperform five state-of-the-art methods at the
95%/99% confidence level, achieving 10%-28% AUC improvement on the 10 most
complex data sets; and (ii) the proposed feature selection methods
significantly outperform three competing methods in enabling subsequent outlier
detection of two different existing detectors.
- Abstract(参考訳): 既存の外れ値検出手法のほとんどは、データエンティティ(例えば、特徴値とデータオブジェクト)の外れ値(外れ値スコア尺度)が独立で、同一に分散している(iid)と仮定している。
この仮定は、異なる実体の外れ値が互いに依存したり、異なる確率分布(非IID)から取られたりする実世界の応用には当てはまらない。
これは、非IIDの性質を考慮せずには識別できない重要な外れ値の検出に失敗する可能性がある。
この問題は、例えば多くのノイズのある特徴を持つ高次元データなど、より困難な状況においてさらに強化されている。
本研究は,非IID外乱因子を捕捉することにより,カテゴリデータ中の外乱を識別する新しい外乱検出フレームワークとその2つのインスタンスを導入する。
提案手法はまず,分布に敏感な外部要因とその相互依存性を値値グラフに基づく表現に定義し,組み込む。
次に、値グラフ内の外れ値伝播プロセスをモデル化し、特徴値の外れ値を学ぶ。
学習した値の外れ度は、直接の外れ値検出または特徴選択の除外を可能にする。
グラフ表現とマイニングのアプローチは、豊富な非iid特性をうまく捉えるために使われる。
異なるデータ複雑度を持つ15の実世界のデータセットにおける実験結果から,提案手法は,95%/99%の信頼度で5つの最先端手法を著しく上回り,最も複雑な10のデータセットにおいて10%-28%のauc改善を達成していることがわかった。
関連論文リスト
- Regularized Contrastive Partial Multi-view Outlier Detection [76.77036536484114]
RCPMOD(Regularized Contrastive partial Multi-view Outlier Detection)と呼ばれる新しい手法を提案する。
このフレームワークでは、コントラスト学習を利用して、ビュー一貫性のある情報を学び、一貫性の度合いでアウトレイラを識別する。
4つのベンチマークデータセットによる実験結果から,提案手法が最先端の競合より優れていることが示された。
論文 参考訳(メタデータ) (2024-08-02T14:34:27Z) - Rethinking Unsupervised Outlier Detection via Multiple Thresholding [15.686139522490189]
本稿では,既存のスコアリング手法を進化させるために,マルチしきい値(Multi-T)モジュールを提案する。
これにより、2つのしきい値が生成され、不正なターゲットデータセットからインレーヤとアウトレーヤを分離する。
実験により,Multi-Tが提案したアウトリースコアリング法を大幅に改善できることが確認された。
論文 参考訳(メタデータ) (2024-07-07T14:09:50Z) - Robust Outlier Rejection for 3D Registration with Variational Bayes [70.98659381852787]
我々は、ロバストアライメントのための新しい変分非局所ネットワークベース外乱除去フレームワークを開発した。
そこで本稿では, 投票に基づく不整合探索手法を提案し, 変換推定のための高品質な仮説的不整合をクラスタリングする。
論文 参考訳(メタデータ) (2023-04-04T03:48:56Z) - Adaptive Negative Evidential Deep Learning for Open-set Semi-supervised Learning [69.81438976273866]
オープンセット半教師付き学習(Open-set SSL)は、ラベル付きデータ(inliers)で観測されない新しいカテゴリ(outliers)を含むラベル付きデータとテストデータを含む、より実践的なシナリオである。
本研究では,様々な不確かさを定量化するための外乱検出器として顕在的深層学習(EDL)を導入し,自己学習と推論のための異なる不確実性指標を設計する。
Inlierとoutlierの両方を含むラベルなしデータセットに適合するように、新しい適応的負の最適化戦略を提案する。
論文 参考訳(メタデータ) (2023-03-21T09:07:15Z) - Are we really making much progress in unsupervised graph outlier
detection? Revisiting the problem with new insight and superior method [36.72922385614812]
UNODは、グラフにおける典型的な2種類の外れ値(構造外値と文脈外値)の検出に重点を置いている。
最も広く使われているアウトリー・インジェクションのアプローチは、深刻なデータ漏洩問題であることがわかった。
本稿では,分散モデルと属性再構成モデルを組み合わせた分散グラフ外乱検出(VGOD)手法を提案する。
論文 参考訳(メタデータ) (2022-10-24T04:09:35Z) - Unsupervised Outlier Detection using Memory and Contrastive Learning [53.77693158251706]
特徴空間における外乱検出は,外乱検出から外乱検出までの特徴距離を測定することで行うことができると考えている。
本稿では,メモリモジュールとコントラスト学習モジュールを用いたMCODフレームワークを提案する。
提案したMCODは高い性能を達成し,9つの最先端手法より優れる。
論文 参考訳(メタデータ) (2021-07-27T07:35:42Z) - Self-Trained One-class Classification for Unsupervised Anomaly Detection [56.35424872736276]
異常検出(AD)は、製造から医療まで、さまざまな分野に応用されている。
本研究は、トレーニングデータ全体がラベル付けされておらず、正規サンプルと異常サンプルの両方を含む可能性のある、教師なしAD問題に焦点を当てる。
この問題に対処するため,データリファインメントによる堅牢な一級分類フレームワークを構築した。
本手法は6.3AUCと12.5AUCの平均精度で最先端の1クラス分類法より優れていることを示す。
論文 参考訳(メタデータ) (2021-06-11T01:36:08Z) - Do We Really Need to Learn Representations from In-domain Data for
Outlier Detection? [6.445605125467574]
2段階のフレームワークに基づく手法は、このタスクで最先端のパフォーマンスを達成する。
我々は,各外乱検出タスクに対して,異なる表現を訓練するコストが高いことを避ける可能性を探る。
実験では, 従来の2段階法と比較して, 様々な外乱検出ベンチマークにおいて, 競争力や性能が向上することを示した。
論文 参考訳(メタデータ) (2021-05-19T17:30:28Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。