論文の概要: Probabilistic Distance-Based Outlier Detection
- arxiv url: http://arxiv.org/abs/2305.09446v1
- Date: Tue, 16 May 2023 14:05:30 GMT
- ステータス: 処理完了
- システム内更新日: 2023-05-17 14:48:38.565245
- Title: Probabilistic Distance-Based Outlier Detection
- Title(参考訳): 確率的距離に基づく外乱検出
- Authors: David Muhr, Michael Affenzeller, Josef K\"ung
- Abstract要約: 距離に基づくアウトリーチスコアから解釈可能な確率的推定への総称変換について述べる。
この変換はランキング安定であり、通常のデータポイントと外れ値のデータポイントのコントラストを増加させる。
本研究は,広範囲な距離ベース外乱検出手法に一般化する。
- 参考スコア(独自算出の注目度): 2.1055643409860743
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: The scores of distance-based outlier detection methods are difficult to
interpret, making it challenging to determine a cut-off threshold between
normal and outlier data points without additional context. We describe a
generic transformation of distance-based outlier scores into interpretable,
probabilistic estimates. The transformation is ranking-stable and increases the
contrast between normal and outlier data points. Determining distance
relationships between data points is necessary to identify the nearest-neighbor
relationships in the data, yet, most of the computed distances are typically
discarded. We show that the distances to other data points can be used to model
distance probability distributions and, subsequently, use the distributions to
turn distance-based outlier scores into outlier probabilities. Our experiments
show that the probabilistic transformation does not impact detection
performance over numerous tabular and image benchmark datasets but results in
interpretable outlier scores with increased contrast between normal and outlier
samples. Our work generalizes to a wide range of distance-based outlier
detection methods, and because existing distance computations are used, it adds
no significant computational overhead.
- Abstract(参考訳): 距離に基づく外れ値検出手法のスコアは解釈が難しいため、追加のコンテキストなしで通常のデータポイントと外れ値の切断しきい値を決定することは困難である。
本稿では,距離ベース外れ値の一般変換を解釈可能な確率的推定に記述する。
この変換はランキング安定であり、通常のデータポイントと外れ値のデータポイントのコントラストを増加させる。
データポイント間の距離関係を決定するには、データ内の最寄りのneighbor関係を識別する必要があるが、計算された距離のほとんどが破棄される。
距離確率分布をモデル化するために他のデータポイントへの距離を使用でき、その後、分布を用いて距離ベースのアウトリーチスコアをオフリー確率に変換する。
実験の結果,確率変換は多数の表と画像のベンチマークデータに比較して検出性能に影響を与えず,通常のサンプルと外値のコントラストが増大し,解釈可能な外値スコアが得られた。
本研究は, 広範囲な距離ベース外乱検出手法に一般化され, 既存の距離計算が用いられているため, 計算オーバーヘッドが大幅に増大しない。
関連論文リスト
- Directional anomaly detection [4.174296652683762]
半教師付き異常検出は、潜在的な異常は通常のトレーニングデータと異なるように見える記録である、という原理に基づいている。
この方向を考慮に入れた2つの非対称距離尺度(ランプ距離と符号付き距離)を示す。
論文 参考訳(メタデータ) (2024-10-30T16:11:40Z) - Robust Statistical Scaling of Outlier Scores: Improving the Quality of Outlier Probabilities for Outliers (Extended Version) [2.871927594197754]
外乱検出アルゴリズムは通常、データセット内の各観測値に外乱スコアを割り当て、観測値が外乱値である度合いを示す。
本論文は, 統計的スケーリングは, 文献でよく用いられるように, 外れ値に対して等しく良い確率を生じるものではないことを論じる。
本稿では,ロバストな統計的スケーリングを提案し,ロバストな推定器を用いてアウトレーヤの確率を向上する。
論文 参考訳(メタデータ) (2024-08-28T15:44:34Z) - Mean Estimation with User-level Privacy under Data Heterogeneity [54.07947274508013]
異なるユーザーは、非常に多くの異なるデータポイントを持っているかもしれない。
すべてのユーザが同じディストリビューションからサンプルを採取していると仮定することはできない。
本研究では,データの分布と量の両方でユーザデータが異なる異質なユーザデータの単純なモデルを提案する。
論文 参考訳(メタデータ) (2023-07-28T23:02:39Z) - Positive Difference Distribution for Image Outlier Detection using
Normalizing Flows and Contrastive Data [2.9005223064604078]
例えば、標準的なログライクリーフトレーニングによる正規化フローは、外れ値スコアとして不十分である。
本稿では,外乱検出のための非ラベル付き補助データセットと確率的外乱スコアを提案する。
これは、分布内と対照的な特徴密度の間の正規化正の差を学ぶことと等価であることを示す。
論文 参考訳(メタデータ) (2022-08-30T07:00:46Z) - Robust Multi-Object Tracking by Marginal Inference [92.48078680697311]
ビデオにおける多目的追跡は、隣接するフレーム内のオブジェクト間の1対1の割り当てに関する根本的な問題を解決する必要がある。
本稿では,各オブジェクトの限界確率をリアルタイムに計算する効率的な手法を提案する。
MOT17とMOT20ベンチマークで競合する結果を得る。
論文 参考訳(メタデータ) (2022-08-07T14:04:45Z) - Kernel distance measures for time series, random fields and other
structured data [71.61147615789537]
kdiffは、構造化データのインスタンス間の距離を推定するためのカーネルベースの新しい尺度である。
これはインスタンス間の自己類似性と交差類似性の両方を考慮し、距離分布の低い定量値を用いて定義される。
kdiffをクラスタリングと分類問題のための距離尺度として用いた分離性条件について,いくつかの理論的結果が得られた。
論文 参考訳(メタデータ) (2021-09-29T22:54:17Z) - The Exploitation of Distance Distributions for Clustering [3.42658286826597]
クラスタ分析では、距離分布の異なる特性が適切な距離選択に関係していると判断される。
ミラー化密度プロットを用いて分布解析を用いて,この仕様を体系的に検討することにより,クラスタ解析においてマルチモーダル距離分布が好ましいことを示す。
実験は、クラスタリングのタスクのために、いくつかの人工データセットと自然なデータセットで行われます。
論文 参考訳(メタデータ) (2021-08-22T06:22:08Z) - On the relation between statistical learning and perceptual distances [61.25815733012866]
近辺画像の知覚感度は近辺画像の確率と相関することを示す。
また、オートエンコーダによって誘導される距離と、それらの訓練に使用されるデータの確率分布との関係についても検討する。
論文 参考訳(メタデータ) (2021-06-08T14:56:56Z) - Pretrained equivariant features improve unsupervised landmark discovery [69.02115180674885]
我々は、この課題を克服する2段階の教師なしアプローチを、強力なピクセルベースの特徴を初めて学習することによって定式化する。
本手法は,いくつかの難解なランドマーク検出データセットにおいて最先端の結果を生成する。
論文 参考訳(メタデータ) (2021-04-07T05:42:11Z) - $\gamma$-ABC: Outlier-Robust Approximate Bayesian Computation Based on a
Robust Divergence Estimator [95.71091446753414]
最寄りの$gamma$-divergence推定器をデータ差分尺度として用いることを提案する。
本手法は既存の不一致対策よりも高いロバスト性を実現する。
論文 参考訳(メタデータ) (2020-06-13T06:09:27Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。