論文の概要: A new effective and efficient measure for outlying aspect mining
- arxiv url: http://arxiv.org/abs/2004.13550v3
- Date: Wed, 27 May 2020 03:58:30 GMT
- ステータス: 処理完了
- システム内更新日: 2022-12-08 22:25:21.052247
- Title: A new effective and efficient measure for outlying aspect mining
- Title(参考訳): アスペクトマイニングのための新しい効率的かつ効率的な方法
- Authors: Durgesh Samariya, Sunil Aryal, Kai Ming Ting
- Abstract要約: Outlying Aspect Mining (OAM)は、与えられたクエリが与えられたデータセットに対して外れ値となるサブスペースを見つけることを目的としている。
既存のOAMアルゴリズムでは、従来の距離/密度ベースのアウトリーチスコアを使用してサブスペースをランク付けする。
部分空間の次元に依存しないSiNNEという新しいスコアを導入する。
- 参考スコア(独自算出の注目度): 9.208621189251337
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Outlying Aspect Mining (OAM) aims to find the subspaces (a.k.a. aspects) in
which a given query is an outlier with respect to a given dataset. Existing OAM
algorithms use traditional distance/density-based outlier scores to rank
subspaces. Because these distance/density-based scores depend on the
dimensionality of subspaces, they cannot be compared directly between subspaces
of different dimensionality. $Z$-score normalisation has been used to make them
comparable. It requires to compute outlier scores of all instances in each
subspace. This adds significant computational overhead on top of already
expensive density estimation---making OAM algorithms infeasible to run in large
and/or high-dimensional datasets. We also discover that $Z$-score normalisation
is inappropriate for OAM in some cases. In this paper, we introduce a new score
called SiNNE, which is independent of the dimensionality of subspaces. This
enables the scores in subspaces with different dimensionalities to be compared
directly without any additional normalisation. Our experimental results
revealed that SiNNE produces better or at least the same results as existing
scores; and it significantly improves the runtime of an existing OAM algorithm
based on beam search.
- Abstract(参考訳): Outlying Aspect Mining (OAM) は、与えられたクエリが与えられたデータセットに対して外れ値となる部分空間(つまりアスペクト)を見つけることを目的としている。
既存のOAMアルゴリズムでは、従来の距離/密度ベースのアウトリーチスコアを使用してサブスペースをランク付けする。
これらの距離/密度に基づくスコアは部分空間の次元に依存するため、異なる次元の部分空間間で直接比較することはできない。
比較するために$z$-score正規化が使われている。
各サブスペース内のすべてのインスタンスの外れ値を計算する必要がある。
これにより、既に高価な密度推定に加えて大きな計算オーバーヘッドが加わり、大規模および/または高次元データセットで実行できないoamアルゴリズムが作成される。
また,OAMでは,$Z$-score正規化が不適切である場合もある。
本稿では,部分空間の次元性とは無関係なシンネと呼ばれる新しいスコアを提案する。
これにより、異なる次元を持つ部分空間のスコアは、追加の正規化なしで直接比較できる。
実験の結果,SiNNEは既存のスコアと同等以上の結果が得られ,ビームサーチに基づくOAMアルゴリズムの実行時間を大幅に改善することがわかった。
関連論文リスト
- On Differentially Private Subspace Estimation in a Distribution-Free Setting [3.8888996044605855]
入力データセットにおける乗法的特異値ギャップの関数として「容易性」を定量化する最初の尺度を提供する。
特に、この結果は、部分空間を推定するのに十分かつ必要となる、最初のタイプのギャップを決定する。
論文 参考訳(メタデータ) (2024-02-09T15:17:53Z) - SUnAA: Sparse Unmixing using Archetypal Analysis [62.997667081978825]
本稿では, 古細菌スパルス解析(SUnAA)を用いた新しい地質学的エラーマップ手法を提案する。
まず,古細菌スパース解析(SunAA)に基づく新しいモデルの設計を行う。
論文 参考訳(メタデータ) (2023-08-09T07:58:33Z) - Fast Optimal Locally Private Mean Estimation via Random Projections [58.603579803010796]
ユークリッド球における高次元ベクトルの局所的プライベート平均推定の問題について検討する。
プライベート平均推定のための新しいアルゴリズムフレームワークであるProjUnitを提案する。
各ランダム化器はその入力をランダムな低次元部分空間に投影し、結果を正規化し、最適なアルゴリズムを実行する。
論文 参考訳(メタデータ) (2023-06-07T14:07:35Z) - Linearized Wasserstein dimensionality reduction with approximation
guarantees [65.16758672591365]
LOT Wassmap は、ワーッサーシュタイン空間の低次元構造を明らかにするための計算可能なアルゴリズムである。
我々は,LOT Wassmapが正しい埋め込みを実現し,サンプルサイズの増加とともに品質が向上することを示す。
また、LOT Wassmapがペア距離計算に依存するアルゴリズムと比較して計算コストを大幅に削減することを示す。
論文 参考訳(メタデータ) (2023-02-14T22:12:16Z) - Rethinking Spatial Invariance of Convolutional Networks for Object
Counting [119.83017534355842]
局所連結ガウス核を用いて元の畳み込みフィルタを置き換え、密度写像の空間位置を推定する。
従来の研究から着想を得て,大規模なガウス畳み込みの近似を好意的に実装するために,翻訳不変性を伴う低ランク近似を提案する。
提案手法は,他の最先端手法を著しく上回り,物体の空間的位置の有望な学習を実現する。
論文 参考訳(メタデータ) (2022-06-10T17:51:25Z) - IsoScore: Measuring the Uniformity of Vector Space Utilization [5.362258158646463]
既存のメトリクスは脆弱であり、点雲の真の空間分布を難読化する傾向がある。
IsoScore は、点雲が周囲ベクトル空間を均一に利用する度合いを定量化する新しい計量である。
論文 参考訳(メタデータ) (2021-08-16T20:58:54Z) - BikNN: Anomaly Estimation in Bilateral Domains with k-Nearest Neighbors [1.2183405753834562]
本論文では異常推定のための新しい枠組みを提案する。
空間領域と密度領域の両方における異常の程度を推定する。
本手法は,空間領域と密度領域の両方を考慮に入れ,数個のパラメータを手動で調整することで異なるデータセットに適用できる。
論文 参考訳(メタデータ) (2021-05-11T13:45:29Z) - Nearest Neighbor Search Under Uncertainty [19.225091554227948]
Nearest Neighbor Search (NNS) は知識表現、学習、推論の中心的なタスクである。
NNSを不確実性(NNSU)下で研究する。
論文 参考訳(メタデータ) (2021-03-08T20:20:01Z) - LSF-Join: Locality Sensitive Filtering for Distributed All-Pairs Set
Similarity Under Skew [58.21885402826496]
全ペアセットの類似性は、大規模で高次元のデータセットであっても広く使われているデータマイニングタスクである。
我々は,全対集合の類似性を近似するために,新しい分散アルゴリズム LSF-Join を提案する。
LSF-Joinは、小さな類似度閾値やスキュー入力セットであっても、最も近いペアを効率的に見つける。
論文 参考訳(メタデータ) (2020-03-06T00:06:20Z) - Intrinsic Dimension Estimation via Nearest Constrained Subspace
Classifier [7.028302194243312]
教師付き分類や固有次元推定のために,新しい部分空間に基づく分類器を提案する。
各クラスのデータの分布は、特徴空間の有限個のファイン部分空間の和によってモデル化される。
The proposed method is a generalization of classical NN (Nearest Neighbor), NFL (Nearest Feature Line) and has a close relationship with NS (Nearest Subspace)。
推定次元パラメータが正確に推定された分類器は、一般に分類精度の点で競合より優れている。
論文 参考訳(メタデータ) (2020-02-08T20:54:42Z) - Fast and Robust Comparison of Probability Measures in Heterogeneous
Spaces [62.35667646858558]
本稿では, アンカー・エナジー (AE) とアンカー・ワッサースタイン (AW) 距離を紹介する。
我々の主な貢献は、素案実装が立方体となる対数四重項時間でAEを正確に計算するスイープラインアルゴリズムを提案することである。
AE と AW は,一般的な GW 近似の計算コストのごく一部において,様々な実験環境において良好に動作することを示す。
論文 参考訳(メタデータ) (2020-02-05T03:09:23Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。