論文の概要: A new effective and efficient measure for outlying aspect mining
- arxiv url: http://arxiv.org/abs/2004.13550v3
- Date: Wed, 27 May 2020 03:58:30 GMT
- ステータス: 処理完了
- システム内更新日: 2022-12-08 22:25:21.052247
- Title: A new effective and efficient measure for outlying aspect mining
- Title(参考訳): アスペクトマイニングのための新しい効率的かつ効率的な方法
- Authors: Durgesh Samariya, Sunil Aryal, Kai Ming Ting
- Abstract要約: Outlying Aspect Mining (OAM)は、与えられたクエリが与えられたデータセットに対して外れ値となるサブスペースを見つけることを目的としている。
既存のOAMアルゴリズムでは、従来の距離/密度ベースのアウトリーチスコアを使用してサブスペースをランク付けする。
部分空間の次元に依存しないSiNNEという新しいスコアを導入する。
- 参考スコア(独自算出の注目度): 9.208621189251337
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Outlying Aspect Mining (OAM) aims to find the subspaces (a.k.a. aspects) in
which a given query is an outlier with respect to a given dataset. Existing OAM
algorithms use traditional distance/density-based outlier scores to rank
subspaces. Because these distance/density-based scores depend on the
dimensionality of subspaces, they cannot be compared directly between subspaces
of different dimensionality. $Z$-score normalisation has been used to make them
comparable. It requires to compute outlier scores of all instances in each
subspace. This adds significant computational overhead on top of already
expensive density estimation---making OAM algorithms infeasible to run in large
and/or high-dimensional datasets. We also discover that $Z$-score normalisation
is inappropriate for OAM in some cases. In this paper, we introduce a new score
called SiNNE, which is independent of the dimensionality of subspaces. This
enables the scores in subspaces with different dimensionalities to be compared
directly without any additional normalisation. Our experimental results
revealed that SiNNE produces better or at least the same results as existing
scores; and it significantly improves the runtime of an existing OAM algorithm
based on beam search.
- Abstract(参考訳): Outlying Aspect Mining (OAM) は、与えられたクエリが与えられたデータセットに対して外れ値となる部分空間(つまりアスペクト)を見つけることを目的としている。
既存のOAMアルゴリズムでは、従来の距離/密度ベースのアウトリーチスコアを使用してサブスペースをランク付けする。
これらの距離/密度に基づくスコアは部分空間の次元に依存するため、異なる次元の部分空間間で直接比較することはできない。
比較するために$z$-score正規化が使われている。
各サブスペース内のすべてのインスタンスの外れ値を計算する必要がある。
これにより、既に高価な密度推定に加えて大きな計算オーバーヘッドが加わり、大規模および/または高次元データセットで実行できないoamアルゴリズムが作成される。
また,OAMでは,$Z$-score正規化が不適切である場合もある。
本稿では,部分空間の次元性とは無関係なシンネと呼ばれる新しいスコアを提案する。
これにより、異なる次元を持つ部分空間のスコアは、追加の正規化なしで直接比較できる。
実験の結果,SiNNEは既存のスコアと同等以上の結果が得られ,ビームサーチに基づくOAMアルゴリズムの実行時間を大幅に改善することがわかった。
関連論文リスト
- Pushing the Limits of the Reactive Affine Shaker Algorithm to Higher Dimensions [0.4143603294943439]
反応アフィンシェーカー (RAS) は、非常に大きな次元空間を探索するための単純なアルゴリズムである。
その単純さとローカル検索のみの利用にもかかわらず、驚くほど結果がBOの最先端の結果と同等であり、それほど遠くない。
論文 参考訳(メタデータ) (2025-02-18T14:06:20Z) - Scalable Private Partition Selection via Adaptive Weighting [66.09199304818928]
プライベート・セット・ユニオンでは、ユーザーは非有界宇宙からのアイテムのサブセットを保持する。
目標は、ユーザレベルの差分プライバシーを維持しながら、ユーザセットの統一から可能な限り多くのアイテムを出力することである。
そこで本研究では,プライバシに必要なしきい値よりもはるかに重い項目からより少ない項目へ適応的に重みを還元するアルゴリズムであるMaximumDegree (MAD)を提案する。
論文 参考訳(メタデータ) (2025-02-13T01:27:11Z) - Bias Detection via Maximum Subgroup Discrepancy [2.236957801565796]
距離の概念である最大部分群離散性(MSD)を提案する。
この計量において、2つの分布が概して、すべての特徴部分群に対して相違が低ければ近い。
混合整数最適化(MIO)に基づく距離評価のための実用的なアルゴリズムを提案する。
論文 参考訳(メタデータ) (2025-02-04T11:01:03Z) - Efficient Data-aware Distance Comparison Operations for High-Dimensional Approximate Nearest Neighbor Search [14.77572360618428]
高次元近似$K$近接探索(AKNN)は情報検索を含む様々なアプリケーションの基本課題である。
AKNNの既存のアルゴリズムのほとんどは、候補生成と距離比較演算(DCO)という2つの主要コンポーネントに分解することができる。
低次元空間における正確な距離を近似するDADEと呼ばれるデータ認識距離推定手法を提案する。
論文 参考訳(メタデータ) (2024-11-26T08:51:46Z) - On Differentially Private Subspace Estimation in a Distribution-Free Setting [3.8888996044605855]
入力データセットにおける乗法的特異値ギャップの関数として「容易性」を定量化する最初の尺度を提供する。
特に、この結果は、部分空間を推定するのに十分かつ必要となる、最初のタイプのギャップを決定する。
論文 参考訳(メタデータ) (2024-02-09T15:17:53Z) - SUnAA: Sparse Unmixing using Archetypal Analysis [62.997667081978825]
本稿では, 古細菌スパルス解析(SUnAA)を用いた新しい地質学的エラーマップ手法を提案する。
まず,古細菌スパース解析(SunAA)に基づく新しいモデルの設計を行う。
論文 参考訳(メタデータ) (2023-08-09T07:58:33Z) - Fast Optimal Locally Private Mean Estimation via Random Projections [58.603579803010796]
ユークリッド球における高次元ベクトルの局所的プライベート平均推定の問題について検討する。
プライベート平均推定のための新しいアルゴリズムフレームワークであるProjUnitを提案する。
各ランダム化器はその入力をランダムな低次元部分空間に投影し、結果を正規化し、最適なアルゴリズムを実行する。
論文 参考訳(メタデータ) (2023-06-07T14:07:35Z) - Linearized Wasserstein dimensionality reduction with approximation
guarantees [65.16758672591365]
LOT Wassmap は、ワーッサーシュタイン空間の低次元構造を明らかにするための計算可能なアルゴリズムである。
我々は,LOT Wassmapが正しい埋め込みを実現し,サンプルサイズの増加とともに品質が向上することを示す。
また、LOT Wassmapがペア距離計算に依存するアルゴリズムと比較して計算コストを大幅に削減することを示す。
論文 参考訳(メタデータ) (2023-02-14T22:12:16Z) - Rethinking Spatial Invariance of Convolutional Networks for Object
Counting [119.83017534355842]
局所連結ガウス核を用いて元の畳み込みフィルタを置き換え、密度写像の空間位置を推定する。
従来の研究から着想を得て,大規模なガウス畳み込みの近似を好意的に実装するために,翻訳不変性を伴う低ランク近似を提案する。
提案手法は,他の最先端手法を著しく上回り,物体の空間的位置の有望な学習を実現する。
論文 参考訳(メタデータ) (2022-06-10T17:51:25Z) - LSF-Join: Locality Sensitive Filtering for Distributed All-Pairs Set
Similarity Under Skew [58.21885402826496]
全ペアセットの類似性は、大規模で高次元のデータセットであっても広く使われているデータマイニングタスクである。
我々は,全対集合の類似性を近似するために,新しい分散アルゴリズム LSF-Join を提案する。
LSF-Joinは、小さな類似度閾値やスキュー入力セットであっても、最も近いペアを効率的に見つける。
論文 参考訳(メタデータ) (2020-03-06T00:06:20Z) - Intrinsic Dimension Estimation via Nearest Constrained Subspace
Classifier [7.028302194243312]
教師付き分類や固有次元推定のために,新しい部分空間に基づく分類器を提案する。
各クラスのデータの分布は、特徴空間の有限個のファイン部分空間の和によってモデル化される。
The proposed method is a generalization of classical NN (Nearest Neighbor), NFL (Nearest Feature Line) and has a close relationship with NS (Nearest Subspace)。
推定次元パラメータが正確に推定された分類器は、一般に分類精度の点で競合より優れている。
論文 参考訳(メタデータ) (2020-02-08T20:54:42Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。