論文の概要: Detecting outliers by clustering algorithms
- arxiv url: http://arxiv.org/abs/2412.05669v1
- Date: Sat, 07 Dec 2024 14:33:26 GMT
- ステータス: 翻訳完了
- システム内更新日: 2024-12-10 14:58:14.206512
- Title: Detecting outliers by clustering algorithms
- Title(参考訳): クラスタリングアルゴリズムによる外れ値の検出
- Authors: Qi Li, Shuliang Wang,
- Abstract要約: アウトレーヤは、オブジェクト間の類似性を決定するために、しばしばクラスタリングアルゴリズムに干渉する。
我々は,クラスタリングのための新しい外乱検出手法,ODARを提案する。
ODARは、異常値と通常のオブジェクトを特徴変換によって2つの分離クラスタにマッピングする。
- 参考スコア(独自算出の注目度): 8.60373375800239
- License:
- Abstract: Clustering and outlier detection are two important tasks in data mining. Outliers frequently interfere with clustering algorithms to determine the similarity between objects, resulting in unreliable clustering results. Currently, only a few clustering algorithms (e.g., DBSCAN) have the ability to detect outliers to eliminate interference. For other clustering algorithms, it is tedious to introduce another outlier detection task to eliminate outliers before each clustering process. Obviously, how to equip more clustering algorithms with outlier detection ability is very meaningful. Although a common strategy allows clustering algorithms to detect outliers based on the distance between objects and clusters, it is contradictory to improving the performance of clustering algorithms on the datasets with outliers. In this paper, we propose a novel outlier detection approach, called ODAR, for clustering. ODAR maps outliers and normal objects into two separated clusters by feature transformation. As a result, any clustering algorithm can detect outliers by identifying clusters. Experiments show that ODAR is robust to diverse datasets. Compared with baseline methods, the clustering algorithms achieve the best on 7 out of 10 datasets with the help of ODAR, with at least 5% improvement in accuracy.
- Abstract(参考訳): クラスタリングと異常検出は、データマイニングにおいて2つの重要なタスクである。
アウトレーヤは、オブジェクト間の類似性を決定するために、しばしばクラスタリングアルゴリズムに干渉し、信頼性の低いクラスタリング結果をもたらす。
現在、数個のクラスタリングアルゴリズム(例えばDBSCAN)だけが、干渉を除去するアウトリアを検出する能力を持っている。
他のクラスタリングアルゴリズムでは、各クラスタリングプロセスの前にアウトレイラを取り除くために、別のアウトレイラ検出タスクを導入するのは面倒です。
明らかに、より多くのクラスタリングアルゴリズムに異常検出能力を持たせる方法は非常に有意義である。
一般的な戦略では、オブジェクトとクラスタ間の距離に基づいて、クラスタリングアルゴリズムが外れ値を検出することができるが、オフ値を持つデータセット上でのクラスタリングアルゴリズムのパフォーマンス向上には矛盾がある。
本稿では,クラスタリングのための新しい外乱検出手法であるODARを提案する。
ODARは、異常値と通常のオブジェクトを特徴変換によって2つの分離クラスタにマッピングする。
その結果、任意のクラスタリングアルゴリズムは、クラスタを識別することで、アウトリーチを検出することができる。
実験によると、ODARは多様なデータセットに対して堅牢である。
ベースライン手法と比較して、クラスタリングアルゴリズムはODARの助けを借りて10のデータセットのうち7つでベストを達成し、精度は少なくとも5%向上した。
関連論文リスト
- Reinforcement Graph Clustering with Unknown Cluster Number [91.4861135742095]
本稿では,Reinforcement Graph Clusteringと呼ばれる新しいディープグラフクラスタリング手法を提案する。
提案手法では,クラスタ数決定と教師なし表現学習を統一的なフレームワークに統合する。
フィードバック動作を行うために、クラスタリング指向の報酬関数を提案し、同一クラスタの凝集を高め、異なるクラスタを分離する。
論文 参考訳(メタデータ) (2023-08-13T18:12:28Z) - Rethinking k-means from manifold learning perspective [122.38667613245151]
平均推定なしで直接データのクラスタを検出する新しいクラスタリングアルゴリズムを提案する。
具体的には,バタワースフィルタを用いてデータ点間の距離行列を構成する。
異なる視点に埋め込まれた相補的な情報をうまく活用するために、テンソルのSchatten p-norm正規化を利用する。
論文 参考訳(メタデータ) (2023-05-12T03:01:41Z) - Hard Regularization to Prevent Deep Online Clustering Collapse without
Data Augmentation [65.268245109828]
オンラインディープクラスタリング(オンラインディープクラスタリング)とは、機能抽出ネットワークとクラスタリングモデルを組み合わせて、クラスタラベルを処理された各新しいデータポイントまたはバッチに割り当てることである。
オフラインメソッドよりも高速で汎用性が高いが、オンラインクラスタリングは、エンコーダがすべての入力を同じポイントにマッピングし、すべてを単一のクラスタに配置する、崩壊したソリューションに容易に到達することができる。
本稿では,データ拡張を必要としない手法を提案する。
論文 参考訳(メタデータ) (2023-03-29T08:23:26Z) - Scalable Clustering: Large Scale Unsupervised Learning of Gaussian
Mixture Models with Outliers [5.478764356647437]
本稿では,損失最小化に基づくロバストなクラスタリングアルゴリズムを提案する。
これはアルゴリズムが高い確率で高い精度を得るという理論的保証を提供する。
実世界の大規模データセットの実験では、アルゴリズムの有効性が示されている。
論文 参考訳(メタデータ) (2023-02-28T14:39:18Z) - SSDBCODI: Semi-Supervised Density-Based Clustering with Outliers
Detection Integrated [1.8444322599555096]
クラスタリング分析は、機械学習における重要なタスクの1つだ。
クラスタリングクラスタリングのパフォーマンスが、異常値によって著しく損なわれる可能性があるため、アルゴリズムは、異常値検出のプロセスを組み込もうとする。
我々は,半教師付き検出素子であるSSDBCODIを提案する。
論文 参考訳(メタデータ) (2022-08-10T21:06:38Z) - ck-means, a novel unsupervised learning method that combines fuzzy and
crispy clustering methods to extract intersecting data [1.827510863075184]
本稿では,2つの特徴以上の共通点を共有するデータをクラスタリングする手法を提案する。
この手法の主な考え方は、ファジィ C-Means (FCM) アルゴリズムを用いてファジィクラスタを生成することである。
このアルゴリズムはまた、シルエット指数(SI)によって与えられるクラスタの一貫性に従って、FCMとk平均アルゴリズムのための最適なクラスタ数を見つけることができる。
論文 参考訳(メタデータ) (2022-06-17T19:29:50Z) - Differentially-Private Clustering of Easy Instances [67.04951703461657]
異なるプライベートクラスタリングでは、個々のデータポイントに関する情報を公開せずに、$k$のクラスタセンターを特定することが目標だ。
我々は、データが"簡単"である場合にユーティリティを提供する実装可能な差分プライベートクラスタリングアルゴリズムを提供する。
我々は、非プライベートクラスタリングアルゴリズムを簡単なインスタンスに適用し、結果をプライベートに組み合わせることのできるフレームワークを提案する。
論文 参考訳(メタデータ) (2021-12-29T08:13:56Z) - Robust Trimmed k-means [70.88503833248159]
本稿では,外乱点とクラスタポイントを同時に識別するRobust Trimmed k-means (RTKM)を提案する。
RTKMは他の方法と競合することを示す。
論文 参考訳(メタデータ) (2021-08-16T15:49:40Z) - Clustering of Big Data with Mixed Features [3.3504365823045044]
我々は混合型の大規模データのための新しいクラスタリングアルゴリズムを開発した。
このアルゴリズムは、比較的低い密度値の外れ値とクラスターを検出することができる。
本研究では,本アルゴリズムが実際に有効であることを示す実験結果を示す。
論文 参考訳(メタデータ) (2020-11-11T19:54:38Z) - Differentially Private Clustering: Tight Approximation Ratios [57.89473217052714]
基本的なクラスタリング問題に対して,効率的な微分プライベートアルゴリズムを提案する。
この結果から,SampleとAggregateのプライバシーフレームワークのアルゴリズムの改善が示唆された。
1-Clusterアルゴリズムで使用されるツールの1つは、ClosestPairのより高速な量子アルゴリズムを適度な次元で得るために利用できる。
論文 参考訳(メタデータ) (2020-08-18T16:22:06Z) - Point-Set Kernel Clustering [11.093960688450602]
本稿では,オブジェクトとオブジェクトの集合との類似性を計算する,ポイントセットカーネルと呼ばれる新しい類似度尺度を提案する。
新たなクラスタリング手法は,大規模データセットを扱えるように,効率的かつ効率的であることを示す。
論文 参考訳(メタデータ) (2020-02-14T00:00:03Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。