論文の概要: Probabilistic Partitive Partitioning (PPP)
- arxiv url: http://arxiv.org/abs/2003.04372v1
- Date: Mon, 9 Mar 2020 19:18:35 GMT
- ステータス: 処理完了
- システム内更新日: 2022-12-25 09:27:44.299142
- Title: Probabilistic Partitive Partitioning (PPP)
- Title(参考訳): 確率的分割(PPP)
- Authors: Mujahid Sultan
- Abstract要約: クラスタリングアルゴリズムは一般に2つの一般的な問題に直面している。
彼らは異なる初期条件で異なる設定に収束する。
クラスタの数は、事前に任意に決めなければならない。
- 参考スコア(独自算出の注目度): 0.0
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Clustering is a NP-hard problem. Thus, no optimal algorithm exists,
heuristics are applied to cluster the data. Heuristics can be very
resource-intensive, if not applied properly. For substantially large data sets
computational efficiencies can be achieved by reducing the input space if a
minimal loss of information can be achieved. Clustering algorithms, in general,
face two common problems: 1) these converge to different settings with
different initial conditions and; 2) the number of clusters has to be
arbitrarily decided beforehand. This problem has become critical in the realm
of big data. Recently, clustering algorithms have emerged which can speedup
computations using parallel processing over the grid but face the
aforementioned problems. Goals: Our goals are to find methods to cluster data
which: 1) guarantee convergence to the same settings irrespective of the
initial conditions; 2) eliminate the need to establish the number of clusters
beforehand, and 3) can be applied to cluster large datasets. Methods: We
introduce a method that combines probabilistic and combinatorial clustering
methods to produce repeatable and compact clusters that are not sensitive to
initial conditions. This method harnesses the power of k-means (a combinatorial
clustering method) to cluster/partition very large dimensional datasets and
uses the Gaussian Mixture Model (a probabilistic clustering method) to validate
the k-means partitions. Results: We show that this method produces very compact
clusters that are not sensitive to initial conditions. This method can be used
to identify the most 'separable' set in a dataset which increases the
'clusterability' of a dataset. This method also eliminates the need to specify
the number of clusters in advance.
- Abstract(参考訳): クラスタリングはNPハードの問題である。
したがって、最適なアルゴリズムはなく、データのクラスタ化にヒューリスティックが適用される。
ヒューリスティックは適切に適用されていないとしても、非常にリソース集約的である。
実質的に大きなデータセットの場合、情報の損失を最小限に抑えれば、入力空間を減らすことで計算効率を実現できる。
クラスタリングアルゴリズムは一般的に2つの一般的な問題に直面している。
1)これらは,異なる初期条件で異なる設定に収束し,
2) クラスターの数は事前に任意に決めなければならない。
この問題はビッグデータの分野では重要になっている。
近年,グリッド上の並列処理を用いた計算を高速化するクラスタリングアルゴリズムが登場し,上記の問題に直面している。
目標: 目標は、データをクラスタ化する方法を見つけることです。
1) 初期条件にかかわらず,同一の設定への収束を保証する。
2)事前にクラスタ数を確立する必要をなくし、
3) 大規模データセットのクラスタに適用できる。
方法: 確率的, 組合せ的クラスタリング法を組み合わせて, 初期条件に敏感でない反復的, コンパクトなクラスタを生成する手法を提案する。
この方法は、k-means(組合せクラスタリング法)のパワーを非常に大きなデータセットのクラスタ/パーティショニングに利用し、ガウス混合モデル(確率的クラスタリング法)を用いてk-meansパーティションを検証する。
結果:本手法は初期条件に敏感でない非常にコンパクトなクラスタを生成することを示す。
この方法は、データセットの'クラスタビリティ'を増加させるデータセットで最も分離可能な'セットを特定するために使用することができる。
この方法では、事前にクラスタ数を指定する必要もなくなる。
関連論文リスト
- From Large to Small Datasets: Size Generalization for Clustering
Algorithm Selection [12.993073967843292]
我々は,未知の地下構造クラスタリングを用いて,半教師付き環境で問題を研究する。
本稿では,クラスタリングアルゴリズムの精度向上のためのサイズ一般化の概念を提案する。
データセット全体においてどのアルゴリズムが最適かを特定するために、データの5%をサブサンプルとして使用しています。
論文 参考訳(メタデータ) (2024-02-22T06:53:35Z) - Instance-Optimal Cluster Recovery in the Labeled Stochastic Block Model [79.46465138631592]
観測されたラベルを用いてクラスタを復元する効率的なアルゴリズムを考案する。
本稿では,期待値と高い確率でこれらの下位境界との性能を一致させる最初のアルゴリズムであるIACを提案する。
論文 参考訳(メタデータ) (2023-06-18T08:46:06Z) - Hard Regularization to Prevent Deep Online Clustering Collapse without
Data Augmentation [65.268245109828]
オンラインディープクラスタリング(オンラインディープクラスタリング)とは、機能抽出ネットワークとクラスタリングモデルを組み合わせて、クラスタラベルを処理された各新しいデータポイントまたはバッチに割り当てることである。
オフラインメソッドよりも高速で汎用性が高いが、オンラインクラスタリングは、エンコーダがすべての入力を同じポイントにマッピングし、すべてを単一のクラスタに配置する、崩壊したソリューションに容易に到達することができる。
本稿では,データ拡張を必要としない手法を提案する。
論文 参考訳(メタデータ) (2023-03-29T08:23:26Z) - Convex Clustering through MM: An Efficient Algorithm to Perform
Hierarchical Clustering [1.0589208420411012]
本稿では,クラスタ融合と高効率更新方式を用いた反復アルゴリズムCCMMによる凸クラスタリングを提案する。
現在のデスクトップコンピュータでは、CCMMは、7次元空間に100万以上のオブジェクトを含む凸クラスタリング問題を効率的に解決する。
論文 参考訳(メタデータ) (2022-11-03T15:07:51Z) - ck-means, a novel unsupervised learning method that combines fuzzy and
crispy clustering methods to extract intersecting data [1.827510863075184]
本稿では,2つの特徴以上の共通点を共有するデータをクラスタリングする手法を提案する。
この手法の主な考え方は、ファジィ C-Means (FCM) アルゴリズムを用いてファジィクラスタを生成することである。
このアルゴリズムはまた、シルエット指数(SI)によって与えられるクラスタの一貫性に従って、FCMとk平均アルゴリズムのための最適なクラスタ数を見つけることができる。
論文 参考訳(メタデータ) (2022-06-17T19:29:50Z) - Differentially-Private Clustering of Easy Instances [67.04951703461657]
異なるプライベートクラスタリングでは、個々のデータポイントに関する情報を公開せずに、$k$のクラスタセンターを特定することが目標だ。
我々は、データが"簡単"である場合にユーティリティを提供する実装可能な差分プライベートクラスタリングアルゴリズムを提供する。
我々は、非プライベートクラスタリングアルゴリズムを簡単なインスタンスに適用し、結果をプライベートに組み合わせることのできるフレームワークを提案する。
論文 参考訳(メタデータ) (2021-12-29T08:13:56Z) - Very Compact Clusters with Structural Regularization via Similarity and
Connectivity [3.779514860341336]
本稿では,汎用データセットのためのエンドツーエンドのディープクラスタリングアルゴリズムであるVery Compact Clusters (VCC)を提案する。
提案手法は,最先端のクラスタリング手法よりも優れたクラスタリング性能を実現する。
論文 参考訳(メタデータ) (2021-06-09T23:22:03Z) - Scalable Hierarchical Agglomerative Clustering [65.66407726145619]
既存のスケーラブルな階層的クラスタリング手法は、スピードの質を犠牲にする。
我々は、品質を犠牲にせず、数十億のデータポイントまでスケールする、スケーラブルで集約的な階層的クラスタリング法を提案する。
論文 参考訳(メタデータ) (2020-10-22T15:58:35Z) - Differentially Private Clustering: Tight Approximation Ratios [57.89473217052714]
基本的なクラスタリング問題に対して,効率的な微分プライベートアルゴリズムを提案する。
この結果から,SampleとAggregateのプライバシーフレームワークのアルゴリズムの改善が示唆された。
1-Clusterアルゴリズムで使用されるツールの1つは、ClosestPairのより高速な量子アルゴリズムを適度な次元で得るために利用できる。
論文 参考訳(メタデータ) (2020-08-18T16:22:06Z) - Point-Set Kernel Clustering [11.093960688450602]
本稿では,オブジェクトとオブジェクトの集合との類似性を計算する,ポイントセットカーネルと呼ばれる新しい類似度尺度を提案する。
新たなクラスタリング手法は,大規模データセットを扱えるように,効率的かつ効率的であることを示す。
論文 参考訳(メタデータ) (2020-02-14T00:00:03Z) - Clustering Binary Data by Application of Combinatorial Optimization
Heuristics [52.77024349608834]
本稿では,2値データのクラスタリング手法について検討し,まず,クラスタのコンパクトさを計測するアグリゲーション基準を定義した。
近隣地域と人口動態最適化メタヒューリスティックスを用いた5つの新しいオリジナル手法が導入された。
準モンテカルロ実験によって生成された16のデータテーブルから、L1の相似性と階層的クラスタリング、k-means(メドイドやPAM)の1つのアグリゲーションの比較を行う。
論文 参考訳(メタデータ) (2020-01-06T23:33:31Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。