論文の概要: Cube Sampled K-Prototype Clustering for Featured Data
- arxiv url: http://arxiv.org/abs/2108.10262v1
- Date: Mon, 23 Aug 2021 15:59:14 GMT
- ステータス: 処理完了
- システム内更新日: 2021-08-24 17:29:01.816340
- Title: Cube Sampled K-Prototype Clustering for Featured Data
- Title(参考訳): 特徴データのためのキューブサンプリングK-プロトタイプクラスタリング
- Authors: Seemandhar Jain, Aditya A. Shastri, Kapil Ahuja, Yann Busnel, and
Navneet Pratap Singh
- Abstract要約: キューブサンプリングは、正確なサンプル選択のために使用される。
UCIレポジトリからの複数のデータセットの実験では、立方体サンプルのK-Prototypeアルゴリズムが最適なクラスタリング精度を与えることが示された。
- 参考スコア(独自算出の注目度): 3.232625980782303
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Clustering large amount of data is becoming increasingly important in the
current times. Due to the large sizes of data, clustering algorithm often take
too much time. Sampling this data before clustering is commonly used to reduce
this time. In this work, we propose a probabilistic sampling technique called
cube sampling along with K-Prototype clustering. Cube sampling is used because
of its accurate sample selection. K-Prototype is most frequently used
clustering algorithm when the data is numerical as well as categorical (very
common in today's time). The novelty of this work is in obtaining the crucial
inclusion probabilities for cube sampling using Principal Component Analysis
(PCA).
Experiments on multiple datasets from the UCI repository demonstrate that
cube sampled K-Prototype algorithm gives the best clustering accuracy among
similarly sampled other popular clustering algorithms (K-Means, Hierarchical
Clustering (HC), Spectral Clustering (SC)). When compared with unsampled
K-Prototype, K-Means, HC and SC, it still has the best accuracy with the added
advantage of reduced computational complexity (due to reduced data size).
- Abstract(参考訳): クラスタ化 大量のデータは現在、ますます重要になっています。
データのサイズが大きいため、クラスタリングアルゴリズムには時間を要することが多い。
クラスタリングの前にこのデータをサンプリングすることは、この時間を短縮するために一般的に使用される。
本研究では,K-Prototypeクラスタリングとともに,立方体サンプリングと呼ばれる確率的サンプリング手法を提案する。
立方体サンプリングは正確なサンプル選択のために使用される。
K-プロトタイプ(K-Prototype)は、データを数値化する際に最もよく使われるクラスタリングアルゴリズムである。
この研究の新規性は、主成分分析(PCA)を用いた立方体サンプリングにおいて重要な包含確率を得ることである。
UCIリポジトリからの複数のデータセットの実験では、立方体サンプルのK-Prototypeアルゴリズムが、類似のサンプルの他の一般的なクラスタリングアルゴリズム(K-Means, Hierarchical Clustering (HC), Spectral Clustering (SC))の中で最高のクラスタリング精度を提供することが示された。
アンサンプされたK-Prototype、K-Means、HC、SCと比較すると、計算複雑性の低減(データサイズが小さくなるため)の利点が加わり、最も正確である。
関連論文リスト
- Fuzzy K-Means Clustering without Cluster Centroids [79.19713746387337]
ファジィK平均クラスタリングは教師なしデータ解析において重要な計算手法である。
本稿では,クラスタセントロイドへの依存を完全に排除する,ファジィK平均クラスタリングアルゴリズムを提案する。
論文 参考訳(メタデータ) (2024-04-07T12:25:03Z) - Linear time Evidence Accumulation Clustering with KMeans [0.0]
この研究は、平均的なリンククラスタリングの振る舞いを模倣するトリックを記述する。
分割の密度を効率よく計算する方法を見つけ、二次的な複雑さから線形的な複雑さへのコストを削減した。
k平均結果は、計算コストを低く保ちながら、NMIの観点からは、最先端の技術に匹敵する。
論文 参考訳(メタデータ) (2023-11-15T14:12:59Z) - Determining the Optimal Number of Clusters for Time Series Datasets with
Symbolic Pattern Forest [0.0]
最適なクラスタ数(例えば k)を計算するという問題は、そのような方法にとって重要な課題の1つである。
本研究では,時系列データセットの最適なクラスタ数を決定するために,シンボリックパターンフォレストアルゴリズムを拡張した。
UCRアーカイブデータセットに対する我々のアプローチを検証し、これまでの実験結果はベースラインよりも大幅に改善された。
論文 参考訳(メタデータ) (2023-10-01T23:33:37Z) - Superclustering by finding statistically significant separable groups of
optimal gaussian clusters [0.0]
本稿では,BIC基準の観点から,最適なデータセットをグループ化することで,データセットをクラスタリングするアルゴリズムを提案する。
このアルゴリズムの重要な利点は、既に訓練済みのクラスタに基づいて、新しいデータの正しいスーパークラスタを予測する能力である。
論文 参考訳(メタデータ) (2023-09-05T23:49:46Z) - Data Aggregation for Hierarchical Clustering [0.3626013617212666]
BETULAは、よく知られたBIRCHデータ集約アルゴリズムの数値的に安定したバージョンである。
これは、クラスタリングの品質に小さな損失しか与えずに、制約のあるリソースを持つシステムでHACを実行可能なものにするために使用できる。
論文 参考訳(メタデータ) (2023-09-05T19:39:43Z) - Instance-Optimal Cluster Recovery in the Labeled Stochastic Block Model [79.46465138631592]
観測されたラベルを用いてクラスタを復元する効率的なアルゴリズムを考案する。
本稿では,期待値と高い確率でこれらの下位境界との性能を一致させる最初のアルゴリズムであるIACを提案する。
論文 参考訳(メタデータ) (2023-06-18T08:46:06Z) - Rethinking k-means from manifold learning perspective [122.38667613245151]
平均推定なしで直接データのクラスタを検出する新しいクラスタリングアルゴリズムを提案する。
具体的には,バタワースフィルタを用いてデータ点間の距離行列を構成する。
異なる視点に埋め込まれた相補的な情報をうまく活用するために、テンソルのSchatten p-norm正規化を利用する。
論文 参考訳(メタデータ) (2023-05-12T03:01:41Z) - K-Splits: Improved K-Means Clustering Algorithm to Automatically Detect
the Number of Clusters [0.12313056815753944]
本稿では,k-meansに基づく改良された階層型アルゴリズムであるk-splitsを紹介する。
提案手法の主な利点は,精度と速度である。
論文 参考訳(メタデータ) (2021-10-09T23:02:57Z) - Robust Trimmed k-means [70.88503833248159]
本稿では,外乱点とクラスタポイントを同時に識別するRobust Trimmed k-means (RTKM)を提案する。
RTKMは他の方法と競合することを示す。
論文 参考訳(メタデータ) (2021-08-16T15:49:40Z) - Determinantal consensus clustering [77.34726150561087]
本稿では,クラスタリングアルゴリズムのランダム再起動における決定点プロセス (DPP) の利用を提案する。
DPPは部分集合内の中心点の多様性を好んでいる。
DPPとは対照的に、この手法は多様性の確保と、すべてのデータフェースについて良好なカバレッジを得るために失敗することを示す。
論文 参考訳(メタデータ) (2021-02-07T23:48:24Z) - Clustering Binary Data by Application of Combinatorial Optimization
Heuristics [52.77024349608834]
本稿では,2値データのクラスタリング手法について検討し,まず,クラスタのコンパクトさを計測するアグリゲーション基準を定義した。
近隣地域と人口動態最適化メタヒューリスティックスを用いた5つの新しいオリジナル手法が導入された。
準モンテカルロ実験によって生成された16のデータテーブルから、L1の相似性と階層的クラスタリング、k-means(メドイドやPAM)の1つのアグリゲーションの比較を行う。
論文 参考訳(メタデータ) (2020-01-06T23:33:31Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。