論文の概要: Careful Seeding for k-Medois Clustering with Incremental k-Means++ Initialization
- arxiv url: http://arxiv.org/abs/2207.02404v2
- Date: Wed, 18 Dec 2024 08:00:59 GMT
- ステータス: 翻訳完了
- システム内更新日: 2024-12-19 13:23:57.439051
- Title: Careful Seeding for k-Medois Clustering with Incremental k-Means++ Initialization
- Title(参考訳): 増分k-Means++初期化を用いたk-Medoisクラスタリングのための注意深い探索
- Authors: Difei Cheng, Yunfeng Zhang, Ruinan Jin,
- Abstract要約: K-medoidsクラスタリングはk-meansクラスタリングの一般的な変種であり、パターン認識や機械学習で広く使用されている。
INCKMアルゴリズムと呼ばれる改良されたk-medoidsクラスタリングアルゴリズムが最近提案され、この欠点を克服した。
インクリメンタルk-means++ (INCKPP) アルゴリズムと呼ばれる新しいk-medoidsクラスタリングアルゴリズムを提案する。
- 参考スコア(独自算出の注目度): 17.4921582710817
- License:
- Abstract: K-medoids clustering is a popular variant of k-means clustering and widely used in pattern recognition and machine learning. A main drawback of k-medoids clustering is that an improper initialization can cause it to get trapped in local optima. An improved k-medoids clustering algorithm, called INCKM algorithm, which is the first to apply incremental initialization to k-medoids clustering, was recently proposed to overcome this drawback. The INCKM algorithm requires the construction of a subset of candidate medoids determined by one hyperparameter for initialization, and meanwhile, it always fails when dealing with imbalanced datasets with an incorrect hyperparameter selection. In this paper, we propose a novel k-medoids clustering algorithm, called incremental k-means++ (INCKPP) algorithm, which initializes with a novel incremental manner, attempting to optimally add one new cluster center at each stage through a nonparametric and stochastic k-means++ initialization. The INCKPP algorithm overcomes the difficulty of hyperparameter selection in the INCKM algorithm, improves the clustering performance, and can deal with imbalanced datasets well. However, the INCKPP algorithm is not computationally efficient enough. To deal with this, we further propose an improved INCKPP algorithm, called INCKPPsample algorithm, which improves the clustering efficiency while maintaining the clustering performance of the INCKPP algorithm. Extensive results from experiments on both synthetic and real-world datasets, including imbalanced datasets, illustrate that the proposed algorithms outperforms than the other compared algorithms.
- Abstract(参考訳): K-medoidsクラスタリングはk-meansクラスタリングの一般的な変種であり、パターン認識や機械学習で広く使用されている。
k-メドイドのクラスタリングの主な欠点は、不適切な初期化によって局所的な最適状態に閉じ込められる可能性があることである。
この欠点を克服するために、k-medoidsクラスタリングにインクリメンタル初期化を最初に適用したINCKMアルゴリズムと呼ばれる改良k-medoidsクラスタリングアルゴリズムが最近提案されている。
INCKMアルゴリズムは、初期化のために1つのハイパーパラメータによって決定される候補ミードのサブセットを構築する必要があり、一方、不正なハイパーパラメータの選択で不均衡なデータセットを扱う場合は常に失敗する。
本稿では,非パラメトリックかつ確率的なk-means++初期化を通じて,各ステージに1つの新しいクラスタセンターを最適に追加しようとする,インクリメンタルk-means++(INCKPP)アルゴリズムを提案する。
INCKPPアルゴリズムは、INCKMアルゴリズムにおけるハイパーパラメータ選択の難しさを克服し、クラスタリング性能を改善し、不均衡なデータセットをうまく扱うことができる。
しかし、INCKPPアルゴリズムは計算効率が十分ではない。
さらに,INCKPPアルゴリズムのクラスタリング性能を維持しつつ,クラスタリング効率を向上するINCKPPsampleアルゴリズムという改良されたINCKPPアルゴリズムを提案する。
不均衡なデータセットを含む合成データセットと実世界のデータセットに関する実験の結果は、提案アルゴリズムが他の比較アルゴリズムよりも優れていることを示している。
関連論文リスト
- A Greedy Strategy for Graph Cut [95.2841574410968]
GGCと呼ばれるグラフカットの問題を解決するための欲求戦略を提案する。
これは、各データサンプルがクラスタと見なされる状態から始まり、2つのクラスタを動的にマージする。
GGCはサンプル数に関してほぼ線形な計算複雑性を持つ。
論文 参考訳(メタデータ) (2024-12-28T05:49:42Z) - A Fresh Look at Generalized Category Discovery through Non-negative Matrix Factorization [83.12938977698988]
Generalized Category Discovery (GCD) は、ラベル付きベースデータを用いて、ベース画像と新規画像の両方を分類することを目的としている。
現在のアプローチでは、コサイン類似性に基づく共起行列 $barA$ の固有の最適化に不適切に対処している。
本稿では,これらの欠陥に対処するNon-Negative Generalized Category Discovery (NN-GCD) フレームワークを提案する。
論文 参考訳(メタデータ) (2024-10-29T07:24:11Z) - Self-Supervised Graph Embedding Clustering [70.36328717683297]
K-means 1-step dimensionality reduction clustering method は,クラスタリングタスクにおける次元性の呪いに対処する上で,いくつかの進歩をもたらした。
本稿では,K-meansに多様体学習を統合する統一フレームワークを提案する。
論文 参考訳(メタデータ) (2024-09-24T08:59:51Z) - Fuzzy K-Means Clustering without Cluster Centroids [21.256564324236333]
ファジィK平均クラスタリングは教師なしデータ分析において重要な手法である。
本稿では,クラスタセントロイドへの依存を完全に排除する,ファジィテクストK-Meansクラスタリングアルゴリズムを提案する。
論文 参考訳(メタデータ) (2024-04-07T12:25:03Z) - Rethinking k-means from manifold learning perspective [122.38667613245151]
平均推定なしで直接データのクラスタを検出する新しいクラスタリングアルゴリズムを提案する。
具体的には,バタワースフィルタを用いてデータ点間の距離行列を構成する。
異なる視点に埋め込まれた相補的な情報をうまく活用するために、テンソルのSchatten p-norm正規化を利用する。
論文 参考訳(メタデータ) (2023-05-12T03:01:41Z) - An enhanced method of initial cluster center selection for K-means
algorithm [0.0]
K-meansアルゴリズムの初期クラスタ選択を改善するための新しい手法を提案する。
Convex Hullアルゴリズムは、最初の2つのセントロイドの計算を容易にし、残りの2つは、以前選択された中心からの距離に応じて選択される。
We obtained only 7.33%, 7.90%, and 0% clustering error in Iris, Letter, and Ruspini data。
論文 参考訳(メタデータ) (2022-10-18T00:58:50Z) - k-MS: A novel clustering algorithm based on morphological reconstruction [0.0]
k-MSは最悪の場合、CPU並列k-Meansよりも高速である。
また、ミトーシスやTRICLUSTのような密度や形状に敏感な類似のクラスター化法よりも高速である。
論文 参考訳(メタデータ) (2022-08-30T16:55:21Z) - An Exact Algorithm for Semi-supervised Minimum Sum-of-Squares Clustering [0.5801044612920815]
半教師付きMSSCのための分岐結合アルゴリズムを提案する。
背景知識はペアワイズ・マスタリンクと結びつかない制約として組み込まれている。
提案したグローバル最適化アルゴリズムは,実世界のインスタンスを最大800個のデータポイントまで効率的に解決する。
論文 参考訳(メタデータ) (2021-11-30T17:08:53Z) - Determinantal consensus clustering [77.34726150561087]
本稿では,クラスタリングアルゴリズムのランダム再起動における決定点プロセス (DPP) の利用を提案する。
DPPは部分集合内の中心点の多様性を好んでいる。
DPPとは対照的に、この手法は多様性の確保と、すべてのデータフェースについて良好なカバレッジを得るために失敗することを示す。
論文 参考訳(メタデータ) (2021-02-07T23:48:24Z) - A Multi-disciplinary Ensemble Algorithm for Clustering Heterogeneous
Datasets [0.76146285961466]
本稿では,社会階級ランキングとメタヒューリスティックアルゴリズムに基づく進化的クラスタリングアルゴリズム(ECAStar)を提案する。
ECAStarは、再共生進化演算子、レヴィ飛行最適化、いくつかの統計技術と統合されている。
従来の5つのアプローチに対してECAStarを評価する実験を行った。
論文 参考訳(メタデータ) (2021-01-01T07:20:50Z) - Differentially Private Clustering: Tight Approximation Ratios [57.89473217052714]
基本的なクラスタリング問題に対して,効率的な微分プライベートアルゴリズムを提案する。
この結果から,SampleとAggregateのプライバシーフレームワークのアルゴリズムの改善が示唆された。
1-Clusterアルゴリズムで使用されるツールの1つは、ClosestPairのより高速な量子アルゴリズムを適度な次元で得るために利用できる。
論文 参考訳(メタデータ) (2020-08-18T16:22:06Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。