論文の概要: Careful seeding for the k-medoids algorithm with incremental k++ cluster
construction
- arxiv url: http://arxiv.org/abs/2207.02404v1
- Date: Wed, 6 Jul 2022 02:25:35 GMT
- ステータス: 処理完了
- システム内更新日: 2022-07-07 13:47:31.464459
- Title: Careful seeding for the k-medoids algorithm with incremental k++ cluster
construction
- Title(参考訳): インクリメンタルk++クラスタ構成によるk-medoidsアルゴリズムの慎重なシード
- Authors: Difei Cheng, Bo Zhang
- Abstract要約: k-medoidsアルゴリズム(INCKM)が最近提案され、この欠点を克服した。
本稿では,クラスタ数を動的に増加させる新しいk-medoidsアルゴリズム(INCKPP)を提案する。
提案アルゴリズムは,改良されたk-メロイドアルゴリズムのパラメータ選択問題を克服し,クラスタリング性能を向上し,不均衡なデータセットをうまく処理することができる。
- 参考スコア(独自算出の注目度): 4.981260380070016
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: The k-medoids algorithm is a popular variant of the k-means algorithm and
widely used in pattern recognition and machine learning. A main drawback of the
k-medoids algorithm is that it can be trapped in local optima. An improved
k-medoids algorithm (INCKM) was recently proposed to overcome this drawback,
based on constructing a candidate medoids subset with a parameter choosing
procedure, but it may fail when dealing with imbalanced datasets. In this
paper, we propose a novel incremental k-medoids algorithm (INCKPP) which
dynamically increases the number of clusters from 2 to k through a
nonparametric and stochastic k-means++ search procedure. Our algorithm can
overcome the parameter selection problem in the improved k-medoids algorithm,
improve the clustering performance, and deal with imbalanced datasets very
well. But our algorithm has a weakness in computation efficiency. To address
this issue, we propose a fast INCKPP algorithm (called INCKPP$_{sample}$) which
preserves the computational efficiency of the simple and fast k-medoids
algorithm with an improved clustering performance. The proposed algorithm is
compared with three state-of-the-art algorithms: the improved k-medoids
algorithm (INCKM), the simple and fast k-medoids algorithm (FKM) and the
k-means++ algorithm (KPP). Extensive experiments on both synthetic and real
world datasets including imbalanced datasets illustrate the effectiveness of
the proposed algorithm.
- Abstract(参考訳): k-medoidsアルゴリズムはk-meansアルゴリズムの一般的な変種であり、パターン認識や機械学習で広く使われている。
k-メドイドアルゴリズムの主な欠点は、局所的な最適値に閉じ込められることである。
k-medoidsアルゴリズムの改良 (INCKM) が最近提案され、パラメータ選択手順で候補メドイドサブセットを構築するが、不均衡なデータセットを扱う際に失敗する可能性がある。
本稿では,非パラメトリックかつ確率的なk-means++探索手法により,クラスタ数を2からkに動的に増加させる新しいk-medoidsアルゴリズム(INCKPP)を提案する。
本アルゴリズムは,改良k-medoidsアルゴリズムにおけるパラメータ選択問題を克服し,クラスタリング性能を改善し,不均衡データセットを非常によく扱うことができる。
しかし、我々のアルゴリズムは計算効率の弱点がある。
そこで本研究では,クラスタリング性能を向上した単純かつ高速なk-medoidsアルゴリズムの計算効率を維持する高速なINCKPPアルゴリズム(INCKPP$_{sample}$)を提案する。
提案アルゴリズムは,改良k-medoidsアルゴリズム(INCKM),単純高速k-medoidsアルゴリズム(FKM),k-means++アルゴリズム(KPP)の3つの最先端アルゴリズムと比較した。
不均衡データセットを含む合成データと実世界のデータセットの両方に関する広範な実験は、提案アルゴリズムの有効性を示している。
関連論文リスト
- A Greedy Strategy for Graph Cut [95.2841574410968]
GGCと呼ばれるグラフカットの問題を解決するための欲求戦略を提案する。
これは、各データサンプルがクラスタと見なされる状態から始まり、2つのクラスタを動的にマージする。
GGCはサンプル数に関してほぼ線形な計算複雑性を持つ。
論文 参考訳(メタデータ) (2024-12-28T05:49:42Z) - A Fresh Look at Generalized Category Discovery through Non-negative Matrix Factorization [83.12938977698988]
Generalized Category Discovery (GCD) は、ラベル付きベースデータを用いて、ベース画像と新規画像の両方を分類することを目的としている。
現在のアプローチでは、コサイン類似性に基づく共起行列 $barA$ の固有の最適化に不適切に対処している。
本稿では,これらの欠陥に対処するNon-Negative Generalized Category Discovery (NN-GCD) フレームワークを提案する。
論文 参考訳(メタデータ) (2024-10-29T07:24:11Z) - Self-Supervised Graph Embedding Clustering [70.36328717683297]
K-means 1-step dimensionality reduction clustering method は,クラスタリングタスクにおける次元性の呪いに対処する上で,いくつかの進歩をもたらした。
本稿では,K-meansに多様体学習を統合する統一フレームワークを提案する。
論文 参考訳(メタデータ) (2024-09-24T08:59:51Z) - Fuzzy K-Means Clustering without Cluster Centroids [21.256564324236333]
ファジィK平均クラスタリングは教師なしデータ分析において重要な手法である。
本稿では,クラスタセントロイドへの依存を完全に排除する,ファジィテクストK-Meansクラスタリングアルゴリズムを提案する。
論文 参考訳(メタデータ) (2024-04-07T12:25:03Z) - Rethinking k-means from manifold learning perspective [122.38667613245151]
平均推定なしで直接データのクラスタを検出する新しいクラスタリングアルゴリズムを提案する。
具体的には,バタワースフィルタを用いてデータ点間の距離行列を構成する。
異なる視点に埋め込まれた相補的な情報をうまく活用するために、テンソルのSchatten p-norm正規化を利用する。
論文 参考訳(メタデータ) (2023-05-12T03:01:41Z) - An enhanced method of initial cluster center selection for K-means
algorithm [0.0]
K-meansアルゴリズムの初期クラスタ選択を改善するための新しい手法を提案する。
Convex Hullアルゴリズムは、最初の2つのセントロイドの計算を容易にし、残りの2つは、以前選択された中心からの距離に応じて選択される。
We obtained only 7.33%, 7.90%, and 0% clustering error in Iris, Letter, and Ruspini data。
論文 参考訳(メタデータ) (2022-10-18T00:58:50Z) - k-MS: A novel clustering algorithm based on morphological reconstruction [0.0]
k-MSは最悪の場合、CPU並列k-Meansよりも高速である。
また、ミトーシスやTRICLUSTのような密度や形状に敏感な類似のクラスター化法よりも高速である。
論文 参考訳(メタデータ) (2022-08-30T16:55:21Z) - An Exact Algorithm for Semi-supervised Minimum Sum-of-Squares Clustering [0.5801044612920815]
半教師付きMSSCのための分岐結合アルゴリズムを提案する。
背景知識はペアワイズ・マスタリンクと結びつかない制約として組み込まれている。
提案したグローバル最適化アルゴリズムは,実世界のインスタンスを最大800個のデータポイントまで効率的に解決する。
論文 参考訳(メタデータ) (2021-11-30T17:08:53Z) - Determinantal consensus clustering [77.34726150561087]
本稿では,クラスタリングアルゴリズムのランダム再起動における決定点プロセス (DPP) の利用を提案する。
DPPは部分集合内の中心点の多様性を好んでいる。
DPPとは対照的に、この手法は多様性の確保と、すべてのデータフェースについて良好なカバレッジを得るために失敗することを示す。
論文 参考訳(メタデータ) (2021-02-07T23:48:24Z) - A Multi-disciplinary Ensemble Algorithm for Clustering Heterogeneous
Datasets [0.76146285961466]
本稿では,社会階級ランキングとメタヒューリスティックアルゴリズムに基づく進化的クラスタリングアルゴリズム(ECAStar)を提案する。
ECAStarは、再共生進化演算子、レヴィ飛行最適化、いくつかの統計技術と統合されている。
従来の5つのアプローチに対してECAStarを評価する実験を行った。
論文 参考訳(メタデータ) (2021-01-01T07:20:50Z) - Differentially Private Clustering: Tight Approximation Ratios [57.89473217052714]
基本的なクラスタリング問題に対して,効率的な微分プライベートアルゴリズムを提案する。
この結果から,SampleとAggregateのプライバシーフレームワークのアルゴリズムの改善が示唆された。
1-Clusterアルゴリズムで使用されるツールの1つは、ClosestPairのより高速な量子アルゴリズムを適度な次元で得るために利用できる。
論文 参考訳(メタデータ) (2020-08-18T16:22:06Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。