論文の概要: An enhanced method of initial cluster center selection for K-means
algorithm
- arxiv url: http://arxiv.org/abs/2210.09507v1
- Date: Tue, 18 Oct 2022 00:58:50 GMT
- ステータス: 処理完了
- システム内更新日: 2022-10-19 15:25:36.725301
- Title: An enhanced method of initial cluster center selection for K-means
algorithm
- Title(参考訳): K平均アルゴリズムにおける初期クラスタ中心選択の強化手法
- Authors: Zillur Rahman, Md. Sabir Hossain, Mohammad Hasan, Ahmed Imteaj
- Abstract要約: K-meansアルゴリズムの初期クラスタ選択を改善するための新しい手法を提案する。
Convex Hullアルゴリズムは、最初の2つのセントロイドの計算を容易にし、残りの2つは、以前選択された中心からの距離に応じて選択される。
We obtained only 7.33%, 7.90%, and 0% clustering error in Iris, Letter, and Ruspini data。
- 参考スコア(独自算出の注目度): 0.0
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Clustering is one of the widely used techniques to find out patterns from a
dataset that can be applied in different applications or analyses. K-means, the
most popular and simple clustering algorithm, might get trapped into local
minima if not properly initialized and the initialization of this algorithm is
done randomly. In this paper, we propose a novel approach to improve initial
cluster selection for K-means algorithm. This algorithm is based on the fact
that the initial centroids must be well separated from each other since the
final clusters are separated groups in feature space. The Convex Hull algorithm
facilitates the computing of the first two centroids and the remaining ones are
selected according to the distance from previously selected centers. To ensure
the selection of one center per cluster, we use the nearest neighbor technique.
To check the robustness of our proposed algorithm, we consider several
real-world datasets. We obtained only 7.33%, 7.90%, and 0% clustering error in
Iris, Letter, and Ruspini data respectively which proves better performance
than other existing systems. The results indicate that our proposed method
outperforms the conventional K means approach by accelerating the computation
when the number of clusters is greater than 2.
- Abstract(参考訳): クラスタリングは、さまざまなアプリケーションや分析に適用可能なデータセットからパターンを見つけるために広く使われているテクニックの1つです。
最もポピュラーでシンプルなクラスタリングアルゴリズムであるk-meansは、適切に初期化されていない場合、ローカルミニマに閉じ込められ、このアルゴリズムの初期化はランダムに行われる。
本稿では,K-meansアルゴリズムの初期クラスタ選択を改善する新しい手法を提案する。
このアルゴリズムは、最終クラスタが特徴空間内の分離群であるため、初期セントロイドが互いに十分に分離されなければならないという事実に基づいている。
Convex Hullアルゴリズムは、最初の2つのセントロイドの計算を容易にし、残りの2つは、以前選択された中心からの距離に応じて選択される。
クラスタ毎の1つの中心の選択を保証するために、最も近い隣の手法を用いる。
提案アルゴリズムのロバスト性を確認するために,実世界のデータセットをいくつか検討する。
iris, letter, ruspiniのデータでは7.33%, 7.90%, 0%のクラスタリングエラーしか得られなかった。
その結果,提案手法は,クラスタ数が2より多い場合の計算を高速化することで,従来のK手法よりも優れていることがわかった。
関連論文リスト
- Fuzzy K-Means Clustering without Cluster Centroids [21.256564324236333]
ファジィK平均クラスタリングは教師なしデータ分析において重要な手法である。
本稿では,クラスタセントロイドへの依存を完全に排除する,ファジィテクストK-Meansクラスタリングアルゴリズムを提案する。
論文 参考訳(メタデータ) (2024-04-07T12:25:03Z) - A Weighted K-Center Algorithm for Data Subset Selection [70.49696246526199]
サブセット選択は、トレーニングデータの小さな部分を特定する上で重要な役割を果たす、基本的な問題である。
我々は,k中心および不確かさサンプリング目的関数の重み付け和に基づいて,サブセットを計算する新しい係数3近似アルゴリズムを開発した。
論文 参考訳(メタデータ) (2023-12-17T04:41:07Z) - Rethinking k-means from manifold learning perspective [122.38667613245151]
平均推定なしで直接データのクラスタを検出する新しいクラスタリングアルゴリズムを提案する。
具体的には,バタワースフィルタを用いてデータ点間の距離行列を構成する。
異なる視点に埋め込まれた相補的な情報をうまく活用するために、テンソルのSchatten p-norm正規化を利用する。
論文 参考訳(メタデータ) (2023-05-12T03:01:41Z) - ck-means, a novel unsupervised learning method that combines fuzzy and
crispy clustering methods to extract intersecting data [1.827510863075184]
本稿では,2つの特徴以上の共通点を共有するデータをクラスタリングする手法を提案する。
この手法の主な考え方は、ファジィ C-Means (FCM) アルゴリズムを用いてファジィクラスタを生成することである。
このアルゴリズムはまた、シルエット指数(SI)によって与えられるクラスタの一貫性に従って、FCMとk平均アルゴリズムのための最適なクラスタ数を見つけることができる。
論文 参考訳(メタデータ) (2022-06-17T19:29:50Z) - Gradient Based Clustering [72.15857783681658]
本稿では,クラスタリングの品質を計測するコスト関数の勾配を用いて,距離に基づくクラスタリングの一般的な手法を提案する。
アプローチは反復的な2段階の手順(クラスタ割り当てとクラスタセンターのアップデートの代替)であり、幅広い機能に適用できる。
論文 参考訳(メタデータ) (2022-02-01T19:31:15Z) - K-Splits: Improved K-Means Clustering Algorithm to Automatically Detect
the Number of Clusters [0.12313056815753944]
本稿では,k-meansに基づく改良された階層型アルゴリズムであるk-splitsを紹介する。
提案手法の主な利点は,精度と速度である。
論文 参考訳(メタデータ) (2021-10-09T23:02:57Z) - A Constant Approximation Algorithm for Sequential No-Substitution
k-Median Clustering under a Random Arrival Order [24.304228393096395]
シーケンシャルな非置換条件下でのk中間クラスタリングについて検討する。
この設定では、データストリームを順次観測し、アルゴリズムによっていくつかのポイントをクラスタセンターとして選択する。
ランダム到着順序下での最適リスクに対する定数近似係数を求めるアルゴリズムを新たに提案する。
論文 参考訳(メタデータ) (2021-02-08T08:25:29Z) - Determinantal consensus clustering [77.34726150561087]
本稿では,クラスタリングアルゴリズムのランダム再起動における決定点プロセス (DPP) の利用を提案する。
DPPは部分集合内の中心点の多様性を好んでいる。
DPPとは対照的に、この手法は多様性の確保と、すべてのデータフェースについて良好なカバレッジを得るために失敗することを示す。
論文 参考訳(メタデータ) (2021-02-07T23:48:24Z) - Clustering of Big Data with Mixed Features [3.3504365823045044]
我々は混合型の大規模データのための新しいクラスタリングアルゴリズムを開発した。
このアルゴリズムは、比較的低い密度値の外れ値とクラスターを検出することができる。
本研究では,本アルゴリズムが実際に有効であることを示す実験結果を示す。
論文 参考訳(メタデータ) (2020-11-11T19:54:38Z) - Differentially Private Clustering: Tight Approximation Ratios [57.89473217052714]
基本的なクラスタリング問題に対して,効率的な微分プライベートアルゴリズムを提案する。
この結果から,SampleとAggregateのプライバシーフレームワークのアルゴリズムの改善が示唆された。
1-Clusterアルゴリズムで使用されるツールの1つは、ClosestPairのより高速な量子アルゴリズムを適度な次元で得るために利用できる。
論文 参考訳(メタデータ) (2020-08-18T16:22:06Z) - Ball k-means [53.89505717006118]
Ball k-meansアルゴリズムは、ポイントセントロイド距離計算の削減に集中して、クラスタを記述するためにボールを使用する。
高速、余分なパラメータなし、単純設計のボールk平均アルゴリズムは、素早いk平均アルゴリズムを全面的に置き換える。
論文 参考訳(メタデータ) (2020-05-02T10:39:26Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。