論文の概要: Imbalanced Data Clustering using Equilibrium K-Means
- arxiv url: http://arxiv.org/abs/2402.14490v2
- Date: Thu, 28 Mar 2024 08:36:27 GMT
- ステータス: 処理完了
- システム内更新日: 2024-03-29 20:43:01.303195
- Title: Imbalanced Data Clustering using Equilibrium K-Means
- Title(参考訳): 平衡K平均を用いた不均衡データクラスタリング
- Authors: Yudong He,
- Abstract要約: 平衡K平均(EKM)は不均衡データに対するロバスト性を持つ新しいファジィクラスタリングアルゴリズムである。
EKMは単純で、高速で、FKMと同じ時間と空間の複雑さを持つ。
- 参考スコア(独自算出の注目度): 1.0878040851638
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Traditional centroid-based clustering algorithms, such as hard K-means (HKM, or Lloyd's algorithm) and fuzzy K-means (FKM, or Bezdek's algorithm), display degraded performance when true underlying groups of data have varying sizes (i.e., imbalanced data). This paper introduces equilibrium K-means (EKM), a novel fuzzy clustering algorithm that has the robustness to imbalanced data by preventing centroids from crowding together in the center of large clusters. EKM is simple, alternating between two steps; fast, with the same time and space complexity as FKM; and scalable to large datasets. We evaluate the performance of EKM on two synthetic and ten real datasets, comparing it to other centroid-based algorithms, including HKM, FKM, maximum-entropy fuzzy clustering (MEFC), two FKM variations designed for imbalanced data, and the Gaussian mixture model. The results show that EKM performs competitively on balanced data and significantly outperforms other algorithms on imbalanced data. Deep clustering experiments on the MNIST dataset demonstrate the significance of making representation have an EKM-friendly structure when dealing with imbalanced data; In comparison to deep clustering with HKM, deep clustering with EKM obtains a more discriminative representation and a 35% improvement in clustering accuracy. Additionally, we reformulate HKM, FKM, MEFC, and EKM in a general form of gradient descent, where fuzziness is introduced differently and more simply than in Bezdek's work, and demonstrate how the general form facilitates a uniform study of KM algorithms.
- Abstract(参考訳): ハードK平均(HKM、ロイドのアルゴリズム)やファジィK平均(FKM、ベズデックのアルゴリズム)のような伝統的なセントロイドベースのクラスタリングアルゴリズムは、真の基礎となるデータ群が様々なサイズ(すなわち不均衡なデータ)を持つ場合、劣化した性能を示す。
本稿では,不均衡データに対するロバスト性を有する新しいファジィクラスタリングアルゴリズムである平衡K平均(EKM)を提案する。
EKMは単純で、高速で、FKMと同じ時間と空間の複雑さを持つ。
我々は、HKM、FKM、最大エントロピーファジィクラスタリング(MEFC)、不均衡データ用に設計された2つのFKM変種、ガウス混合モデルなど、他のセントロイドベースのアルゴリズムと比較し、EKMの性能を評価した。
その結果、EKMはバランスの取れたデータで競合的に動作し、不均衡なデータでは他のアルゴリズムよりも大幅に優れていた。
MNISTデータセットの深層クラスタリング実験では、不均衡なデータを扱う場合、表現がEKMフレンドリな構造を持つことの重要性が示されている。
さらに、HKM, FKM, MEFC, EKM を一般勾配降下法で再構成し、ベズデックの手法よりもファジィ性を導入し、一般形式がKMアルゴリズムの一様研究をいかに促進するかを実証する。
関連論文リスト
- K-Means Clustering With Incomplete Data with the Use of Mahalanobis Distances [0.0]
我々は従来のユークリッド距離の代わりにマハラノビス距離を組み込む統一K平均アルゴリズムを開発した。
我々のアルゴリズムはスタンドアローンの計算とK平均の両方を一貫して上回ることを示す。
これらの結果は、IRISデータセットと楕円型クラスタでランダムに生成されたデータの両方にわたって保持される。
論文 参考訳(メタデータ) (2024-10-31T00:05:09Z) - Self-Supervised Graph Embedding Clustering [70.36328717683297]
K-means 1-step dimensionality reduction clustering method は,クラスタリングタスクにおける次元性の呪いに対処する上で,いくつかの進歩をもたらした。
本稿では,K-meansに多様体学習を統合する統一フレームワークを提案する。
論文 参考訳(メタデータ) (2024-09-24T08:59:51Z) - Fuzzy K-Means Clustering without Cluster Centroids [21.256564324236333]
ファジィK平均クラスタリングは教師なしデータ分析において重要な手法である。
本稿では,クラスタセントロイドへの依存を完全に排除する,ファジィテクストK-Meansクラスタリングアルゴリズムを提案する。
論文 参考訳(メタデータ) (2024-04-07T12:25:03Z) - How does promoting the minority fraction affect generalization? A theoretical study of the one-hidden-layer neural network on group imbalance [64.1656365676171]
グループ不均衡は経験的リスク最小化において既知の問題である。
本稿では,個々の集団がサンプルの複雑さ,収束率,平均および群レベルの試験性能に与える影響を定量化する。
論文 参考訳(メタデータ) (2024-03-12T04:38:05Z) - A Hybrid SOM and K-means Model for Time Series Energy Consumption
Clustering [0.0]
本稿では、自己組織化マップとK平均クラスタリングという2つの強力な手法を統合することにより、毎月のエネルギー消費パターンを効果的にクラスタリングする新しい手法を提案する。
本研究の主な焦点は、ロンドンにおけるスマートメーターの時系列エネルギー消費データの選択である。
論文 参考訳(メタデータ) (2023-11-25T16:55:19Z) - Rethinking k-means from manifold learning perspective [122.38667613245151]
平均推定なしで直接データのクラスタを検出する新しいクラスタリングアルゴリズムを提案する。
具体的には,バタワースフィルタを用いてデータ点間の距離行列を構成する。
異なる視点に埋め込まれた相補的な情報をうまく活用するために、テンソルのSchatten p-norm正規化を利用する。
論文 参考訳(メタデータ) (2023-05-12T03:01:41Z) - How to Use K-means for Big Data Clustering? [2.1165011830664677]
K-meansはEuclidean Minimum Sum-of-Squares Clustering (MSSC)モデルの下で最もシンプルで広く使われているアルゴリズムである。
ビッグデータクラスタリングにK-means++アルゴリズムとK-means++アルゴリズムを用いる並列方式を提案する。
論文 参考訳(メタデータ) (2022-04-14T08:18:01Z) - Meta Clustering Learning for Large-scale Unsupervised Person
Re-identification [124.54749810371986]
メタクラスタリング学習(MCL)と呼ばれる「大規模タスクのための小さなデータ」パラダイムを提案する。
MCLは、第1フェーズのトレーニングのためにコンピューティングを節約するためにクラスタリングを介して、未ラベルデータのサブセットを擬似ラベル付けするのみである。
提案手法は計算コストを大幅に削減すると同時に,従来よりも優れた性能を実現している。
論文 参考訳(メタデータ) (2021-11-19T04:10:18Z) - Robust Trimmed k-means [70.88503833248159]
本稿では,外乱点とクラスタポイントを同時に識別するRobust Trimmed k-means (RTKM)を提案する。
RTKMは他の方法と競合することを示す。
論文 参考訳(メタデータ) (2021-08-16T15:49:40Z) - Decorrelated Clustering with Data Selection Bias [55.91842043124102]
本稿では,データ選択バイアスを伴うクラスタリングのためのデコリレーション正規化K-Meansアルゴリズム(DCKM)を提案する。
DCKMアルゴリズムは,選択バイアスによって生じる予期せぬ特徴相関を除去する必要があることを示す。
論文 参考訳(メタデータ) (2020-06-29T08:55:50Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。