論文の概要: Imbalanced Data Clustering using Equilibrium K-Means
- arxiv url: http://arxiv.org/abs/2402.14490v1
- Date: Thu, 22 Feb 2024 12:27:38 GMT
- ステータス: 処理完了
- システム内更新日: 2024-02-23 15:11:37.795471
- Title: Imbalanced Data Clustering using Equilibrium K-Means
- Title(参考訳): 平衡K平均を用いた不均衡データクラスタリング
- Authors: Yudong He
- Abstract要約: 平衡 K-平均 (EKM) は、単純な K-平均型アルゴリズムである。
EKMは、センチロイドの群集傾向を減少させることにより、不均衡なデータのクラスタリング結果を大幅に改善する。
- 参考スコア(独自算出の注目度): 1.0878040851638
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Imbalanced data, characterized by an unequal distribution of data points
across different clusters, poses a challenge for traditional hard and fuzzy
clustering algorithms, such as hard K-means (HKM, or Lloyd's algorithm) and
fuzzy K-means (FKM, or Bezdek's algorithm). This paper introduces equilibrium
K-means (EKM), a novel and simple K-means-type algorithm that alternates
between just two steps, yielding significantly improved clustering results for
imbalanced data by reducing the tendency of centroids to crowd together in the
center of large clusters. We also present a unifying perspective for HKM, FKM,
and EKM, showing they are essentially gradient descent algorithms with an
explicit relationship to Newton's method. EKM has the same time and space
complexity as FKM but offers a clearer physical meaning for its membership
definition. We illustrate the performance of EKM on two synthetic and ten real
datasets, comparing it to various clustering algorithms, including HKM, FKM,
maximum-entropy fuzzy clustering, two FKM variations designed for imbalanced
data, and the Gaussian mixture model. The results demonstrate that EKM performs
competitively on balanced data while significantly outperforming other
techniques on imbalanced data. For high-dimensional data clustering, we
demonstrate that a more discriminative representation can be obtained by
mapping high-dimensional data via deep neural networks into a low-dimensional,
EKM-friendly space. Deep clustering with EKM improves clustering accuracy by
35% on an imbalanced dataset derived from MNIST compared to deep clustering
based on HKM.
- Abstract(参考訳): 異なるクラスタにまたがるデータポイントの不均等分布を特徴とする不均衡データは、ハードK平均(HKM、ロイドのアルゴリズム)やファジィK平均(FKM、ベズデックのアルゴリズム)といった従来のハードおよびファジィクラスタリングアルゴリズムに挑戦する。
本稿では,2つのステップを交互に交互に行う新しいK-means型アルゴリズムである平衡K-means(EKM)を導入し,大クラスタの中心に集束するセントロイドの傾向を減少させることにより,不均衡なデータに対するクラスタリング結果を大幅に改善する。
また,hkm,fkm,ekmの統一的な視点を示し,それらはニュートン法と明示的な関係を持つ勾配降下アルゴリズムであることを示した。
EKMはFKMと同じ時間と空間の複雑さを持つが、メンバーシップの定義に対してより明確な物理的意味を提供する。
HKM, FKM, 最大エントロピーファジィクラスタリング, 不均衡データ用に設計された2つのFKM変種, ガウス混合モデルなど, 様々なクラスタリングアルゴリズムと比較して, 合成データと10個の実データに対するEKMの性能について述べる。
その結果、EKMはバランスの取れたデータに対して競争力を発揮しつつ、不均衡なデータでは他の手法よりも優れていた。
高次元データクラスタリングのために,深層ニューラルネットワークによる高次元データを低次元のekmフレンドリーな空間にマッピングすることで,より識別的な表現が得られることを示す。
EKMによるディープクラスタリングは、HKMに基づくディープクラスタリングと比較して、MNISTから派生した不均衡データセットのクラスタリング精度を35%向上させる。
関連論文リスト
- K-Means Clustering With Incomplete Data with the Use of Mahalanobis Distances [0.0]
我々は従来のユークリッド距離の代わりにマハラノビス距離を組み込む統一K平均アルゴリズムを開発した。
我々のアルゴリズムはスタンドアローンの計算とK平均の両方を一貫して上回ることを示す。
これらの結果は、IRISデータセットと楕円型クラスタでランダムに生成されたデータの両方にわたって保持される。
論文 参考訳(メタデータ) (2024-10-31T00:05:09Z) - Self-Supervised Graph Embedding Clustering [70.36328717683297]
K-means 1-step dimensionality reduction clustering method は,クラスタリングタスクにおける次元性の呪いに対処する上で,いくつかの進歩をもたらした。
本稿では,K-meansに多様体学習を統合する統一フレームワークを提案する。
論文 参考訳(メタデータ) (2024-09-24T08:59:51Z) - Fuzzy K-Means Clustering without Cluster Centroids [21.256564324236333]
ファジィK平均クラスタリングは教師なしデータ分析において重要な手法である。
本稿では,クラスタセントロイドへの依存を完全に排除する,ファジィテクストK-Meansクラスタリングアルゴリズムを提案する。
論文 参考訳(メタデータ) (2024-04-07T12:25:03Z) - How does promoting the minority fraction affect generalization? A theoretical study of the one-hidden-layer neural network on group imbalance [64.1656365676171]
グループ不均衡は経験的リスク最小化において既知の問題である。
本稿では,個々の集団がサンプルの複雑さ,収束率,平均および群レベルの試験性能に与える影響を定量化する。
論文 参考訳(メタデータ) (2024-03-12T04:38:05Z) - A Hybrid SOM and K-means Model for Time Series Energy Consumption
Clustering [0.0]
本稿では、自己組織化マップとK平均クラスタリングという2つの強力な手法を統合することにより、毎月のエネルギー消費パターンを効果的にクラスタリングする新しい手法を提案する。
本研究の主な焦点は、ロンドンにおけるスマートメーターの時系列エネルギー消費データの選択である。
論文 参考訳(メタデータ) (2023-11-25T16:55:19Z) - Rethinking k-means from manifold learning perspective [122.38667613245151]
平均推定なしで直接データのクラスタを検出する新しいクラスタリングアルゴリズムを提案する。
具体的には,バタワースフィルタを用いてデータ点間の距離行列を構成する。
異なる視点に埋め込まれた相補的な情報をうまく活用するために、テンソルのSchatten p-norm正規化を利用する。
論文 参考訳(メタデータ) (2023-05-12T03:01:41Z) - How to Use K-means for Big Data Clustering? [2.1165011830664677]
K-meansはEuclidean Minimum Sum-of-Squares Clustering (MSSC)モデルの下で最もシンプルで広く使われているアルゴリズムである。
ビッグデータクラスタリングにK-means++アルゴリズムとK-means++アルゴリズムを用いる並列方式を提案する。
論文 参考訳(メタデータ) (2022-04-14T08:18:01Z) - Meta Clustering Learning for Large-scale Unsupervised Person
Re-identification [124.54749810371986]
メタクラスタリング学習(MCL)と呼ばれる「大規模タスクのための小さなデータ」パラダイムを提案する。
MCLは、第1フェーズのトレーニングのためにコンピューティングを節約するためにクラスタリングを介して、未ラベルデータのサブセットを擬似ラベル付けするのみである。
提案手法は計算コストを大幅に削減すると同時に,従来よりも優れた性能を実現している。
論文 参考訳(メタデータ) (2021-11-19T04:10:18Z) - Robust Trimmed k-means [70.88503833248159]
本稿では,外乱点とクラスタポイントを同時に識別するRobust Trimmed k-means (RTKM)を提案する。
RTKMは他の方法と競合することを示す。
論文 参考訳(メタデータ) (2021-08-16T15:49:40Z) - Decorrelated Clustering with Data Selection Bias [55.91842043124102]
本稿では,データ選択バイアスを伴うクラスタリングのためのデコリレーション正規化K-Meansアルゴリズム(DCKM)を提案する。
DCKMアルゴリズムは,選択バイアスによって生じる予期せぬ特徴相関を除去する必要があることを示す。
論文 参考訳(メタデータ) (2020-06-29T08:55:50Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。