論文の概要: Imbalanced Data Clustering using Equilibrium K-Means
- arxiv url: http://arxiv.org/abs/2402.14490v3
- Date: Thu, 6 Jun 2024 15:51:21 GMT
- ステータス: 処理完了
- システム内更新日: 2024-06-07 21:12:20.189548
- Title: Imbalanced Data Clustering using Equilibrium K-Means
- Title(参考訳): 平衡K平均を用いた不均衡データクラスタリング
- Authors: Yudong He,
- Abstract要約: セントロイドベースのクラスタリングアルゴリズムは、大規模なクラスタに対する学習バイアスに悩まされている。
本稿では,ボルツマン演算子に基づく新たなクラスタリング目的関数を提案する。
提案された新しいアルゴリズムは平衡K平均 (EKM) と呼ばれ、2つのステップ間で交互に行われる。
- 参考スコア(独自算出の注目度): 1.0878040851638
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Centroid-based clustering algorithms, such as hard K-means (HKM) and fuzzy K-means (FKM), have suffered from learning bias towards large clusters. Their centroids tend to be crowded in large clusters, compromising performance when the true underlying data groups vary in size (i.e., imbalanced data). To address this, we propose a new clustering objective function based on the Boltzmann operator, which introduces a novel centroid repulsion mechanism, where data points surrounding the centroids repel other centroids. Larger clusters repel more, effectively mitigating the issue of large cluster learning bias. The proposed new algorithm, called equilibrium K-means (EKM), is simple, alternating between two steps; resource-saving, with the same time and space complexity as FKM; and scalable to large datasets via batch learning. We substantially evaluate the performance of EKM on synthetic and real-world datasets. The results show that EKM performs competitively on balanced data and significantly outperforms benchmark algorithms on imbalanced data. Deep clustering experiments demonstrate that EKM is a better alternative to HKM and FKM on imbalanced data as more discriminative representation can be obtained. Additionally, we reformulate HKM, FKM, and EKM in a general form of gradient descent and demonstrate how this general form facilitates a uniform study of K-means algorithms.
- Abstract(参考訳): ハードK平均(HKM)やファジィK平均(FKM)のようなセントロイドベースのクラスタリングアルゴリズムは、大規模クラスタへのバイアスの学習に悩まされている。
セントロイドは大きなクラスタで混在する傾向があり、真の基盤となるデータ群がサイズ(すなわち不均衡なデータ)によって性能が低下する。
そこで本研究では,ボルツマン演算子に基づく新たなクラスタリング対象関数を提案する。
より大きなクラスタは、より大きなクラスタ学習バイアスの問題を効果的に緩和する。
提案した新しいアルゴリズムは平衡K平均(EKM)と呼ばれ、リソース節約とFKMと同じ時間と空間の複雑さ、バッチ学習による大規模データセットへのスケーラビリティという2つのステップを交互に行う。
合成および実世界のデータセット上でのEKMの性能を定量的に評価した。
その結果、EKMはバランスの取れたデータで競合的に動作し、不均衡なデータでベンチマークアルゴリズムを著しく上回っていることがわかった。
深層クラスタリング実験により、EKMはより差別的な表現が得られるため、不均衡なデータに対するHKMとFKMのより良い代替手段であることが示された。
さらに、HKM、FKM、EKMを勾配降下の一般形式で再構成し、この一般化形式がK平均アルゴリズムの一様研究をいかに促進するかを示す。
関連論文リスト
- K-Means Clustering With Incomplete Data with the Use of Mahalanobis Distances [0.0]
我々は従来のユークリッド距離の代わりにマハラノビス距離を組み込む統一K平均アルゴリズムを開発した。
我々のアルゴリズムはスタンドアローンの計算とK平均の両方を一貫して上回ることを示す。
これらの結果は、IRISデータセットと楕円型クラスタでランダムに生成されたデータの両方にわたって保持される。
論文 参考訳(メタデータ) (2024-10-31T00:05:09Z) - Self-Supervised Graph Embedding Clustering [70.36328717683297]
K-means 1-step dimensionality reduction clustering method は,クラスタリングタスクにおける次元性の呪いに対処する上で,いくつかの進歩をもたらした。
本稿では,K-meansに多様体学習を統合する統一フレームワークを提案する。
論文 参考訳(メタデータ) (2024-09-24T08:59:51Z) - Fuzzy K-Means Clustering without Cluster Centroids [21.256564324236333]
ファジィK平均クラスタリングは教師なしデータ分析において重要な手法である。
本稿では,クラスタセントロイドへの依存を完全に排除する,ファジィテクストK-Meansクラスタリングアルゴリズムを提案する。
論文 参考訳(メタデータ) (2024-04-07T12:25:03Z) - How does promoting the minority fraction affect generalization? A theoretical study of the one-hidden-layer neural network on group imbalance [64.1656365676171]
グループ不均衡は経験的リスク最小化において既知の問題である。
本稿では,個々の集団がサンプルの複雑さ,収束率,平均および群レベルの試験性能に与える影響を定量化する。
論文 参考訳(メタデータ) (2024-03-12T04:38:05Z) - A Hybrid SOM and K-means Model for Time Series Energy Consumption
Clustering [0.0]
本稿では、自己組織化マップとK平均クラスタリングという2つの強力な手法を統合することにより、毎月のエネルギー消費パターンを効果的にクラスタリングする新しい手法を提案する。
本研究の主な焦点は、ロンドンにおけるスマートメーターの時系列エネルギー消費データの選択である。
論文 参考訳(メタデータ) (2023-11-25T16:55:19Z) - Rethinking k-means from manifold learning perspective [122.38667613245151]
平均推定なしで直接データのクラスタを検出する新しいクラスタリングアルゴリズムを提案する。
具体的には,バタワースフィルタを用いてデータ点間の距離行列を構成する。
異なる視点に埋め込まれた相補的な情報をうまく活用するために、テンソルのSchatten p-norm正規化を利用する。
論文 参考訳(メタデータ) (2023-05-12T03:01:41Z) - How to Use K-means for Big Data Clustering? [2.1165011830664677]
K-meansはEuclidean Minimum Sum-of-Squares Clustering (MSSC)モデルの下で最もシンプルで広く使われているアルゴリズムである。
ビッグデータクラスタリングにK-means++アルゴリズムとK-means++アルゴリズムを用いる並列方式を提案する。
論文 参考訳(メタデータ) (2022-04-14T08:18:01Z) - Meta Clustering Learning for Large-scale Unsupervised Person
Re-identification [124.54749810371986]
メタクラスタリング学習(MCL)と呼ばれる「大規模タスクのための小さなデータ」パラダイムを提案する。
MCLは、第1フェーズのトレーニングのためにコンピューティングを節約するためにクラスタリングを介して、未ラベルデータのサブセットを擬似ラベル付けするのみである。
提案手法は計算コストを大幅に削減すると同時に,従来よりも優れた性能を実現している。
論文 参考訳(メタデータ) (2021-11-19T04:10:18Z) - Robust Trimmed k-means [70.88503833248159]
本稿では,外乱点とクラスタポイントを同時に識別するRobust Trimmed k-means (RTKM)を提案する。
RTKMは他の方法と競合することを示す。
論文 参考訳(メタデータ) (2021-08-16T15:49:40Z) - Decorrelated Clustering with Data Selection Bias [55.91842043124102]
本稿では,データ選択バイアスを伴うクラスタリングのためのデコリレーション正規化K-Meansアルゴリズム(DCKM)を提案する。
DCKMアルゴリズムは,選択バイアスによって生じる予期せぬ特徴相関を除去する必要があることを示す。
論文 参考訳(メタデータ) (2020-06-29T08:55:50Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。