論文の概要: Imbalanced Data Clustering using Equilibrium K-Means
- arxiv url: http://arxiv.org/abs/2402.14490v1
- Date: Thu, 22 Feb 2024 12:27:38 GMT
- ステータス: 処理完了
- システム内更新日: 2024-02-23 15:11:37.795471
- Title: Imbalanced Data Clustering using Equilibrium K-Means
- Title(参考訳): 平衡K平均を用いた不均衡データクラスタリング
- Authors: Yudong He
- Abstract要約: 平衡 K-平均 (EKM) は、単純な K-平均型アルゴリズムである。
EKMは、センチロイドの群集傾向を減少させることにより、不均衡なデータのクラスタリング結果を大幅に改善する。
- 参考スコア(独自算出の注目度): 1.0878040851638
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Imbalanced data, characterized by an unequal distribution of data points
across different clusters, poses a challenge for traditional hard and fuzzy
clustering algorithms, such as hard K-means (HKM, or Lloyd's algorithm) and
fuzzy K-means (FKM, or Bezdek's algorithm). This paper introduces equilibrium
K-means (EKM), a novel and simple K-means-type algorithm that alternates
between just two steps, yielding significantly improved clustering results for
imbalanced data by reducing the tendency of centroids to crowd together in the
center of large clusters. We also present a unifying perspective for HKM, FKM,
and EKM, showing they are essentially gradient descent algorithms with an
explicit relationship to Newton's method. EKM has the same time and space
complexity as FKM but offers a clearer physical meaning for its membership
definition. We illustrate the performance of EKM on two synthetic and ten real
datasets, comparing it to various clustering algorithms, including HKM, FKM,
maximum-entropy fuzzy clustering, two FKM variations designed for imbalanced
data, and the Gaussian mixture model. The results demonstrate that EKM performs
competitively on balanced data while significantly outperforming other
techniques on imbalanced data. For high-dimensional data clustering, we
demonstrate that a more discriminative representation can be obtained by
mapping high-dimensional data via deep neural networks into a low-dimensional,
EKM-friendly space. Deep clustering with EKM improves clustering accuracy by
35% on an imbalanced dataset derived from MNIST compared to deep clustering
based on HKM.
- Abstract(参考訳): 異なるクラスタにまたがるデータポイントの不均等分布を特徴とする不均衡データは、ハードK平均(HKM、ロイドのアルゴリズム)やファジィK平均(FKM、ベズデックのアルゴリズム)といった従来のハードおよびファジィクラスタリングアルゴリズムに挑戦する。
本稿では,2つのステップを交互に交互に行う新しいK-means型アルゴリズムである平衡K-means(EKM)を導入し,大クラスタの中心に集束するセントロイドの傾向を減少させることにより,不均衡なデータに対するクラスタリング結果を大幅に改善する。
また,hkm,fkm,ekmの統一的な視点を示し,それらはニュートン法と明示的な関係を持つ勾配降下アルゴリズムであることを示した。
EKMはFKMと同じ時間と空間の複雑さを持つが、メンバーシップの定義に対してより明確な物理的意味を提供する。
HKM, FKM, 最大エントロピーファジィクラスタリング, 不均衡データ用に設計された2つのFKM変種, ガウス混合モデルなど, 様々なクラスタリングアルゴリズムと比較して, 合成データと10個の実データに対するEKMの性能について述べる。
その結果、EKMはバランスの取れたデータに対して競争力を発揮しつつ、不均衡なデータでは他の手法よりも優れていた。
高次元データクラスタリングのために,深層ニューラルネットワークによる高次元データを低次元のekmフレンドリーな空間にマッピングすることで,より識別的な表現が得られることを示す。
EKMによるディープクラスタリングは、HKMに基づくディープクラスタリングと比較して、MNISTから派生した不均衡データセットのクラスタリング精度を35%向上させる。
関連論文リスト
- Rethinking k-means from manifold learning perspective [122.38667613245151]
平均推定なしで直接データのクラスタを検出する新しいクラスタリングアルゴリズムを提案する。
具体的には,バタワースフィルタを用いてデータ点間の距離行列を構成する。
異なる視点に埋め込まれた相補的な情報をうまく活用するために、テンソルのSchatten p-norm正規化を利用する。
論文 参考訳(メタデータ) (2023-05-12T03:01:41Z) - Multi-View Clustering via Semi-non-negative Tensor Factorization [120.87318230985653]
半負のテンソル因子分解(Semi-NTF)に基づく新しいマルチビュークラスタリングを開発する。
本モデルは、ビュー間の関係を直接考慮し、ビュー間の補完情報を利用する。
さらに,提案手法の最適化アルゴリズムを提案し,そのアルゴリズムが常に定常KKT点に収束することを数学的に証明する。
論文 参考訳(メタデータ) (2023-03-29T14:54:19Z) - Hybrid Fuzzy-Crisp Clustering Algorithm: Theory and Experiments [0.0]
本稿では,対象関数の線形項と2次項を組み合わせたファジィクロップクラスタリングアルゴリズムを提案する。
このアルゴリズムでは、クラスタへのデータポイントのメンバシップが、クラスタセンタから十分に離れていれば、自動的に正確にゼロに設定される。
提案アルゴリズムは、不均衡なデータセットの従来の手法よりも優れており、よりバランスの取れたデータセットと競合することができる。
論文 参考訳(メタデータ) (2023-03-25T05:27:26Z) - Discriminative Entropy Clustering and its Relation to K-means and SVM [12.290373155542335]
教師なしエントロピーに基づく損失に基づく最近の自己ラベル手法は、ディープクラスタリングにおける技術の現状を表している。
SVMベースのクラスタリングと類似性を示し、明示的なマージンとエントロピークラスタリングをリンクできるようにします。
我々の新しい損失はこの問題に対処し、多くの標準ベンチマークにおける技術状況を改善する新しいEMアルゴリズムに繋がる。
論文 参考訳(メタデータ) (2023-01-26T20:35:30Z) - Data-heterogeneity-aware Mixing for Decentralized Learning [63.83913592085953]
グラフの混合重みとノード間のデータ不均一性の関係に収束の依存性を特徴付ける。
グラフが現在の勾配を混合する能力を定量化する計量法を提案する。
そこで本研究では,パラメータを周期的かつ効率的に最適化する手法を提案する。
論文 参考訳(メタデータ) (2022-04-13T15:54:35Z) - Riemannian classification of EEG signals with missing values [67.90148548467762]
本稿では脳波の分類に欠落したデータを扱うための2つの方法を提案する。
第1のアプローチでは、インプットされたデータと$k$-nearestの隣人アルゴリズムとの共分散を推定し、第2のアプローチでは、期待最大化アルゴリズム内で観測データの可能性を活用することにより、観測データに依存する。
その結果, 提案手法は観測データに基づく分類よりも優れており, 欠落したデータ比が増大しても高い精度を維持することができることがわかった。
論文 参考訳(メタデータ) (2021-10-19T14:24:50Z) - Robust Trimmed k-means [70.88503833248159]
本稿では,外乱点とクラスタポイントを同時に識別するRobust Trimmed k-means (RTKM)を提案する。
RTKMは他の方法と競合することを示す。
論文 参考訳(メタデータ) (2021-08-16T15:49:40Z) - A Multi-disciplinary Ensemble Algorithm for Clustering Heterogeneous
Datasets [0.76146285961466]
本稿では,社会階級ランキングとメタヒューリスティックアルゴリズムに基づく進化的クラスタリングアルゴリズム(ECAStar)を提案する。
ECAStarは、再共生進化演算子、レヴィ飛行最適化、いくつかの統計技術と統合されている。
従来の5つのアプローチに対してECAStarを評価する実験を行った。
論文 参考訳(メタデータ) (2021-01-01T07:20:50Z) - Graph Based Multi-layer K-means++ (G-MLKM) for Sensory Pattern Analysis
in Constrained Spaces [0.755972004983746]
我々は、グラフベースのマルチレイヤk-means++(G-MLKM)という、教師なしの機械学習アルゴリズムの開発に注力する。
G-MLKMは統計確率に基づく従来のデータターゲットアソシエーション方式を採用する代わりに、データクラスタリングによってこの問題を解決する。
論文 参考訳(メタデータ) (2020-09-21T14:52:41Z) - LSD-C: Linearly Separable Deep Clusters [145.89790963544314]
ラベルなしデータセットのクラスタを識別する新しい手法であるLSD-Cを提案する。
本手法は,最近の半教師付き学習の実践からインスピレーションを得て,クラスタリングアルゴリズムと自己教師付き事前学習と強力なデータ拡張を組み合わせることを提案する。
CIFAR 10/100, STL 10, MNIST, および文書分類データセットReuters 10Kなど, 一般的な公開画像ベンチマークにおいて, 当社のアプローチが競合より大幅に優れていたことを示す。
論文 参考訳(メタデータ) (2020-06-17T17:58:10Z) - Improving The Performance Of The K-means Algorithm [2.28438857884398]
私の論文では、クラスタリング結果の質を概ね保ちながら、IKMを高速化する2つのアルゴリズムを提案している。
最初のアルゴリズムはDivisive K-meansと呼ばれ、クラスタの分割プロセスを高速化することでIKMの速度を改善する。
2つ目のアルゴリズムはPar2PK-means(Par2PK-means)と呼ばれ、Two-Phase K-meansモデルを用いてIKMを並列化する。
論文 参考訳(メタデータ) (2020-05-10T15:09:44Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。