論文の概要: Imbalanced Data Clustering using Equilibrium K-Means
- arxiv url: http://arxiv.org/abs/2402.14490v2
- Date: Thu, 28 Mar 2024 08:36:27 GMT
- ステータス: 処理完了
- システム内更新日: 2024-03-29 20:43:01.303195
- Title: Imbalanced Data Clustering using Equilibrium K-Means
- Title(参考訳): 平衡K平均を用いた不均衡データクラスタリング
- Authors: Yudong He,
- Abstract要約: 平衡K平均(EKM)は不均衡データに対するロバスト性を持つ新しいファジィクラスタリングアルゴリズムである。
EKMは単純で、高速で、FKMと同じ時間と空間の複雑さを持つ。
- 参考スコア(独自算出の注目度): 1.0878040851638
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Traditional centroid-based clustering algorithms, such as hard K-means (HKM, or Lloyd's algorithm) and fuzzy K-means (FKM, or Bezdek's algorithm), display degraded performance when true underlying groups of data have varying sizes (i.e., imbalanced data). This paper introduces equilibrium K-means (EKM), a novel fuzzy clustering algorithm that has the robustness to imbalanced data by preventing centroids from crowding together in the center of large clusters. EKM is simple, alternating between two steps; fast, with the same time and space complexity as FKM; and scalable to large datasets. We evaluate the performance of EKM on two synthetic and ten real datasets, comparing it to other centroid-based algorithms, including HKM, FKM, maximum-entropy fuzzy clustering (MEFC), two FKM variations designed for imbalanced data, and the Gaussian mixture model. The results show that EKM performs competitively on balanced data and significantly outperforms other algorithms on imbalanced data. Deep clustering experiments on the MNIST dataset demonstrate the significance of making representation have an EKM-friendly structure when dealing with imbalanced data; In comparison to deep clustering with HKM, deep clustering with EKM obtains a more discriminative representation and a 35% improvement in clustering accuracy. Additionally, we reformulate HKM, FKM, MEFC, and EKM in a general form of gradient descent, where fuzziness is introduced differently and more simply than in Bezdek's work, and demonstrate how the general form facilitates a uniform study of KM algorithms.
- Abstract(参考訳): ハードK平均(HKM、ロイドのアルゴリズム)やファジィK平均(FKM、ベズデックのアルゴリズム)のような伝統的なセントロイドベースのクラスタリングアルゴリズムは、真の基礎となるデータ群が様々なサイズ(すなわち不均衡なデータ)を持つ場合、劣化した性能を示す。
本稿では,不均衡データに対するロバスト性を有する新しいファジィクラスタリングアルゴリズムである平衡K平均(EKM)を提案する。
EKMは単純で、高速で、FKMと同じ時間と空間の複雑さを持つ。
我々は、HKM、FKM、最大エントロピーファジィクラスタリング(MEFC)、不均衡データ用に設計された2つのFKM変種、ガウス混合モデルなど、他のセントロイドベースのアルゴリズムと比較し、EKMの性能を評価した。
その結果、EKMはバランスの取れたデータで競合的に動作し、不均衡なデータでは他のアルゴリズムよりも大幅に優れていた。
MNISTデータセットの深層クラスタリング実験では、不均衡なデータを扱う場合、表現がEKMフレンドリな構造を持つことの重要性が示されている。
さらに、HKM, FKM, MEFC, EKM を一般勾配降下法で再構成し、ベズデックの手法よりもファジィ性を導入し、一般形式がKMアルゴリズムの一様研究をいかに促進するかを実証する。
関連論文リスト
- Provably Efficient Information-Directed Sampling Algorithms for Multi-Agent Reinforcement Learning [50.92957910121088]
本研究は,情報指向サンプリング(IDS)の原理に基づくマルチエージェント強化学習(MARL)のための新しいアルゴリズムの設計と解析を行う。
エピソディックな2プレーヤゼロサムMGに対して、ナッシュ平衡を学習するための3つのサンプル効率アルゴリズムを提案する。
我々は、Reg-MAIDSをマルチプレイヤー汎用MGに拡張し、ナッシュ平衡または粗相関平衡をサンプル効率良く学習できることを証明する。
論文 参考訳(メタデータ) (2024-04-30T06:48:56Z) - Fuzzy K-Means Clustering without Cluster Centroids [79.19713746387337]
ファジィK平均クラスタリングは教師なしデータ解析において重要な計算手法である。
本稿では,クラスタセントロイドへの依存を完全に排除する,ファジィK平均クラスタリングアルゴリズムを提案する。
論文 参考訳(メタデータ) (2024-04-07T12:25:03Z) - How does promoting the minority fraction affect generalization? A theoretical study of the one-hidden-layer neural network on group imbalance [64.1656365676171]
グループ不均衡は経験的リスク最小化において既知の問題である。
本稿では,個々の集団がサンプルの複雑さ,収束率,平均および群レベルの試験性能に与える影響を定量化する。
論文 参考訳(メタデータ) (2024-03-12T04:38:05Z) - Rethinking k-means from manifold learning perspective [122.38667613245151]
平均推定なしで直接データのクラスタを検出する新しいクラスタリングアルゴリズムを提案する。
具体的には,バタワースフィルタを用いてデータ点間の距離行列を構成する。
異なる視点に埋め込まれた相補的な情報をうまく活用するために、テンソルのSchatten p-norm正規化を利用する。
論文 参考訳(メタデータ) (2023-05-12T03:01:41Z) - Deep Fair Clustering via Maximizing and Minimizing Mutual Information:
Theory, Algorithm and Metric [28.40833362941683]
我々は,深層クラスタリングのための相互情報理論を開発し,FCMIと呼ばれる新しいアルゴリズムを設計する。
FCMIは、深い公正クラスタリング、例えば、コンパクトでバランスの取れた、公平なクラスタ、および情報的特徴によって期待される4つの特徴を達成するように設計されている。
既存の評価指標とは異なり、我々の測定基準はクラスタリングの品質と公平さを個別の方法ではなく全体として測定します。
論文 参考訳(メタデータ) (2022-09-26T03:38:48Z) - Local Sample-weighted Multiple Kernel Clustering with Consensus
Discriminative Graph [73.68184322526338]
マルチカーネルクラスタリング(MKC)は、ベースカーネルの集合から最適な情報融合を実現するためにコミットされる。
本稿では,新しい局所サンプル重み付きマルチカーネルクラスタリングモデルを提案する。
実験により, LSWMKCはより優れた局所多様体表現を有し, 既存のカーネルやグラフベースのクラスタリングアルゴリズムよりも優れていた。
論文 参考訳(メタデータ) (2022-07-05T05:00:38Z) - Robust Trimmed k-means [70.88503833248159]
本稿では,外乱点とクラスタポイントを同時に識別するRobust Trimmed k-means (RTKM)を提案する。
RTKMは他の方法と競合することを示す。
論文 参考訳(メタデータ) (2021-08-16T15:49:40Z) - Graph Based Multi-layer K-means++ (G-MLKM) for Sensory Pattern Analysis
in Constrained Spaces [0.755972004983746]
我々は、グラフベースのマルチレイヤk-means++(G-MLKM)という、教師なしの機械学習アルゴリズムの開発に注力する。
G-MLKMは統計確率に基づく従来のデータターゲットアソシエーション方式を採用する代わりに、データクラスタリングによってこの問題を解決する。
論文 参考訳(メタデータ) (2020-09-21T14:52:41Z) - Modified Possibilistic Fuzzy C-Means Algorithm for Clustering Incomplete
Data Sets [0.0]
PFCM(Possibilistic Fuzzy c-means)アルゴリズムは、クラスタリングのための2つの一般的なアルゴリズム、FCM(Fuzzy c-means)とPCM(Possibilistic c-means)の弱点を扱うために提案されている。
論文 参考訳(メタデータ) (2020-07-09T16:12:11Z) - Improving The Performance Of The K-means Algorithm [2.28438857884398]
私の論文では、クラスタリング結果の質を概ね保ちながら、IKMを高速化する2つのアルゴリズムを提案している。
最初のアルゴリズムはDivisive K-meansと呼ばれ、クラスタの分割プロセスを高速化することでIKMの速度を改善する。
2つ目のアルゴリズムはPar2PK-means(Par2PK-means)と呼ばれ、Two-Phase K-meansモデルを用いてIKMを並列化する。
論文 参考訳(メタデータ) (2020-05-10T15:09:44Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。