論文の概要: Robust Categorical Data Clustering Guided by Multi-Granular Competitive Learning
- arxiv url: http://arxiv.org/abs/2601.16491v1
- Date: Fri, 23 Jan 2026 06:33:08 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-01-26 14:27:27.573374
- Title: Robust Categorical Data Clustering Guided by Multi-Granular Competitive Learning
- Title(参考訳): 多言語競合学習によるロバストなカテゴリデータクラスタリング
- Authors: Shenghong Cai, Yiqun Zhang, Xiaopeng Luo, Yiu-Ming Cheung, Hong Jia, Peng Liu,
- Abstract要約: ネストされた粒状クラスター効果は、カテゴリーデータの暗黙的な離散距離空間で顕著である。
本稿では,潜在的なクラスタが対話的に自分自身をチューニングできるマルチグラニュラ競合学習アルゴリズムを提案する。
提案手法は,マルチグラニュラクラスタのネスト分布の探索に有効であることを示す。
- 参考スコア(独自算出の注目度): 47.32771052588132
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Data set composed of categorical features is very common in big data analysis tasks. Since categorical features are usually with a limited number of qualitative possible values, the nested granular cluster effect is prevalent in the implicit discrete distance space of categorical data. That is, data objects frequently overlap in space or subspace to form small compact clusters, and similar small clusters often form larger clusters. However, the distance space cannot be well-defined like the Euclidean distance due to the qualitative categorical data values, which brings great challenges to the cluster analysis of categorical data. In view of this, we design a Multi-Granular Competitive Penalization Learning (MGCPL) algorithm to allow potential clusters to interactively tune themselves and converge in stages with different numbers of naturally compact clusters. To leverage MGCPL, we also propose a Cluster Aggregation strategy based on MGCPL Encoding (CAME) to first encode the data objects according to the learned multi-granular distributions, and then perform final clustering on the embeddings. It turns out that the proposed MGCPL-guided Categorical Data Clustering (MCDC) approach is competent in automatically exploring the nested distribution of multi-granular clusters and highly robust to categorical data sets from various domains. Benefiting from its linear time complexity, MCDC is scalable to large-scale data sets and promising in pre-partitioning data sets or compute nodes for boosting distributed computing. Extensive experiments with statistical evidence demonstrate its superiority compared to state-of-the-art counterparts on various real public data sets.
- Abstract(参考訳): 分類的特徴からなるデータセットは、ビッグデータ分析タスクで非常に一般的である。
分類学的特徴は通常、定性的な可能な値の数が限られているため、ネストされた粒状クラスター効果は分類データの暗黙的な離散距離空間で顕著である。
すなわち、データオブジェクトはスペースやサブスペースに重複して小さなクラスタを形成し、同様の小さなクラスタは大きなクラスタを形成することが多い。
しかし、その距離空間は定性的カテゴリーデータ値によってユークリッド距離のように明確に定義できないため、分類データのクラスタ解析には大きな課題が生じる。
そこで我々は,MGCPL(Multi-Granular Competitive Penalization Learning)アルゴリズムを設計した。
また,MGCPL を利用したクラスタアグリゲーション戦略を提案し,学習したマルチグラニュラー分布に従ってまずデータオブジェクトを符号化し,埋め込み上で最終的なクラスタリングを行う。
提案したMGCPL誘導Categorical Data Clustering (MCDC) アプローチは,マルチグラニュラクラスタのネスト分布を自動探索し,さまざまなドメインのカテゴリデータセットに対して極めて堅牢であることがわかった。
MCDCはその線形時間の複雑さから恩恵を受けており、大規模データセットにスケーラブルであり、分散コンピューティングを増強するための事前分割データセットや計算ノードで有望である。
統計的証拠を用いた大規模な実験は、様々な実際の公開データセットの最先端のものと比べ、その優位性を示している。
関連論文リスト
- ESMC: MLLM-Based Embedding Selection for Explainable Multiple Clustering [79.69917150582633]
MLLM(Multi-modal large language model)は、ユーザ主導のクラスタリングを実現するために利用することができる。
本手法はまず,MLLMのテキストトークンの隠蔽状態が対応する特徴と強く関連していることを明らかにする。
また、擬似ラベル学習を付加した軽量クラスタリングヘッドを採用し、クラスタリング精度を大幅に向上させた。
論文 参考訳(メタデータ) (2025-11-30T04:36:51Z) - Depth-Based Local Center Clustering: A Framework for Handling Different Clustering Scenarios [46.164361878412656]
クラスター分析は多くの科学・工学分野において重要な役割を担っている。
過去数十年にわたって提案されてきたクラスタリングメソッドにもかかわらず、それぞれのメソッドは通常、特定のシナリオのために設計されている。
本稿では,深度に基づくクラスタリング(DLCC)を提案する。
DLCCはデータのサブセットに基づくデータ深度のローカルバージョンを利用する
論文 参考訳(メタデータ) (2025-05-14T16:08:11Z) - Village-Net Clustering: A Rapid approach to Non-linear Unsupervised Clustering of High-Dimensional Data [0.0]
教師なしクラスタリングアルゴリズム「Village-Net」を開発した。
まず、K-Meansクラスタリングを利用して、データセットを別個のサブセットに分割する。
我々は,既存の実世界のデータセットに対して,その競合性能を示すために,既知の地下構造ラベルを用いた広範なベンチマークを行う。
論文 参考訳(メタデータ) (2025-01-16T06:56:43Z) - Self-Supervised Graph Embedding Clustering [70.36328717683297]
K-means 1-step dimensionality reduction clustering method は,クラスタリングタスクにおける次元性の呪いに対処する上で,いくつかの進歩をもたらした。
本稿では,K-meansに多様体学習を統合する統一フレームワークを提案する。
論文 参考訳(メタデータ) (2024-09-24T08:59:51Z) - Deep Clustering: A Comprehensive Survey [53.387957674512585]
クラスタリング分析は、機械学習とデータマイニングにおいて必須の役割を果たす。
ディープ・クラスタリングは、ディープ・ニューラルネットワークを使ってクラスタリングフレンドリーな表現を学習することができるが、幅広いクラスタリングタスクに広く適用されている。
ディープクラスタリングに関する既存の調査は、主にシングルビューフィールドとネットワークアーキテクチャに焦点を当てており、クラスタリングの複雑なアプリケーションシナリオを無視している。
論文 参考訳(メタデータ) (2022-10-09T02:31:32Z) - Enhancing cluster analysis via topological manifold learning [0.3823356975862006]
クラスタ化前にデータセットのトポロジ構造を推定することで,クラスタ検出を大幅に向上させることができることを示す。
位相構造を推定するための多様体学習法UMAPと密度に基づくクラスタリング法DBSCANを組み合わせた。
論文 参考訳(メタデータ) (2022-07-01T15:53:39Z) - DRBM-ClustNet: A Deep Restricted Boltzmann-Kohonen Architecture for Data
Clustering [0.0]
DRBM-ClustNetと呼ばれるデータクラスタリングのためのベイジアンDeep Restricted Boltzmann-Kohonenアーキテクチャを提案する。
ラベルなしデータの処理は、非線形分離可能なデータセットの効率的なクラスタリングのために、3段階に分けて行われる。
このフレームワークはクラスタリングの精度に基づいて評価され、他の最先端クラスタリング手法と比較してランク付けされる。
論文 参考訳(メタデータ) (2022-05-13T15:12:18Z) - Very Compact Clusters with Structural Regularization via Similarity and
Connectivity [3.779514860341336]
本稿では,汎用データセットのためのエンドツーエンドのディープクラスタリングアルゴリズムであるVery Compact Clusters (VCC)を提案する。
提案手法は,最先端のクラスタリング手法よりも優れたクラスタリング性能を実現する。
論文 参考訳(メタデータ) (2021-06-09T23:22:03Z) - Scalable Hierarchical Agglomerative Clustering [65.66407726145619]
既存のスケーラブルな階層的クラスタリング手法は、スピードの質を犠牲にする。
我々は、品質を犠牲にせず、数十億のデータポイントまでスケールする、スケーラブルで集約的な階層的クラスタリング法を提案する。
論文 参考訳(メタデータ) (2020-10-22T15:58:35Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。