論文の概要: Break the Tie: Learning Cluster-Customized Category Relationships for Categorical Data Clustering
- arxiv url: http://arxiv.org/abs/2511.09049v1
- Date: Thu, 13 Nov 2025 01:28:21 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-11-13 22:34:54.381043
- Title: Break the Tie: Learning Cluster-Customized Category Relationships for Categorical Data Clustering
- Title(参考訳): Break the Tie: カテゴリデータクラスタリングのためのクラスタカスタマイズカテゴリ関係の学習
- Authors: Mingjie Zhao, Zhanpei Huang, Yang Lu, Mengke Li, Yiqun Zhang, Weifeng Su, Yiu-ming Cheung,
- Abstract要約: 定性的な値を持つカテゴリ属性は、実際のデータセットのクラスタ分析においてユビキタスである。
数値属性のユークリッド距離とは異なり、分類属性はそれらの可能な値の明確な関係を欠いている。
本稿では属性カテゴリの固有関係関係を破り、様々なクラスタ分布を柔軟に明らかにするのに適したカスタマイズされた距離メトリクスを学習する。
- 参考スコア(独自算出の注目度): 51.11677202873771
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Categorical attributes with qualitative values are ubiquitous in cluster analysis of real datasets. Unlike the Euclidean distance of numerical attributes, the categorical attributes lack well-defined relationships of their possible values (also called categories interchangeably), which hampers the exploration of compact categorical data clusters. Although most attempts are made for developing appropriate distance metrics, they typically assume a fixed topological relationship between categories when learning distance metrics, which limits their adaptability to varying cluster structures and often leads to suboptimal clustering performance. This paper, therefore, breaks the intrinsic relationship tie of attribute categories and learns customized distance metrics suitable for flexibly and accurately revealing various cluster distributions. As a result, the fitting ability of the clustering algorithm is significantly enhanced, benefiting from the learnable category relationships. Moreover, the learned category relationships are proved to be Euclidean distance metric-compatible, enabling a seamless extension to mixed datasets that include both numerical and categorical attributes. Comparative experiments on 12 real benchmark datasets with significance tests show the superior clustering accuracy of the proposed method with an average ranking of 1.25, which is significantly higher than the 5.21 ranking of the current best-performing method.
- Abstract(参考訳): 定性的な値を持つカテゴリ属性は、実際のデータセットのクラスタ分析においてユビキタスである。
数値的属性のユークリッド距離とは異なり、カテゴリ的属性はそれらの可能な値の明確な関係を欠いており、コンパクトなカテゴリ的データクラスタの探索を妨げている。
ほとんどの試みは適切な距離測定値を開発するためのものであるが、一般的には、距離測定値の学習時にカテゴリ間の固定されたトポロジ的関係を仮定し、それらの適応性を異なるクラスタ構造に制限し、しばしば最適なクラスタリング性能をもたらす。
そこで本研究では,属性カテゴリの固有関係関係を破り,様々なクラスタ分布を柔軟かつ正確に明らかにするために,カスタマイズされた距離メトリクスを学習する。
その結果,クラスタリングアルゴリズムの適合性が著しく向上し,学習可能なカテゴリ関係の恩恵を受けることができた。
さらに、学習されたカテゴリの関係はユークリッド距離のメートル法互換であることが証明され、数値属性と分類属性の両方を含む混合データセットへのシームレスな拡張を可能にした。
12個の実ベンチマークデータセットと有意性試験との比較実験により,提案手法のクラスタリング精度が1.25と,現行のベストパフォーマンス手法の5.21よりも有意に高い結果を得た。
関連論文リスト
- CADM: Cluster-customized Adaptive Distance Metric for Categorical Data Clustering [54.20010572648918]
分類データ間の距離を直接計算できないため、分類データのクラスタリングには適切な距離メートル法が不可欠である。
本稿では,クラスタ内の属性の異なる分布に基づいて距離を競合的に更新できる分類データクラスタリングのためのクラスタカストマイズド距離メトリックを提案する。
論文 参考訳(メタデータ) (2025-11-08T03:24:22Z) - Categorical Data Clustering via Value Order Estimated Distance Metric Learning [53.28598689867732]
本稿では,分類属性を直感的に表現する新しい順序距離計量学習手法を提案する。
新しい共同学習パラダイムが開発され、クラスタリングとオーダー距離メートル法学習の代替となる。
提案手法は分類および混合データセットのクラスタリング精度に優れる。
論文 参考訳(メタデータ) (2024-11-19T08:23:25Z) - Mixed-type Distance Shrinkage and Selection for Clustering via Kernel Metric Learning [0.0]
我々は、混合カーネルを用いて異種性を測定するKDSUMと呼ばれる計量を提案する。
我々は、KDSUMが既存の混合型メトリクスから均一な異性度メトリクスへの縮小法であることを実証した。
論文 参考訳(メタデータ) (2023-06-02T19:51:48Z) - Scalable Hierarchical Agglomerative Clustering [65.66407726145619]
既存のスケーラブルな階層的クラスタリング手法は、スピードの質を犠牲にする。
我々は、品質を犠牲にせず、数十億のデータポイントまでスケールする、スケーラブルで集約的な階層的クラスタリング法を提案する。
論文 参考訳(メタデータ) (2020-10-22T15:58:35Z) - Unsupervised Heterogeneous Coupling Learning for Categorical
Representation [50.1603042640492]
この研究は、結合間の相互作用を解き放ち、結合したカテゴリデータを表現するためのUNTIE(UNsupervised heTerogeneous couplIng lEarning)アプローチを導入する。
UNTIEは、ヘテロジニアスおよび階層的値-オブジェクト結合の教師なし表現学習のために、カーネルk平均目的関数を効率よく最適化する。
UNTIEで学習した表現は、最先端のカテゴリ表現やディープ表現モデルに対して大幅な性能改善を行う。
論文 参考訳(メタデータ) (2020-07-21T11:23:27Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。