論文の概要: CADM: Cluster-customized Adaptive Distance Metric for Categorical Data Clustering
- arxiv url: http://arxiv.org/abs/2511.05826v1
- Date: Sat, 08 Nov 2025 03:24:22 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-11-11 21:18:44.603778
- Title: CADM: Cluster-customized Adaptive Distance Metric for Categorical Data Clustering
- Title(参考訳): CADM:カテゴリデータクラスタリングのためのクラスタカストマイズされた適応距離メトリック
- Authors: Taixi Chen, Yiu-ming Cheung, Yiqun Zhang,
- Abstract要約: 分類データ間の距離を直接計算できないため、分類データのクラスタリングには適切な距離メートル法が不可欠である。
本稿では,クラスタ内の属性の異なる分布に基づいて距離を競合的に更新できる分類データクラスタリングのためのクラスタカストマイズド距離メトリックを提案する。
- 参考スコア(独自算出の注目度): 54.20010572648918
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: An appropriate distance metric is crucial for categorical data clustering, as the distance between categorical data cannot be directly calculated. However, the distances between attribute values usually vary in different clusters induced by their different distributions, which has not been taken into account, thus leading to unreasonable distance measurement. Therefore, we propose a cluster-customized distance metric for categorical data clustering, which can competitively update distances based on different distributions of attributes in each cluster. In addition, we extend the proposed distance metric to the mixed data that contains both numerical and categorical attributes. Experiments demonstrate the efficacy of the proposed method, i.e., achieving an average ranking of around first in fourteen datasets. The source code is available at https://anonymous.4open.science/r/CADM-47D8
- Abstract(参考訳): 分類データ間の距離を直接計算できないため、分類データのクラスタリングには適切な距離メートル法が不可欠である。
しかし、属性値間の距離は通常、異なる分布によって誘導される異なるクラスタで変化し、考慮されていないため、不合理な距離測定に繋がる。
そこで本研究では,クラスタ内の属性の異なる分布に基づいて,クラスタ間の距離を競合的に更新する,分類データクラスタリングのためのクラスタ分類距離メトリックを提案する。
さらに,提案手法を数値属性と分類属性の両方を含む混合データに拡張する。
実験では,提案手法の有効性,すなわち14データセットの平均ランクを約1位とした。
ソースコードはhttps://anonymous.4open.science/r/CADM-47D8で公開されている。
関連論文リスト
- Categorical Data Clustering via Value Order Estimated Distance Metric Learning [53.28598689867732]
本稿では,分類属性を直感的に表現する新しい順序距離計量学習手法を提案する。
新しい共同学習パラダイムが開発され、クラスタリングとオーダー距離メートル法学習の代替となる。
提案手法は分類および混合データセットのクラスタリング精度に優れる。
論文 参考訳(メタデータ) (2024-11-19T08:23:25Z) - Mixed-type Distance Shrinkage and Selection for Clustering via Kernel Metric Learning [0.0]
我々は、混合カーネルを用いて異種性を測定するKDSUMと呼ばれる計量を提案する。
我々は、KDSUMが既存の混合型メトリクスから均一な異性度メトリクスへの縮小法であることを実証した。
論文 参考訳(メタデータ) (2023-06-02T19:51:48Z) - Rethinking k-means from manifold learning perspective [122.38667613245151]
平均推定なしで直接データのクラスタを検出する新しいクラスタリングアルゴリズムを提案する。
具体的には,バタワースフィルタを用いてデータ点間の距離行列を構成する。
異なる視点に埋め込まれた相補的な情報をうまく活用するために、テンソルのSchatten p-norm正規化を利用する。
論文 参考訳(メタデータ) (2023-05-12T03:01:41Z) - Anomaly Clustering: Grouping Images into Coherent Clusters of Anomaly
Types [60.45942774425782]
我々は異常クラスタリングを導入し、その目標はデータを異常型の一貫性のあるクラスタにまとめることである。
これは異常検出とは違い、その目標は異常を通常のデータから分割することである。
パッチベースの事前訓練されたディープ埋め込みとオフザシェルフクラスタリング手法を用いた,単純で効果的なクラスタリングフレームワークを提案する。
論文 参考訳(メタデータ) (2021-12-21T23:11:33Z) - Kernel distance measures for time series, random fields and other
structured data [71.61147615789537]
kdiffは、構造化データのインスタンス間の距離を推定するためのカーネルベースの新しい尺度である。
これはインスタンス間の自己類似性と交差類似性の両方を考慮し、距離分布の低い定量値を用いて定義される。
kdiffをクラスタリングと分類問題のための距離尺度として用いた分離性条件について,いくつかの理論的結果が得られた。
論文 参考訳(メタデータ) (2021-09-29T22:54:17Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。