論文の概要: Categorical Data Clustering via Value Order Estimated Distance Metric Learning
- arxiv url: http://arxiv.org/abs/2411.15189v2
- Date: Sun, 16 Feb 2025 12:03:08 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-02-18 14:07:40.421083
- Title: Categorical Data Clustering via Value Order Estimated Distance Metric Learning
- Title(参考訳): 距離距離距離学習によるカテゴリーデータクラスタリング
- Authors: Yiqun Zhang, Mingjie Zhao, Hong Jia, Yang Lu, Mengke Li, Yiu-ming Cheung,
- Abstract要約: 本稿では,属性値間の順序関係がクラスタリング精度の決定的要因であることを示す。
本稿では,クラスタと注文の協調学習を可能にする新しい学習パラダイムを提案する。
このアルゴリズムは収束保証によりより優れたクラスタリング精度を実現する。
- 参考スコア(独自算出の注目度): 31.851890008893847
- License:
- Abstract: Categorical data composed of qualitative valued attributes are ubiquitous in machine learning tasks. Due to the lack of well-defined metric space, categorical data distributions are difficult to be intuitively understood. Clustering is a popular data analysis technique suitable for data distribution understanding. However, the success of clustering often relies on reasonable distance metrics, which happens to be what categorical data naturally lack. This paper therefore introduces a new finding that the order relation among attribute values is the decisive factor in clustering accuracy, and is also the key to understanding categorical data clusters, because the essence of clustering is to order the clusters in terms of their admission to samples. To obtain the orders, we propose a new learning paradigm that allows joint learning of clusters and the orders. It alternatively partitions the data into clusters based on the distance metric built upon the orders and estimates the most likely orders according to the clusters. The algorithm achieves superior clustering accuracy with a convergence guarantee, and the learned orders facilitate the understanding of the non-intuitive cluster distribution of categorical data. Extensive experiments with ablation studies, statistical evidence, and case studies have validated the new insight into the importance of value order and the method proposition. The source code is temporarily opened in https://anonymous.4open.science/r/OCL-demo.
- Abstract(参考訳): 定性的価値属性からなるカテゴリデータは、機械学習タスクにおいてユビキタスである。
適切に定義された距離空間が欠如しているため、分類データの分布は直観的に理解することが難しい。
クラスタリングは、データ分散理解に適した一般的なデータ分析技術である。
しかし、クラスタリングの成功は、しばしば合理的な距離のメトリクスに依存します。
そこで本研究では,属性値間の順序関係がクラスタリングの精度の決定的要因であり,クラスタリングの本質は,クラスタリングがサンプルへの入力を順序付けすることにあるため,分類データクラスタを理解する上でも重要な要素であることを示す。
そこで本研究では,クラスタと注文の協調学習を可能にする新しい学習パラダイムを提案する。
あるいは、注文に基づいて構築された距離メトリックに基づいてデータをクラスタに分割し、クラスタに応じて最も可能性の高い注文を見積もる。
アルゴリズムは収束保証によりより優れたクラスタリング精度を実現し、学習順序はカテゴリデータの非直観的クラスタ分布の理解を容易にする。
アブレーション研究、統計的証拠、ケーススタディによる大規模な実験は、価値秩序の重要性と方法の提案に関する新たな洞察を検証した。
ソースコードはhttps://anonymous.4open.science/r/OCL-demoで一時的に公開されている。
関連論文リスト
- Personalized Clustering via Targeted Representation Learning [12.685373069492448]
クラスタリングは伝統的に、ラベルのないデータ内の自然なグループ構造を明らかにすることを目的としています。
ターゲット表現学習を明示的に行うパーソナライズされたクラスタリング手法を提案する。
論文 参考訳(メタデータ) (2024-12-18T10:28:51Z) - ABCDE: Application-Based Cluster Diff Evals [49.1574468325115]
それは実用性を目指しており、アイテムはアプリケーション固有の重要な値を持つことができ、クラスタリングがどちらが優れているかを判断するときに人間の判断を使うのは粗悪であり、アイテムの任意のスライスのためのメトリクスを報告できる。
クラスタリング品質の差分を測定するアプローチは、高価な地平を前もって構築し、それに関して各クラスタリングを評価する代わりに、ABCDEはクラスタリング間の実際の差分に基づいて、判定のための質問をサンプリングする。
論文 参考訳(メタデータ) (2024-07-31T08:29:35Z) - Reinforcement Graph Clustering with Unknown Cluster Number [91.4861135742095]
本稿では,Reinforcement Graph Clusteringと呼ばれる新しいディープグラフクラスタリング手法を提案する。
提案手法では,クラスタ数決定と教師なし表現学習を統一的なフレームワークに統合する。
フィードバック動作を行うために、クラスタリング指向の報酬関数を提案し、同一クラスタの凝集を高め、異なるクラスタを分離する。
論文 参考訳(メタデータ) (2023-08-13T18:12:28Z) - Using Decision Trees for Interpretable Supervised Clustering [0.0]
教師付きクラスタリングは、高い確率密度でラベル付きデータのクラスタを形成することを目的としている。
特に、特定のクラスのデータのクラスタを見つけ、包括的なルールのセットでクラスタを記述することに興味があります。
論文 参考訳(メタデータ) (2023-07-16T17:12:45Z) - Hard Regularization to Prevent Deep Online Clustering Collapse without
Data Augmentation [65.268245109828]
オンラインディープクラスタリング(オンラインディープクラスタリング)とは、機能抽出ネットワークとクラスタリングモデルを組み合わせて、クラスタラベルを処理された各新しいデータポイントまたはバッチに割り当てることである。
オフラインメソッドよりも高速で汎用性が高いが、オンラインクラスタリングは、エンコーダがすべての入力を同じポイントにマッピングし、すべてを単一のクラスタに配置する、崩壊したソリューションに容易に到達することができる。
本稿では,データ拡張を必要としない手法を提案する。
論文 参考訳(メタデータ) (2023-03-29T08:23:26Z) - Clustering Optimisation Method for Highly Connected Biological Data [0.0]
接続クラスタリング評価のための単純な指標が,生物データの最適セグメンテーションにつながることを示す。
この作業の斬新さは、混雑したデータをクラスタリングするための単純な最適化方法の作成にある。
論文 参考訳(メタデータ) (2022-08-08T17:33:32Z) - Seeking the Truth Beyond the Data. An Unsupervised Machine Learning
Approach [0.0]
クラスタリングは、ラベルのない要素/オブジェクトがグループ化される、教師なしの機械学習方法論である。
この記事では、最も広く使われているクラスタリング手法について詳しく説明する。
3つのデータセットに基づいて、これらのアルゴリズムのクラスタリング効率の比較を強調している。
論文 参考訳(メタデータ) (2022-07-14T14:22:36Z) - You Never Cluster Alone [150.94921340034688]
我々は、主流のコントラスト学習パラダイムをクラスタレベルのスキームに拡張し、同じクラスタに属するすべてのデータが統一された表現に寄与する。
分類変数の集合をクラスタ化代入信頼度として定義し、インスタンスレベルの学習トラックとクラスタレベルの学習トラックを関連付ける。
代入変数を再パラメータ化することで、TCCはエンドツーエンドでトレーニングされる。
論文 参考訳(メタデータ) (2021-06-03T14:59:59Z) - Predictive K-means with local models [0.028675177318965035]
予測クラスタリングは、2つの世界のベストを獲得しようとします。
この手法を用いて2つの新しいアルゴリズムを提案し、予測性能に競争力があることを様々なデータセットで示す。
論文 参考訳(メタデータ) (2020-12-16T10:49:36Z) - Scalable Hierarchical Agglomerative Clustering [65.66407726145619]
既存のスケーラブルな階層的クラスタリング手法は、スピードの質を犠牲にする。
我々は、品質を犠牲にせず、数十億のデータポイントまでスケールする、スケーラブルで集約的な階層的クラスタリング法を提案する。
論文 参考訳(メタデータ) (2020-10-22T15:58:35Z) - Structured Graph Learning for Clustering and Semi-supervised
Classification [74.35376212789132]
データの局所構造とグローバル構造の両方を保存するためのグラフ学習フレームワークを提案する。
本手法は, サンプルの自己表現性を利用して, 局所構造を尊重するために, 大域的構造と適応的隣接アプローチを捉える。
我々のモデルは、ある条件下でのカーネルk平均法とk平均法の組合せと等価である。
論文 参考訳(メタデータ) (2020-08-31T08:41:20Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。