論文の概要: Categorical Data Clustering via Value Order Estimated Distance Metric Learning
- arxiv url: http://arxiv.org/abs/2411.15189v4
- Date: Thu, 28 Aug 2025 11:04:55 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-08-29 13:55:30.551083
- Title: Categorical Data Clustering via Value Order Estimated Distance Metric Learning
- Title(参考訳): 距離距離距離学習によるカテゴリーデータクラスタリング
- Authors: Yiqun Zhang, Mingjie Zhao, Hong Jia, Yang Lu, Mengke Li, Yiu-ming Cheung,
- Abstract要約: 本稿では,分類属性を直感的に表現する新しい順序距離計量学習手法を提案する。
新しい共同学習パラダイムが開発され、クラスタリングとオーダー距離メートル法学習の代替となる。
提案手法は分類および混合データセットのクラスタリング精度に優れる。
- 参考スコア(独自算出の注目度): 53.28598689867732
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Clustering is a popular machine learning technique for data mining that can process and analyze datasets to automatically reveal sample distribution patterns. Since the ubiquitous categorical data naturally lack a well-defined metric space such as the Euclidean distance space of numerical data, the distribution of categorical data is usually under-represented, and thus valuable information can be easily twisted in clustering. This paper, therefore, introduces a novel order distance metric learning approach to intuitively represent categorical attribute values by learning their optimal order relationship and quantifying their distance in a line similar to that of the numerical attributes. Since subjectively created qualitative categorical values involve ambiguity and fuzziness, the order distance metric is learned in the context of clustering. Accordingly, a new joint learning paradigm is developed to alternatively perform clustering and order distance metric learning with low time complexity and a guarantee of convergence. Due to the clustering-friendly order learning mechanism and the homogeneous ordinal nature of the order distance and Euclidean distance, the proposed method achieves superior clustering accuracy on categorical and mixed datasets. More importantly, the learned order distance metric greatly reduces the difficulty of understanding and managing the non-intuitive categorical data. Experiments with ablation studies, significance tests, case studies, etc., have validated the efficacy of the proposed method. The source code is available at https://github.com/DAJ0612/OCL_Source_Code.
- Abstract(参考訳): クラスタリングはデータマイニングのための一般的な機械学習技術であり、データセットを処理して分析して、サンプル配布パターンを自動的に明らかにすることができる。
ユビキタスな分類データは、数値データのユークリッド距離空間のような、明確に定義された距離空間を欠いているため、分類データの分布は、通常、非表現であり、したがって、クラスタリングにおいて、貴重な情報が簡単にツイストできる。
そこで本稿では, 最適順序関係を学習し, 数値属性と類似した線で距離を定量化することにより, 直感的にカテゴリー属性値を表す新しい順序距離計量学習手法を提案する。
主観的に生成される定性的カテゴリー値はあいまいさとファジィさを含むため、順序距離計量はクラスタリングの文脈で学習される。
そこで,新たな共同学習パラダイムが開発され,クラスタリングとオーダー距離メトリック学習を低時間複雑化,収束の保証とともに実現した。
クラスタリングに親しみやすい順序学習機構と順序距離とユークリッド距離の均質な順序性のため,本手法は分類と混合データセットにおいてより優れたクラスタリング精度を実現する。
さらに重要なことは、学習順序距離メートル法は非直観的分類データの理解と管理の難しさを大幅に減らすことである。
アブレーション試験, 意義試験, ケーススタディなどの実験により, 提案手法の有効性が検証された。
ソースコードはhttps://github.com/DAJ0612/OCL_Source_Codeで入手できる。
関連論文リスト
- Clustering by Attention: Leveraging Prior Fitted Transformers for Data Partitioning [3.4530027457862005]
メタラーニングに基づく新しいクラスタリング手法を提案する。
我々は,クラスタリングを行うために事前学習したPFN(Predior-Data Fitted Transformer Network)を用いている。
我々の手法は最先端のクラスタリング技術よりも優れていることを示す。
論文 参考訳(メタデータ) (2025-07-27T17:53:19Z) - Personalized Clustering via Targeted Representation Learning [12.685373069492448]
クラスタリングは伝統的に、ラベルのないデータ内の自然なグループ構造を明らかにすることを目的としています。
ターゲット表現学習を明示的に行うパーソナライズされたクラスタリング手法を提案する。
論文 参考訳(メタデータ) (2024-12-18T10:28:51Z) - ABCDE: Application-Based Cluster Diff Evals [49.1574468325115]
それは実用性を目指しており、アイテムはアプリケーション固有の重要な値を持つことができ、クラスタリングがどちらが優れているかを判断するときに人間の判断を使うのは粗悪であり、アイテムの任意のスライスのためのメトリクスを報告できる。
クラスタリング品質の差分を測定するアプローチは、高価な地平を前もって構築し、それに関して各クラスタリングを評価する代わりに、ABCDEはクラスタリング間の実際の差分に基づいて、判定のための質問をサンプリングする。
論文 参考訳(メタデータ) (2024-07-31T08:29:35Z) - Spectral Clustering of Categorical and Mixed-type Data via Extra Graph
Nodes [0.0]
本稿では,数値情報と分類情報の両方をスペクトルクラスタリングアルゴリズムに組み込むための,より自然な方法について検討する。
データの属する可能性のある異なるカテゴリに対応する追加ノードの追加を提案し、それが解釈可能なクラスタリング対象関数に繋がることを示す。
この単純なフレームワークは、分類のみのデータに対する線形時間スペクトルクラスタリングアルゴリズムに繋がることを示す。
論文 参考訳(メタデータ) (2024-03-08T20:49:49Z) - Reinforcement Graph Clustering with Unknown Cluster Number [91.4861135742095]
本稿では,Reinforcement Graph Clusteringと呼ばれる新しいディープグラフクラスタリング手法を提案する。
提案手法では,クラスタ数決定と教師なし表現学習を統一的なフレームワークに統合する。
フィードバック動作を行うために、クラスタリング指向の報酬関数を提案し、同一クラスタの凝集を高め、異なるクラスタを分離する。
論文 参考訳(メタデータ) (2023-08-13T18:12:28Z) - Using Decision Trees for Interpretable Supervised Clustering [0.0]
教師付きクラスタリングは、高い確率密度でラベル付きデータのクラスタを形成することを目的としている。
特に、特定のクラスのデータのクラスタを見つけ、包括的なルールのセットでクラスタを記述することに興味があります。
論文 参考訳(メタデータ) (2023-07-16T17:12:45Z) - A testing-based approach to assess the clusterability of categorical
data [6.7937877930001775]
TestCatは、分析的な$p$-valueで分類データのクラスタ性を評価するためのテストベースのアプローチである。
提案手法をベンチマーク分類データセットに適用することにより,TestCatが数値データに対してそれらの解より優れていることを示す。
論文 参考訳(メタデータ) (2023-07-14T13:50:00Z) - Actively Supervised Clustering for Open Relation Extraction [42.114747195195655]
本稿では,OpenREのためのアクティブなクラスタリングという,新しい設定を提案する。
設定の鍵は、どのインスタンスにラベルを付けるかを選択することである。
本稿では,未知の関係のクラスタを動的に発見する手法を提案する。
論文 参考訳(メタデータ) (2023-06-08T06:55:02Z) - Dynamic Conceptional Contrastive Learning for Generalized Category
Discovery [76.82327473338734]
Generalized category discovery (GCD) は、部分的にラベル付けされたデータを自動でクラスタリングすることを目的としている。
ラベル付きデータには、ラベル付きデータの既知のカテゴリだけでなく、新しいカテゴリのインスタンスも含まれている。
GCDの効果的な方法の1つは、ラベルなしデータの識別表現を学習するために自己教師付き学習を適用することである。
本稿では,クラスタリングの精度を効果的に向上する動的概念コントラスト学習フレームワークを提案する。
論文 参考訳(メタデータ) (2023-03-30T14:04:39Z) - Hard Regularization to Prevent Deep Online Clustering Collapse without
Data Augmentation [65.268245109828]
オンラインディープクラスタリング(オンラインディープクラスタリング)とは、機能抽出ネットワークとクラスタリングモデルを組み合わせて、クラスタラベルを処理された各新しいデータポイントまたはバッチに割り当てることである。
オフラインメソッドよりも高速で汎用性が高いが、オンラインクラスタリングは、エンコーダがすべての入力を同じポイントにマッピングし、すべてを単一のクラスタに配置する、崩壊したソリューションに容易に到達することができる。
本稿では,データ拡張を必要としない手法を提案する。
論文 参考訳(メタデータ) (2023-03-29T08:23:26Z) - Clustering Optimisation Method for Highly Connected Biological Data [0.0]
接続クラスタリング評価のための単純な指標が,生物データの最適セグメンテーションにつながることを示す。
この作業の斬新さは、混雑したデータをクラスタリングするための単純な最適化方法の作成にある。
論文 参考訳(メタデータ) (2022-08-08T17:33:32Z) - Seeking the Truth Beyond the Data. An Unsupervised Machine Learning
Approach [0.0]
クラスタリングは、ラベルのない要素/オブジェクトがグループ化される、教師なしの機械学習方法論である。
この記事では、最も広く使われているクラスタリング手法について詳しく説明する。
3つのデータセットに基づいて、これらのアルゴリズムのクラスタリング効率の比較を強調している。
論文 参考訳(メタデータ) (2022-07-14T14:22:36Z) - You Never Cluster Alone [150.94921340034688]
我々は、主流のコントラスト学習パラダイムをクラスタレベルのスキームに拡張し、同じクラスタに属するすべてのデータが統一された表現に寄与する。
分類変数の集合をクラスタ化代入信頼度として定義し、インスタンスレベルの学習トラックとクラスタレベルの学習トラックを関連付ける。
代入変数を再パラメータ化することで、TCCはエンドツーエンドでトレーニングされる。
論文 参考訳(メタデータ) (2021-06-03T14:59:59Z) - Predictive K-means with local models [0.028675177318965035]
予測クラスタリングは、2つの世界のベストを獲得しようとします。
この手法を用いて2つの新しいアルゴリズムを提案し、予測性能に競争力があることを様々なデータセットで示す。
論文 参考訳(メタデータ) (2020-12-16T10:49:36Z) - Scalable Hierarchical Agglomerative Clustering [65.66407726145619]
既存のスケーラブルな階層的クラスタリング手法は、スピードの質を犠牲にする。
我々は、品質を犠牲にせず、数十億のデータポイントまでスケールする、スケーラブルで集約的な階層的クラスタリング法を提案する。
論文 参考訳(メタデータ) (2020-10-22T15:58:35Z) - Structured Graph Learning for Clustering and Semi-supervised
Classification [74.35376212789132]
データの局所構造とグローバル構造の両方を保存するためのグラフ学習フレームワークを提案する。
本手法は, サンプルの自己表現性を利用して, 局所構造を尊重するために, 大域的構造と適応的隣接アプローチを捉える。
我々のモデルは、ある条件下でのカーネルk平均法とk平均法の組合せと等価である。
論文 参考訳(メタデータ) (2020-08-31T08:41:20Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。