論文の概要: Deep Clustering of Tabular Data by Weighted Gaussian Distribution Learning
- arxiv url: http://arxiv.org/abs/2301.00802v3
- Date: Fri, 17 May 2024 06:39:17 GMT
- ステータス: 処理完了
- システム内更新日: 2024-05-20 20:53:07.331922
- Title: Deep Clustering of Tabular Data by Weighted Gaussian Distribution Learning
- Title(参考訳): 重み付きガウス分布学習による語彙データの深部クラスタリング
- Authors: Shourav B. Rabbani, Ivan V. Medri, Manar D. Samad,
- Abstract要約: 本稿では,自動エンコーダ遅延空間(G-CEALS)におけるガウスクラスタ埋め込みという,表型データのための最初のディープクラスタリング手法の1つを開発する。
G-CEALS法は、クラスタリング精度に基づいて平均ランク順を2.9(1.7)と2.8(1.7)とし、16のデータセット上で調整されたRand index(ARI)スコアをそれぞれ示し、9つの最先端クラスタリング法より優れている。
- 参考スコア(独自算出の注目度): 0.0
- License: http://creativecommons.org/licenses/by-sa/4.0/
- Abstract: Deep learning methods are primarily proposed for supervised learning of images or text with limited applications to clustering problems. In contrast, tabular data with heterogeneous features pose unique challenges in representation learning, where deep learning has yet to replace traditional machine learning. This paper addresses these challenges in developing one of the first deep clustering methods for tabular data: Gaussian Cluster Embedding in Autoencoder Latent Space (G-CEALS). G-CEALS is an unsupervised deep clustering framework for learning the parameters of multivariate Gaussian cluster distributions by iteratively updating individual cluster weights. The G-CEALS method presents average rank orderings of 2.9(1.7) and 2.8(1.7) based on clustering accuracy and adjusted Rand index (ARI) scores on sixteen tabular data sets, respectively, and outperforms nine state-of-the-art clustering methods. G-CEALS substantially improves clustering performance compared to traditional K-means and GMM, which are still de facto methods for clustering tabular data. Similar computationally efficient and high-performing deep clustering frameworks are imperative to reap the myriad benefits of deep learning on tabular data over traditional machine learning.
- Abstract(参考訳): 深層学習法は主にクラスタリング問題に限定した画像やテキストの教師あり学習のために提案されている。
対照的に、不均一な特徴を持つ表形式のデータは、ディープラーニングが従来の機械学習に置き換わっていない表現学習において、ユニークな課題を生んでいる。
本稿では,自動エンコーダ遅延空間(G-CEALS)におけるガウスクラスタ埋め込み(Gaussian Cluster Embedding in Autoencoder Latent Space, G-CEALS)という,表型データのための最初のディープクラスタリング手法の開発における課題について述べる。
G-CEALSは、個別のクラスタ重みを反復的に更新することで、多変量ガウスクラスタ分布のパラメータを学習するための、教師なしのディープクラスタリングフレームワークである。
G-CEALS法は、クラスタリング精度に基づいて2.9(1.7)と2.8(1.7)の平均ランク順を示し、16の表付きデータセット上で調整されたRand index (ARI)スコアをそれぞれ調整し、9つの最先端クラスタリング法より優れている。
G-CEALS は従来の K-means や GMM に比べてクラスタリング性能が大幅に向上する。
計算的に効率的でハイパフォーマンスなディープクラスタリングフレームワークは、従来の機械学習よりも、表形式のデータにディープラーニングの無数の利点を享受するために不可欠である。
関連論文リスト
- Reinforcement Graph Clustering with Unknown Cluster Number [91.4861135742095]
本稿では,Reinforcement Graph Clusteringと呼ばれる新しいディープグラフクラスタリング手法を提案する。
提案手法では,クラスタ数決定と教師なし表現学習を統一的なフレームワークに統合する。
フィードバック動作を行うために、クラスタリング指向の報酬関数を提案し、同一クラスタの凝集を高め、異なるクラスタを分離する。
論文 参考訳(メタデータ) (2023-08-13T18:12:28Z) - Hard Regularization to Prevent Deep Online Clustering Collapse without
Data Augmentation [65.268245109828]
オンラインディープクラスタリング(オンラインディープクラスタリング)とは、機能抽出ネットワークとクラスタリングモデルを組み合わせて、クラスタラベルを処理された各新しいデータポイントまたはバッチに割り当てることである。
オフラインメソッドよりも高速で汎用性が高いが、オンラインクラスタリングは、エンコーダがすべての入力を同じポイントにマッピングし、すべてを単一のクラスタに配置する、崩壊したソリューションに容易に到達することができる。
本稿では,データ拡張を必要としない手法を提案する。
論文 参考訳(メタデータ) (2023-03-29T08:23:26Z) - Deep Clustering: A Comprehensive Survey [53.387957674512585]
クラスタリング分析は、機械学習とデータマイニングにおいて必須の役割を果たす。
ディープ・クラスタリングは、ディープ・ニューラルネットワークを使ってクラスタリングフレンドリーな表現を学習することができるが、幅広いクラスタリングタスクに広く適用されている。
ディープクラスタリングに関する既存の調査は、主にシングルビューフィールドとネットワークアーキテクチャに焦点を当てており、クラスタリングの複雑なアプリケーションシナリオを無視している。
論文 参考訳(メタデータ) (2022-10-09T02:31:32Z) - DeepCluE: Enhanced Image Clustering via Multi-layer Ensembles in Deep
Neural Networks [53.88811980967342]
本稿では,Ensembles (DeepCluE) を用いたDeep Clusteringを提案する。
ディープニューラルネットワークにおける複数のレイヤのパワーを活用することで、ディープクラスタリングとアンサンブルクラスタリングのギャップを埋める。
6つの画像データセットの実験結果から、最先端のディープクラスタリングアプローチに対するDeepCluEの利点が確認されている。
論文 参考訳(メタデータ) (2022-06-01T09:51:38Z) - Confident Clustering via PCA Compression Ratio and Its Application to
Single-cell RNA-seq Analysis [4.511561231517167]
我々は,境界データポイントの影響を小さくするために,信頼度の高いクラスタリング手法を開発した。
本アルゴリズムは単一セルRNA-seqデータを用いて検証する。
単一セル解析における従来のクラスタリング法とは異なり、信頼性クラスタリングはパラメータの異なる選択下で高い安定性を示す。
論文 参考訳(メタデータ) (2022-05-19T20:46:49Z) - Learning Statistical Representation with Joint Deep Embedded Clustering [2.1267423178232407]
StatDECは、共同統計表現学習とクラスタリングのための教師なしのフレームワークである。
実験により,これらの表現を用いることで,様々な画像データセットにまたがる不均衡な画像クラスタリングの結果を大幅に改善できることが示された。
論文 参考訳(メタデータ) (2021-09-11T09:26:52Z) - Very Compact Clusters with Structural Regularization via Similarity and
Connectivity [3.779514860341336]
本稿では,汎用データセットのためのエンドツーエンドのディープクラスタリングアルゴリズムであるVery Compact Clusters (VCC)を提案する。
提案手法は,最先端のクラスタリング手法よりも優れたクラスタリング性能を実現する。
論文 参考訳(メタデータ) (2021-06-09T23:22:03Z) - Graph Contrastive Clustering [131.67881457114316]
本稿では,クラスタリングタスクに適用可能な新しいグラフコントラスト学習フレームワークを提案し,gcc(graph constrastive clustering)法を考案した。
特に、グラフラプラシアンに基づくコントラスト損失は、より識別的かつクラスタリングフレンドリーな特徴を学ぶために提案されている。
一方で、よりコンパクトなクラスタリング割り当てを学ぶために、グラフベースのコントラスト学習戦略が提案されている。
論文 参考訳(メタデータ) (2021-04-03T15:32:49Z) - Scalable Hierarchical Agglomerative Clustering [65.66407726145619]
既存のスケーラブルな階層的クラスタリング手法は、スピードの質を犠牲にする。
我々は、品質を犠牲にせず、数十億のデータポイントまでスケールする、スケーラブルで集約的な階層的クラスタリング法を提案する。
論文 参考訳(メタデータ) (2020-10-22T15:58:35Z) - Deep Robust Clustering by Contrastive Learning [31.161207608881472]
本稿では,非競合データを用いたクラスタリング学習のために,Deep Robust Clustering (DRC)を提案する。
DRCは、セマンティッククラスタリングの割り当てと表現機能の両方の観点から、ディープクラスタリングを考察している。
広く採用されている6つのディープクラスタリングベンチマークの実験は、安定性と精度の両方においてDRCの優位性を示している。
論文 参考訳(メタデータ) (2020-08-07T08:05:53Z) - Supervised Enhanced Soft Subspace Clustering (SESSC) for TSK Fuzzy
Classifiers [25.32478253796209]
ファジィc平均クラスタリングアルゴリズムは,高木・スゲノカン(TSK)ファジィ分類器パラメータ推定によく用いられる。
本稿では,クラスタ内コンパクト性,クラスタ間分離,クラスタリングにおけるラベル情報とを同時に考慮した拡張ソフトサブスペースクラスタリング(SESSC)アルゴリズムを提案する。
論文 参考訳(メタデータ) (2020-02-27T19:39:19Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。