論文の概要: Mixed data Deep Gaussian Mixture Model: A clustering model for mixed
datasets
- arxiv url: http://arxiv.org/abs/2010.06661v2
- Date: Wed, 10 Mar 2021 18:20:58 GMT
- ステータス: 処理完了
- システム内更新日: 2022-10-07 23:03:58.749756
- Title: Mixed data Deep Gaussian Mixture Model: A clustering model for mixed
datasets
- Title(参考訳): 混合データディープガウス混合モデル:混合データセットのクラスタリングモデル
- Authors: Robin Fuchs, Denys Pommeret, Cinzia Viroli
- Abstract要約: 我々はMixed Deep Gaussian Mixture Model (MDGMM)と呼ばれるモデルに基づくクラスタリング手法を提案する。
このアーキテクチャは柔軟性があり、連続データや非連続データにも適用できる。
我々のモデルはデータの連続的な低次元表現を提供し、混合データセットを視覚化するのに有用なツールである。
- 参考スコア(独自算出の注目度): 0.0
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Clustering mixed data presents numerous challenges inherent to the very
heterogeneous nature of the variables. A clustering algorithm should be able,
despite of this heterogeneity, to extract discriminant pieces of information
from the variables in order to design groups. In this work we introduce a
multilayer architecture model-based clustering method called Mixed Deep
Gaussian Mixture Model (MDGMM) that can be viewed as an automatic way to merge
the clustering performed separately on continuous and non-continuous data. This
architecture is flexible and can be adapted to mixed as well as to continuous
or non-continuous data. In this sense we generalize Generalized Linear Latent
Variable Models and Deep Gaussian Mixture Models. We also design a new
initialisation strategy and a data driven method that selects the best
specification of the model and the optimal number of clusters for a given
dataset "on the fly". Besides, our model provides continuous low-dimensional
representations of the data which can be a useful tool to visualize mixed
datasets. Finally, we validate the performance of our approach comparing its
results with state-of-the-art mixed data clustering models over several
commonly used datasets.
- Abstract(参考訳): 混合データのクラスタリングは、変数の非常に異質な性質に固有の多くの課題を示す。
この多様性にもかかわらず、クラスタリングアルゴリズムは、グループを設計するために変数から識別情報の断片を抽出することができるべきである。
本研究では,連続データと非連続データに分離して実行されるクラスタリングをマージする自動手法として,混合ディープガウス混合モデル(mdgmm)と呼ばれる多層アーキテクチャモデルに基づくクラスタリング手法を提案する。
このアーキテクチャは柔軟性があり、連続データや非連続データにも適用することができる。
この意味で、一般化線形潜在変数モデルと深いガウス混合モデルを一般化する。
また,「オンザフライ」のデータセットに対して,モデルの最適仕様と最適なクラスタ数を選択する新しい初期化戦略とデータ駆動手法を設計した。
さらに,混合データセットを可視化するための有用なツールとして,データの連続的低次元表現も提供する。
最後に,本手法の性能を,現在使われている複数のデータセットに対する最先端の混合データクラスタリングモデルと比較した。
関連論文リスト
- Finite Mixtures of Multivariate Poisson-Log Normal Factor Analyzers for
Clustering Count Data [0.8499685241219366]
因子分析モデルの混合に基づく8種類の擬似混合モデルについて紹介する。
提案モデルはRNAシークエンシング研究から得られた離散的なデータをクラスタリングする文脈において探索される。
論文 参考訳(メタデータ) (2023-11-13T21:23:15Z) - Hard Regularization to Prevent Deep Online Clustering Collapse without
Data Augmentation [65.268245109828]
オンラインディープクラスタリング(オンラインディープクラスタリング)とは、機能抽出ネットワークとクラスタリングモデルを組み合わせて、クラスタラベルを処理された各新しいデータポイントまたはバッチに割り当てることである。
オフラインメソッドよりも高速で汎用性が高いが、オンラインクラスタリングは、エンコーダがすべての入力を同じポイントにマッピングし、すべてを単一のクラスタに配置する、崩壊したソリューションに容易に到達することができる。
本稿では,データ拡張を必要としない手法を提案する。
論文 参考訳(メタデータ) (2023-03-29T08:23:26Z) - Sparse and geometry-aware generalisation of the mutual information for joint discriminative clustering and feature selection [19.066989850964756]
GEMINIと呼ばれる相互情報の幾何を考慮した一般化を最大化しようとする識別クラスタリングモデルを導入する。
このアルゴリズムは,特徴探索の負担を回避し,識別クラスタリングモデルのみを設計しながら,高次元データや大量のサンプルに対して容易にスケーラブルである。
以上の結果から,Sparse GEMINIは競合アルゴリズムであり,関連基準や事前仮説を使わずに,クラスタリングに関して変数の関連するサブセットを選択することができることがわかった。
論文 参考訳(メタデータ) (2023-02-07T10:52:04Z) - Model Based Co-clustering of Mixed Numerical and Binary Data [0.0]
コクラスタリング(co-clustering)は、データマトリックスの行と列の間の基盤となるブロック構造を抽出するデータマイニング手法である。
本稿では,遅延ブロックモデルに基づく協調クラスタリングを混合データの場合にまで拡張する。
論文 参考訳(メタデータ) (2022-12-22T14:16:08Z) - Unified Multi-View Orthonormal Non-Negative Graph Based Clustering
Framework [74.25493157757943]
我々は,非負の特徴特性を活用し,多視点情報を統合された共同学習フレームワークに組み込む,新しいクラスタリングモデルを定式化する。
また、深層機能に基づいたクラスタリングデータに対するマルチモデル非負グラフベースのアプローチを初めて検討する。
論文 参考訳(メタデータ) (2022-11-03T08:18:27Z) - Learning from aggregated data with a maximum entropy model [73.63512438583375]
我々は,観測されていない特徴分布を最大エントロピー仮説で近似することにより,ロジスティック回帰と類似した新しいモデルが,集約データからのみ学習されることを示す。
我々は、この方法で学習したモデルが、完全な非凝集データでトレーニングされたロジスティックモデルに匹敵するパフォーマンスを達成することができるという、いくつかの公開データセットに関する実証的な証拠を提示する。
論文 参考訳(メタデータ) (2022-10-05T09:17:27Z) - Time Series Clustering with an EM algorithm for Mixtures of Linear
Gaussian State Space Models [0.0]
線形ガウス状態空間モデルを混合したモデルに基づく時系列クラスタリング手法を提案する。
提案手法では,混合モデルの予測最大化アルゴリズムを用いてモデルパラメータを推定する。
シミュレーションデータセットの実験は、クラスタリング、パラメータ推定、モデル選択における手法の有効性を示す。
論文 参考訳(メタデータ) (2022-08-25T07:41:23Z) - Personalized Federated Learning via Convex Clustering [72.15857783681658]
本稿では,局所凸型ユーザコストを用いた個人化フェデレーション学習のためのアルゴリズム群を提案する。
提案するフレームワークは,異なるユーザのモデルの違いをペナル化する凸クラスタリングの一般化に基づいている。
論文 参考訳(メタデータ) (2022-02-01T19:25:31Z) - Mixture Model Auto-Encoders: Deep Clustering through Dictionary Learning [72.9458277424712]
Mixture Model Auto-Encoders (MixMate)は、生成モデルで推論を実行することでデータをクラスタリングする新しいアーキテクチャである。
最先端のディープクラスタリングアルゴリズムと比較して,MixMateは競争性能が高いことを示す。
論文 参考訳(メタデータ) (2021-10-10T02:30:31Z) - Vine copula mixture models and clustering for non-Gaussian data [0.0]
連続データのための新しいブドウパウラ混合モデルを提案する。
本研究では, モデルベースクラスタリングアルゴリズムにおいて, ベインコプラ混合モデルが他のモデルベースクラスタリング手法よりも優れていることを示す。
論文 参考訳(メタデータ) (2021-02-05T16:04:26Z) - Robust Finite Mixture Regression for Heterogeneous Targets [70.19798470463378]
本稿では,サンプルクラスタの探索と,複数の不完全な混合型ターゲットを同時にモデル化するFMRモデルを提案する。
我々は、高次元の学習フレームワークの下で、無症状のオラクルのパフォーマンス境界をモデルに提供します。
その結果,我々のモデルは最先端の性能を達成できることがわかった。
論文 参考訳(メタデータ) (2020-10-12T03:27:07Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。