論文の概要: Deep Clustering using Dirichlet Process Gaussian Mixture and Alpha Jensen-Shannon Divergence Clustering Loss
- arxiv url: http://arxiv.org/abs/2412.08940v1
- Date: Thu, 12 Dec 2024 05:02:41 GMT
- ステータス: 翻訳完了
- システム内更新日: 2024-12-13 13:29:37.559445
- Title: Deep Clustering using Dirichlet Process Gaussian Mixture and Alpha Jensen-Shannon Divergence Clustering Loss
- Title(参考訳): Dirichlet Process Gaussian Mixture と Alpha Jensen-Shannon Divergence Clustering Loss を用いたディープクラスタリング
- Authors: Kart-Leong Lim,
- Abstract要約: オートエンコーダをベースとしたディープクラスタリングでは、クラスタリングとディメンションリダクションを共同で最適化する方法が課題である。
本稿では,ダイリクレ過程のガウス混合モデルを用いた無限クラスタ表現を導入し,潜在空間における連成クラスタリングとモデル選択について述べる。
我々は,MIT67 や CIFAR100 などの大規模クラス数データセットに対して,従来のモデル選択を用いた深層モデル選択手法の評価を行った。
- 参考スコア(独自算出の注目度): 0.65268245109828
- License:
- Abstract: Deep clustering is an emerging topic in deep learning where traditional clustering is performed in deep learning feature space. However, clustering and deep learning are often mutually exclusive. In the autoencoder based deep clustering, the challenge is how to jointly optimize both clustering and dimension reduction together, so that the weights in the hidden layers are not only guided by reconstruction loss, but also by a loss function associated with clustering. The current state-of-the-art has two fundamental flaws. First, they rely on the mathematical convenience of Kullback-Leibler divergence for the clustering loss function but the former is asymmetric. Secondly, they assume the prior knowledge on the number of clusters is always available for their dataset of interest. This paper tries to improve on these problems. In the first problem, we use a Jensen-Shannon divergence to overcome the asymmetric issue, specifically using a closed form variant. Next, we introduce an infinite cluster representation using Dirichlet process Gaussian mixture model for joint clustering and model selection in the latent space which we called deep model selection. The number of clusters in the latent space are not fixed but instead vary accordingly as they gradually approach the optimal number during training. Thus, prior knowledge is not required. We evaluate our proposed deep model selection method with traditional model selection on large class number datasets such as MIT67 and CIFAR100 and also compare with both traditional variational Bayes model and deep clustering method with convincing results.
- Abstract(参考訳): ディープクラスタリングは、ディープラーニング機能領域で従来のクラスタリングが実行される、ディープラーニングにおける新たなトピックである。
しかし、クラスタリングとディープラーニングは相互に排他的であることが多い。
オートエンコーダをベースとしたディープクラスタリングでは,クラスタリングと次元縮小の両面を協調的に最適化する方法が課題である。
現在の最先端には2つの根本的な欠陥がある。
第一に、それらはクラスタリング損失関数に対するクルバック・リーブラ発散の数学的利便性に頼っているが、前者は非対称である。
第二に、クラスタの数に関する事前の知識が、常に関心のデータセットとして利用できると仮定する。
本稿ではこれらの問題を改善しようと試みる。
最初の問題では、Jensen-Shannon発散を用いて非対称問題を克服し、特に閉形式不変量を用いる。
次に、ディリクレ過程のガウス混合モデルを用いて、私たちがディープモデル選択と呼ぶ潜在空間における連成クラスタリングとモデル選択について無限のクラスタ表現を導入する。
潜在空間内のクラスターの数は固定ではなく、訓練中に最適な数に徐々に近づくにつれて、それに応じて変化する。
したがって、事前の知識は必要ない。
提案手法は,MIT67 や CIFAR100 などの大集合集合に対して従来のモデル選択法を用いて評価し,従来の変分ベイズモデルと深部クラスタリング法を比較し,説得力のある結果を得た。
関連論文リスト
- A provable initialization and robust clustering method for general mixture models [6.806940901668607]
クラスタリングは、異種データの存在下での統計機械学習の基本的なツールである。
最新の結果は、ガウス以下の誤差を伴うセントロイドの周りにデータが分散されている場合に、最適なラベルの誤りを保証することに焦点が当てられている。
論文 参考訳(メタデータ) (2024-01-10T22:56:44Z) - Reinforcement Graph Clustering with Unknown Cluster Number [91.4861135742095]
本稿では,Reinforcement Graph Clusteringと呼ばれる新しいディープグラフクラスタリング手法を提案する。
提案手法では,クラスタ数決定と教師なし表現学習を統一的なフレームワークに統合する。
フィードバック動作を行うために、クラスタリング指向の報酬関数を提案し、同一クラスタの凝集を高め、異なるクラスタを分離する。
論文 参考訳(メタデータ) (2023-08-13T18:12:28Z) - Hard Regularization to Prevent Deep Online Clustering Collapse without
Data Augmentation [65.268245109828]
オンラインディープクラスタリング(オンラインディープクラスタリング)とは、機能抽出ネットワークとクラスタリングモデルを組み合わせて、クラスタラベルを処理された各新しいデータポイントまたはバッチに割り当てることである。
オフラインメソッドよりも高速で汎用性が高いが、オンラインクラスタリングは、エンコーダがすべての入力を同じポイントにマッピングし、すべてを単一のクラスタに配置する、崩壊したソリューションに容易に到達することができる。
本稿では,データ拡張を必要としない手法を提案する。
論文 参考訳(メタデータ) (2023-03-29T08:23:26Z) - Deep Clustering of Tabular Data by Weighted Gaussian Distribution Learning [0.0]
本稿では,自動エンコーダ遅延空間(G-CEALS)におけるガウスクラスタ埋め込みという,表型データのための最初のディープクラスタリング手法の1つを開発する。
G-CEALS法は、クラスタリング精度に基づいて平均ランク順を2.9(1.7)と2.8(1.7)とし、16のデータセット上で調整されたRand index(ARI)スコアをそれぞれ示し、9つの最先端クラスタリング法より優れている。
論文 参考訳(メタデータ) (2023-01-02T18:45:53Z) - DeepCluE: Enhanced Image Clustering via Multi-layer Ensembles in Deep
Neural Networks [53.88811980967342]
本稿では,Ensembles (DeepCluE) を用いたDeep Clusteringを提案する。
ディープニューラルネットワークにおける複数のレイヤのパワーを活用することで、ディープクラスタリングとアンサンブルクラスタリングのギャップを埋める。
6つの画像データセットの実験結果から、最先端のディープクラスタリングアプローチに対するDeepCluEの利点が確認されている。
論文 参考訳(メタデータ) (2022-06-01T09:51:38Z) - DeepDPM: Deep Clustering With an Unknown Number of Clusters [6.0803541683577444]
学習中にKの値を知る必要のない効果的な深層クラスタリング手法を提案する。
分割/マージフレームワーク, 変化Kに適応する動的アーキテクチャ, 新たな損失を用いて, 提案手法は既存の非パラメトリック手法よりも優れた性能を示す。
論文 参考訳(メタデータ) (2022-03-27T14:11:06Z) - Common Failure Modes of Subcluster-based Sampling in Dirichlet Process
Gaussian Mixture Models -- and a Deep-learning Solution [5.822529963339041]
Dirichlet Process Gaussian Mixture Model (DPGMM) は、クラスタの数が不明な場合にデータをクラスタリングするのによく用いられる。
1つの主要な DPGMM 推論パラダイムはサンプリングに依存している。
ここでは、既知の最先端のサンプルを考察し、その障害モードを分析し、改善方法を示す。
論文 参考訳(メタデータ) (2022-03-25T14:12:33Z) - Personalized Federated Learning via Convex Clustering [72.15857783681658]
本稿では,局所凸型ユーザコストを用いた個人化フェデレーション学習のためのアルゴリズム群を提案する。
提案するフレームワークは,異なるユーザのモデルの違いをペナル化する凸クラスタリングの一般化に基づいている。
論文 参考訳(メタデータ) (2022-02-01T19:25:31Z) - Correlation Clustering Reconstruction in Semi-Adversarial Models [70.11015369368272]
相関クラスタリングは多くのアプリケーションにおいて重要なクラスタリング問題である。
本研究では,ランダムノイズや対向的な修正によって崩壊した潜伏クラスタリングを再構築しようとする,この問題の再構築版について検討する。
論文 参考訳(メタデータ) (2021-08-10T14:46:17Z) - Scalable Hierarchical Agglomerative Clustering [65.66407726145619]
既存のスケーラブルな階層的クラスタリング手法は、スピードの質を犠牲にする。
我々は、品質を犠牲にせず、数十億のデータポイントまでスケールする、スケーラブルで集約的な階層的クラスタリング法を提案する。
論文 参考訳(メタデータ) (2020-10-22T15:58:35Z) - An Efficient Framework for Clustered Federated Learning [26.24231986590374]
本稿では,ユーザがクラスタに分散するフェデレーション学習(FL)の問題に対処する。
反復フェデレーションクラスタリングアルゴリズム(IFCA)を提案する。
ニューラルネットワークのような非分割問題では,アルゴリズムが効率的であることを示す。
論文 参考訳(メタデータ) (2020-06-07T08:48:59Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。