論文の概要: Convex Clustering through MM: An Efficient Algorithm to Perform
Hierarchical Clustering
- arxiv url: http://arxiv.org/abs/2211.01877v1
- Date: Thu, 3 Nov 2022 15:07:51 GMT
- ステータス: 処理完了
- システム内更新日: 2022-11-04 12:31:51.314449
- Title: Convex Clustering through MM: An Efficient Algorithm to Perform
Hierarchical Clustering
- Title(参考訳): mmによる凸クラスタリング:階層クラスタリングを行う効率的なアルゴリズム
- Authors: Daniel J. W. Touw, Patrick J. F. Groenen, Yoshikazu Terada
- Abstract要約: 本稿では,大規模化最小化(CCMM)アルゴリズムによる凸クラスタリングを提案する。
CCMMはクラスタ融合とスパーシリティを使用して、メモリ使用量を削減した完全なクラスタ階層を強制する。
現在のデスクトップコンピュータでは、CCMMアルゴリズムは70秒以内に7次元空間に100万以上のオブジェクトを含む単一のクラスタリング問題を解決することができる。
- 参考スコア(独自算出の注目度): 2.191505742658975
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Convex clustering is a modern method with both hierarchical and $k$-means
clustering characteristics. Although convex clustering can capture the complex
clustering structure hidden in data, the existing convex clustering algorithms
are not scalable to large data sets with sample sizes greater than ten
thousand. Moreover, it is known that convex clustering sometimes fails to
produce hierarchical clustering structures. This undesirable phenomenon is
called cluster split and makes it difficult to interpret clustering results. In
this paper, we propose convex clustering through majorization-minimization
(CCMM) -- an iterative algorithm that uses cluster fusions and sparsity to
enforce a complete cluster hierarchy with reduced memory usage. In the CCMM
algorithm, the diagonal majorization technique makes a highly efficient update
for each iteration. With a current desktop computer, the CCMM algorithm can
solve a single clustering problem featuring over one million objects in
seven-dimensional space within 70 seconds.
- Abstract(参考訳): 凸クラスタリングは階層的および$k$-meansクラスタリング特性を持つ現代的な手法である。
convexクラスタリングは、データに隠された複雑なクラスタリング構造をキャプチャできるが、既存のconvexクラスタリングアルゴリズムは、サンプルサイズが1万を超える大きなデータセットにはスケーラブルではない。
さらに,凸クラスタリングでは階層的クラスタリング構造が生成できない場合があることが知られている。
この望ましくない現象はクラスタ分割と呼ばれ、クラスタリング結果の解釈が困難になる。
本稿では,クラスタ融合とスパーシティを用いて,メモリ使用量を削減したクラスタ階層を強制する反復アルゴリズムである majorization-minimization (ccmm) による凸クラスタリングを提案する。
ccmmアルゴリズムでは、対角メジャー化手法は各イテレーションに対して非常に効率的な更新を行う。
現在のデスクトップコンピュータでは、CCMMアルゴリズムは70秒以内に7次元空間に100万以上のオブジェクトを含む単一のクラスタリング問題を解決することができる。
関連論文リスト
- Self-Supervised Graph Embedding Clustering [70.36328717683297]
K-means 1-step dimensionality reduction clustering method は,クラスタリングタスクにおける次元性の呪いに対処する上で,いくつかの進歩をもたらした。
本稿では,K-meansに多様体学習を統合する統一フレームワークを提案する。
論文 参考訳(メタデータ) (2024-09-24T08:59:51Z) - Reinforcement Graph Clustering with Unknown Cluster Number [91.4861135742095]
本稿では,Reinforcement Graph Clusteringと呼ばれる新しいディープグラフクラスタリング手法を提案する。
提案手法では,クラスタ数決定と教師なし表現学習を統一的なフレームワークに統合する。
フィードバック動作を行うために、クラスタリング指向の報酬関数を提案し、同一クラスタの凝集を高め、異なるクラスタを分離する。
論文 参考訳(メタデータ) (2023-08-13T18:12:28Z) - Large Language Models Enable Few-Shot Clustering [88.06276828752553]
大規模言語モデルは、クエリ効率が良く、数発のセミ教師付きテキストクラスタリングを可能にするために、専門家のガイダンスを増幅できることを示す。
最初の2つのステージにLSMを組み込むことで、クラスタの品質が大幅に向上することがわかった。
論文 参考訳(メタデータ) (2023-07-02T09:17:11Z) - Instance-Optimal Cluster Recovery in the Labeled Stochastic Block Model [79.46465138631592]
観測されたラベルを用いてクラスタを復元する効率的なアルゴリズムを考案する。
本稿では,期待値と高い確率でこれらの下位境界との性能を一致させる最初のアルゴリズムであるIACを提案する。
論文 参考訳(メタデータ) (2023-06-18T08:46:06Z) - DeepCluE: Enhanced Image Clustering via Multi-layer Ensembles in Deep
Neural Networks [53.88811980967342]
本稿では,Ensembles (DeepCluE) を用いたDeep Clusteringを提案する。
ディープニューラルネットワークにおける複数のレイヤのパワーを活用することで、ディープクラスタリングとアンサンブルクラスタリングのギャップを埋める。
6つの画像データセットの実験結果から、最先端のディープクラスタリングアプローチに対するDeepCluEの利点が確認されている。
論文 参考訳(メタデータ) (2022-06-01T09:51:38Z) - Fast and explainable clustering based on sorting [0.0]
我々はCLASSIXと呼ばれる高速で説明可能なクラスタリング手法を提案する。
このアルゴリズムは2つのスカラーパラメータ、すなわちアグリゲーションのための距離パラメータと、最小クラスタサイズを制御する別のパラメータによって制御される。
実験により, CLASSIXは最先端クラスタリングアルゴリズムと競合することを示した。
論文 参考訳(メタデータ) (2022-02-03T08:24:21Z) - Scalable Hierarchical Agglomerative Clustering [65.66407726145619]
既存のスケーラブルな階層的クラスタリング手法は、スピードの質を犠牲にする。
我々は、品質を犠牲にせず、数十億のデータポイントまでスケールする、スケーラブルで集約的な階層的クラスタリング法を提案する。
論文 参考訳(メタデータ) (2020-10-22T15:58:35Z) - Exact Recovery of Mangled Clusters with Same-Cluster Queries [20.03712152278538]
半教師付きアクティブクラスタリングフレームワークにおけるクラスタリカバリ問題について検討する。
我々は、$n$ポイントを$k$クラスタに分割するアルゴリズムを設計し、$O(k3 ln k ln n)$oracleクエリと$tildeO(kn + k3)$でクラスタを非分類エラーで復元する。
論文 参考訳(メタデータ) (2020-06-08T15:27:58Z) - Non-Exhaustive, Overlapping Co-Clustering: An Extended Analysis [32.15852903039789]
コクラスタリングの目標は、行のクラスタリングと2次元のデータ行列の列を同時に識別することである。
我々はNEO-CCアルゴリズムと呼ばれる効率的な反復アルゴリズムを開発した。
実験結果から,NEO-CCアルゴリズムは実世界のデータのコクラスタリング構造を効果的に捉えることができることがわかった。
論文 参考訳(メタデータ) (2020-04-24T04:39:14Z) - Probabilistic Partitive Partitioning (PPP) [0.0]
クラスタリングアルゴリズムは一般に2つの一般的な問題に直面している。
彼らは異なる初期条件で異なる設定に収束する。
クラスタの数は、事前に任意に決めなければならない。
論文 参考訳(メタデータ) (2020-03-09T19:18:35Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。