論文の概要: Convex Clustering through MM: An Efficient Algorithm to Perform
Hierarchical Clustering
- arxiv url: http://arxiv.org/abs/2211.01877v2
- Date: Thu, 21 Dec 2023 18:51:49 GMT
- ステータス: 処理完了
- システム内更新日: 2023-12-22 19:29:56.020324
- Title: Convex Clustering through MM: An Efficient Algorithm to Perform
Hierarchical Clustering
- Title(参考訳): mmによる凸クラスタリング:階層クラスタリングを行う効率的なアルゴリズム
- Authors: Daniel J. W. Touw, Patrick J. F. Groenen, Yoshikazu Terada
- Abstract要約: 本稿では,クラスタ融合と高効率更新方式を用いた反復アルゴリズムCCMMによる凸クラスタリングを提案する。
現在のデスクトップコンピュータでは、CCMMは、7次元空間に100万以上のオブジェクトを含む凸クラスタリング問題を効率的に解決する。
- 参考スコア(独自算出の注目度): 1.0589208420411012
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Convex clustering is a modern method with both hierarchical and $k$-means
clustering characteristics. Although convex clustering can capture complex
clustering structures hidden in data, the existing convex clustering algorithms
are not scalable to large data sets with sample sizes greater than several
thousands. Moreover, it is known that convex clustering sometimes fails to
produce a complete hierarchical clustering structure. This issue arises if
clusters split up or the minimum number of possible clusters is larger than the
desired number of clusters. In this paper, we propose convex clustering through
majorization-minimization (CCMM) -- an iterative algorithm that uses cluster
fusions and a highly efficient updating scheme derived using diagonal
majorization. Additionally, we explore different strategies to ensure that the
hierarchical clustering structure terminates in a single cluster. With a
current desktop computer, CCMM efficiently solves convex clustering problems
featuring over one million objects in seven-dimensional space, achieving a
solution time of 51 seconds on average.
- Abstract(参考訳): 凸クラスタリングは階層的および$k$-meansクラスタリング特性を持つ現代的な手法である。
convexクラスタリングは、データに隠された複雑なクラスタリング構造をキャプチャできるが、既存のconvexクラスタリングアルゴリズムは、数千以上のサンプルサイズを持つ大規模データセットにスケーラブルではない。
さらに、凸クラスタリングは時に完全な階層的クラスタリング構造を生成できないことが知られている。
この問題は、クラスタが分割されたり、最小のクラスタ数が所望のクラスタ数よりも大きい場合に発生する。
本稿では,クラスタ融合を用いた反復アルゴリズムCCMMによる凸クラスタリングと,対角磁化を用いた高効率な更新手法を提案する。
さらに,階層的クラスタリング構造が単一クラスタ内で終了することを保証するために,さまざまな戦略を検討する。
現在のデスクトップコンピュータでは、CCMMは、7次元空間に100万以上のオブジェクトを含む凸クラスタリング問題を効率的に解決し、平均51秒の解時間を達成する。
関連論文リスト
- Reinforcement Graph Clustering with Unknown Cluster Number [91.4861135742095]
本稿では,Reinforcement Graph Clusteringと呼ばれる新しいディープグラフクラスタリング手法を提案する。
提案手法では,クラスタ数決定と教師なし表現学習を統一的なフレームワークに統合する。
フィードバック動作を行うために、クラスタリング指向の報酬関数を提案し、同一クラスタの凝集を高め、異なるクラスタを分離する。
論文 参考訳(メタデータ) (2023-08-13T18:12:28Z) - Large Language Models Enable Few-Shot Clustering [88.06276828752553]
大規模言語モデルは、クエリ効率が良く、数発のセミ教師付きテキストクラスタリングを可能にするために、専門家のガイダンスを増幅できることを示す。
最初の2つのステージにLSMを組み込むことで、クラスタの品質が大幅に向上することがわかった。
論文 参考訳(メタデータ) (2023-07-02T09:17:11Z) - Instance-Optimal Cluster Recovery in the Labeled Stochastic Block Model [79.46465138631592]
観測されたラベルを用いてクラスタを復元する効率的なアルゴリズムを考案する。
本稿では,期待値と高い確率でこれらの下位境界との性能を一致させる最初のアルゴリズムであるIACを提案する。
論文 参考訳(メタデータ) (2023-06-18T08:46:06Z) - Hard Regularization to Prevent Deep Online Clustering Collapse without
Data Augmentation [65.268245109828]
オンラインディープクラスタリング(オンラインディープクラスタリング)とは、機能抽出ネットワークとクラスタリングモデルを組み合わせて、クラスタラベルを処理された各新しいデータポイントまたはバッチに割り当てることである。
オフラインメソッドよりも高速で汎用性が高いが、オンラインクラスタリングは、エンコーダがすべての入力を同じポイントにマッピングし、すべてを単一のクラスタに配置する、崩壊したソリューションに容易に到達することができる。
本稿では,データ拡張を必要としない手法を提案する。
論文 参考訳(メタデータ) (2023-03-29T08:23:26Z) - DeepCluE: Enhanced Image Clustering via Multi-layer Ensembles in Deep
Neural Networks [53.88811980967342]
本稿では,Ensembles (DeepCluE) を用いたDeep Clusteringを提案する。
ディープニューラルネットワークにおける複数のレイヤのパワーを活用することで、ディープクラスタリングとアンサンブルクラスタリングのギャップを埋める。
6つの画像データセットの実験結果から、最先端のディープクラスタリングアプローチに対するDeepCluEの利点が確認されている。
論文 参考訳(メタデータ) (2022-06-01T09:51:38Z) - Fast and explainable clustering based on sorting [0.0]
我々はCLASSIXと呼ばれる高速で説明可能なクラスタリング手法を提案する。
このアルゴリズムは2つのスカラーパラメータ、すなわちアグリゲーションのための距離パラメータと、最小クラスタサイズを制御する別のパラメータによって制御される。
実験により, CLASSIXは最先端クラスタリングアルゴリズムと競合することを示した。
論文 参考訳(メタデータ) (2022-02-03T08:24:21Z) - Scalable Hierarchical Agglomerative Clustering [65.66407726145619]
既存のスケーラブルな階層的クラスタリング手法は、スピードの質を犠牲にする。
我々は、品質を犠牲にせず、数十億のデータポイントまでスケールする、スケーラブルで集約的な階層的クラスタリング法を提案する。
論文 参考訳(メタデータ) (2020-10-22T15:58:35Z) - Exact Recovery of Mangled Clusters with Same-Cluster Queries [20.03712152278538]
半教師付きアクティブクラスタリングフレームワークにおけるクラスタリカバリ問題について検討する。
我々は、$n$ポイントを$k$クラスタに分割するアルゴリズムを設計し、$O(k3 ln k ln n)$oracleクエリと$tildeO(kn + k3)$でクラスタを非分類エラーで復元する。
論文 参考訳(メタデータ) (2020-06-08T15:27:58Z) - Non-Exhaustive, Overlapping Co-Clustering: An Extended Analysis [32.15852903039789]
コクラスタリングの目標は、行のクラスタリングと2次元のデータ行列の列を同時に識別することである。
我々はNEO-CCアルゴリズムと呼ばれる効率的な反復アルゴリズムを開発した。
実験結果から,NEO-CCアルゴリズムは実世界のデータのコクラスタリング構造を効果的に捉えることができることがわかった。
論文 参考訳(メタデータ) (2020-04-24T04:39:14Z) - Probabilistic Partitive Partitioning (PPP) [0.0]
クラスタリングアルゴリズムは一般に2つの一般的な問題に直面している。
彼らは異なる初期条件で異なる設定に収束する。
クラスタの数は、事前に任意に決めなければならない。
論文 参考訳(メタデータ) (2020-03-09T19:18:35Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。