論文の概要: Scalable Hierarchical Agglomerative Clustering
- arxiv url: http://arxiv.org/abs/2010.11821v3
- Date: Thu, 30 Sep 2021 17:02:24 GMT
- ステータス: 処理完了
- システム内更新日: 2022-10-04 07:26:06.498215
- Title: Scalable Hierarchical Agglomerative Clustering
- Title(参考訳): スケーラブルな階層型集約クラスタリング
- Authors: Nicholas Monath, Avinava Dubey, Guru Guruganesh, Manzil Zaheer, Amr
Ahmed, Andrew McCallum, Gokhan Mergen, Marc Najork, Mert Terzihan, Bryon
Tjanaka, Yuan Wang, Yuchen Wu
- Abstract要約: 既存のスケーラブルな階層的クラスタリング手法は、スピードの質を犠牲にする。
我々は、品質を犠牲にせず、数十億のデータポイントまでスケールする、スケーラブルで集約的な階層的クラスタリング法を提案する。
- 参考スコア(独自算出の注目度): 65.66407726145619
- License: http://creativecommons.org/licenses/by-nc-nd/4.0/
- Abstract: The applicability of agglomerative clustering, for inferring both
hierarchical and flat clustering, is limited by its scalability. Existing
scalable hierarchical clustering methods sacrifice quality for speed and often
lead to over-merging of clusters. In this paper, we present a scalable,
agglomerative method for hierarchical clustering that does not sacrifice
quality and scales to billions of data points. We perform a detailed
theoretical analysis, showing that under mild separability conditions our
algorithm can not only recover the optimal flat partition, but also provide a
two-approximation to non-parametric DP-Means objective. This introduces a novel
application of hierarchical clustering as an approximation algorithm for the
non-parametric clustering objective. We additionally relate our algorithm to
the classic hierarchical agglomerative clustering method. We perform extensive
empirical experiments in both hierarchical and flat clustering settings and
show that our proposed approach achieves state-of-the-art results on publicly
available clustering benchmarks. Finally, we demonstrate our method's
scalability by applying it to a dataset of 30 billion queries. Human evaluation
of the discovered clusters show that our method finds better quality of
clusters than the current state-of-the-art.
- Abstract(参考訳): 階層クラスタリングとフラットクラスタリングの両方を推定する集約クラスタリングの適用性は、スケーラビリティによって制限される。
既存のスケーラブルな階層的クラスタリング手法は、スピードの質を犠牲にし、しばしばクラスタの過剰なマージにつながる。
本稿では,何十億ものデータポイントに対して品質やスケールを犠牲にすることなく,スケーラブルで凝集的な階層クラスタリング手法を提案する。
詳細な理論解析を行い, 軽度分離条件下では, アルゴリズムは最適平面分割を回復できるだけでなく, 非パラメトリックなdp-means目標に対する近似値を与えることができることを示した。
これは、非パラメトリッククラスタリング目的に対する近似アルゴリズムとしての階層クラスタリングの新しい応用を導入する。
さらに,従来の階層的凝集クラスタリング法とアルゴリズムを関連付けた。
我々は,階層的およびフラットなクラスタリング設定の両方において広範な実験を行い,提案手法が公開可能なクラスタリングベンチマークで最先端の結果が得られることを示す。
最後に,300億クエリのデータセットに適用することで,提案手法のスケーラビリティを実証する。
検出されたクラスタの人的評価は,現在の最先端のクラスタよりも優れた品質が得られたことを示す。
関連論文リスト
- A3S: A General Active Clustering Method with Pairwise Constraints [66.74627463101837]
A3Sは、適応クラスタリングアルゴリズムによって得られる初期クラスタ結果に対して、戦略的にアクティブクラスタリングを調整する。
さまざまな実世界のデータセットにわたる広範な実験において、A3Sは、人間のクエリを著しく少なくして、望ましい結果を達成する。
論文 参考訳(メタデータ) (2024-07-14T13:37:03Z) - Reinforcement Graph Clustering with Unknown Cluster Number [91.4861135742095]
本稿では,Reinforcement Graph Clusteringと呼ばれる新しいディープグラフクラスタリング手法を提案する。
提案手法では,クラスタ数決定と教師なし表現学習を統一的なフレームワークに統合する。
フィードバック動作を行うために、クラスタリング指向の報酬関数を提案し、同一クラスタの凝集を高め、異なるクラスタを分離する。
論文 参考訳(メタデータ) (2023-08-13T18:12:28Z) - Instance-Optimal Cluster Recovery in the Labeled Stochastic Block Model [79.46465138631592]
観測されたラベルを用いてクラスタを復元する効率的なアルゴリズムを考案する。
本稿では,期待値と高い確率でこれらの下位境界との性能を一致させる最初のアルゴリズムであるIACを提案する。
論文 参考訳(メタデータ) (2023-06-18T08:46:06Z) - Cluster-level Group Representativity Fairness in $k$-means Clustering [3.420467786581458]
クラスタリングアルゴリズムは、異なるグループが異なるクラスタ内で不利になるようにクラスタを生成することができる。
我々は,古典的アルゴリズムに先駆けて,セントロイドクラスタリングパラダイムに基づくクラスタリングアルゴリズムを開発した。
本手法はクラスタレベルの表現性フェアネスを,クラスタのコヒーレンスに低い影響で向上させるのに有効であることを示す。
論文 参考訳(メタデータ) (2022-12-29T22:02:28Z) - Convex Clustering through MM: An Efficient Algorithm to Perform
Hierarchical Clustering [1.0589208420411012]
本稿では,クラスタ融合と高効率更新方式を用いた反復アルゴリズムCCMMによる凸クラスタリングを提案する。
現在のデスクトップコンピュータでは、CCMMは、7次元空間に100万以上のオブジェクトを含む凸クラスタリング問題を効率的に解決する。
論文 参考訳(メタデータ) (2022-11-03T15:07:51Z) - Clustering Optimisation Method for Highly Connected Biological Data [0.0]
接続クラスタリング評価のための単純な指標が,生物データの最適セグメンテーションにつながることを示す。
この作業の斬新さは、混雑したデータをクラスタリングするための単純な最適化方法の作成にある。
論文 参考訳(メタデータ) (2022-08-08T17:33:32Z) - DeepCluE: Enhanced Image Clustering via Multi-layer Ensembles in Deep
Neural Networks [53.88811980967342]
本稿では,Ensembles (DeepCluE) を用いたDeep Clusteringを提案する。
ディープニューラルネットワークにおける複数のレイヤのパワーを活用することで、ディープクラスタリングとアンサンブルクラスタリングのギャップを埋める。
6つの画像データセットの実験結果から、最先端のディープクラスタリングアプローチに対するDeepCluEの利点が確認されている。
論文 参考訳(メタデータ) (2022-06-01T09:51:38Z) - Self-Evolutionary Clustering [1.662966122370634]
既存のディープクラスタリング手法の多くは、単純な距離比較に基づいており、手作り非線形マッピングによって生成されたターゲット分布に大きく依存している。
新たなモジュール型自己進化クラスタリング(Self-EvoC)フレームワークが構築され,自己管理的な分類によってクラスタリング性能が向上する。
このフレームワークは、サンプルアウトレイラを効率よく識別し、自己監督の助けを借りて、より良い目標分布を生成することができる。
論文 参考訳(メタデータ) (2022-02-21T19:38:18Z) - Hierarchical clustering by aggregating representatives in
sub-minimum-spanning-trees [5.877624540482919]
本稿では,クラスタリングデンドログラムを構築しながら,代表点を効果的に検出できる階層的クラスタリングアルゴリズムを提案する。
解析の結果,提案アルゴリズムはO(nlogn)時間複雑度とO(nlogn)空間複雑度を有し,大規模データ処理のスケーラビリティを示す。
論文 参考訳(メタデータ) (2021-11-11T07:36:55Z) - Graph Contrastive Clustering [131.67881457114316]
本稿では,クラスタリングタスクに適用可能な新しいグラフコントラスト学習フレームワークを提案し,gcc(graph constrastive clustering)法を考案した。
特に、グラフラプラシアンに基づくコントラスト損失は、より識別的かつクラスタリングフレンドリーな特徴を学ぶために提案されている。
一方で、よりコンパクトなクラスタリング割り当てを学ぶために、グラフベースのコントラスト学習戦略が提案されている。
論文 参考訳(メタデータ) (2021-04-03T15:32:49Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。