論文の概要: Scalable Initialization Methods for Large-Scale Clustering
- arxiv url: http://arxiv.org/abs/2007.11937v1
- Date: Thu, 23 Jul 2020 11:29:53 GMT
- ステータス: 処理完了
- システム内更新日: 2022-11-07 11:54:03.138439
- Title: Scalable Initialization Methods for Large-Scale Clustering
- Title(参考訳): 大規模クラスタリングのためのスケーラブル初期化手法
- Authors: Joonas H\"am\"al\"ainen, Tommi K\"arkk\"ainen, Tuomo Rossi
- Abstract要約: K平均クラスタリングのための2つの新しい手法を提案する。
提案手法はスケーラブルであり、並列で実行できる。
実験の結果,提案手法は最先端技術と良好に比較できることがわかった。
- 参考スコア(独自算出の注目度): 0.0
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: In this work, two new initialization methods for K-means clustering are
proposed. Both proposals are based on applying a divide-and-conquer approach
for the K-means|| type of an initialization strategy. The second proposal also
utilizes multiple lower-dimensional subspaces produced by the random projection
method for the initialization. The proposed methods are scalable and can be run
in parallel, which make them suitable for initializing large-scale problems. In
the experiments, comparison of the proposed methods to the K-means++ and
K-means|| methods is conducted using an extensive set of reference and
synthetic large-scale datasets. Concerning the latter, a novel high-dimensional
clustering data generation algorithm is given. The experiments show that the
proposed methods compare favorably to the state-of-the-art. We also observe
that the currently most popular K-means++ initialization behaves like the
random one in the very high-dimensional cases.
- Abstract(参考訳): そこで本研究では,K平均クラスタリングの2つの新しい初期化手法を提案する。
どちらの提案も初期化戦略の K-means|| 型に対して分割・対数アプローチを適用することに基づいている。
2つ目の提案では、ランダム射影法によって生成される複数の低次元部分空間を初期化に利用する。
提案手法はスケーラビリティが高く,並列動作が可能なため,大規模問題の初期化に適している。
実験では,提案手法と K-means++ および K-means|| 法との比較を行った。
後者については、新しい高次元クラスタリングデータ生成アルゴリズムが提供される。
実験の結果,提案手法は最先端技術と比較できることがわかった。
また、現在最も人気のあるK-means++初期化は、非常に高次元の場合においてランダムに振る舞う。
関連論文リスト
- Rethinking k-means from manifold learning perspective [122.38667613245151]
平均推定なしで直接データのクラスタを検出する新しいクラスタリングアルゴリズムを提案する。
具体的には,バタワースフィルタを用いてデータ点間の距離行列を構成する。
異なる視点に埋め込まれた相補的な情報をうまく活用するために、テンソルのSchatten p-norm正規化を利用する。
論文 参考訳(メタデータ) (2023-05-12T03:01:41Z) - CKmeans and FCKmeans : Two deterministic initialization procedures for
Kmeans algorithm using a modified crowding distance [0.0]
K平均クラスタリングのための2つの新しい決定論的手順を示す。
CKmeans と FCKmeans という名前の手順は、より混雑した点を初期セントロイドとして使用する。
複数のデータセットに関する実験的研究により、提案手法がクラスタリング精度においてKmeansとKmeans++より優れていることが示された。
論文 参考訳(メタデータ) (2023-04-19T21:46:02Z) - An enhanced method of initial cluster center selection for K-means
algorithm [0.0]
K-meansアルゴリズムの初期クラスタ選択を改善するための新しい手法を提案する。
Convex Hullアルゴリズムは、最初の2つのセントロイドの計算を容易にし、残りの2つは、以前選択された中心からの距離に応じて選択される。
We obtained only 7.33%, 7.90%, and 0% clustering error in Iris, Letter, and Ruspini data。
論文 参考訳(メタデータ) (2022-10-18T00:58:50Z) - $k$-Median Clustering via Metric Embedding: Towards Better
Initialization with Differential Privacy [31.963659189956367]
一般計量空間における$k$-median問題に対する新しいHSTスキームを開発する。
そこで本研究では,新しい探索アルゴリズムを提案する。
私たちのアプローチは、$k$-means問題にも拡張できます。
論文 参考訳(メタデータ) (2022-06-26T14:58:36Z) - Gradient Based Clustering [72.15857783681658]
本稿では,クラスタリングの品質を計測するコスト関数の勾配を用いて,距離に基づくクラスタリングの一般的な手法を提案する。
アプローチは反復的な2段階の手順(クラスタ割り当てとクラスタセンターのアップデートの代替)であり、幅広い機能に適用できる。
論文 参考訳(メタデータ) (2022-02-01T19:31:15Z) - K-Splits: Improved K-Means Clustering Algorithm to Automatically Detect
the Number of Clusters [0.12313056815753944]
本稿では,k-meansに基づく改良された階層型アルゴリズムであるk-splitsを紹介する。
提案手法の主な利点は,精度と速度である。
論文 参考訳(メタデータ) (2021-10-09T23:02:57Z) - Determinantal consensus clustering [77.34726150561087]
本稿では,クラスタリングアルゴリズムのランダム再起動における決定点プロセス (DPP) の利用を提案する。
DPPは部分集合内の中心点の多様性を好んでいる。
DPPとは対照的に、この手法は多様性の確保と、すべてのデータフェースについて良好なカバレッジを得るために失敗することを示す。
論文 参考訳(メタデータ) (2021-02-07T23:48:24Z) - Learnable Subspace Clustering [76.2352740039615]
本研究では,大規模サブスペースクラスタリング問題を効率的に解くために,学習可能なサブスペースクラスタリングパラダイムを開発する。
鍵となる考え方は、高次元部分空間を下層の低次元部分空間に分割するパラメトリック関数を学ぶことである。
我々の知る限り、本論文は、サブスペースクラスタリング手法の中で、数百万のデータポイントを効率的にクラスタ化する最初の試みである。
論文 参考訳(メタデータ) (2020-04-09T12:53:28Z) - Optimal Randomized First-Order Methods for Least-Squares Problems [56.05635751529922]
このアルゴリズムのクラスは、最小二乗問題に対する最も高速な解法のうち、いくつかのランダム化手法を含んでいる。
我々は2つの古典的埋め込み、すなわちガウス射影とアダマール変換のサブサンプリングに焦点を当てる。
得られたアルゴリズムは条件数に依存しない最小二乗問題の解法として最も複雑である。
論文 参考訳(メタデータ) (2020-02-21T17:45:32Z) - A novel initialisation based on hospital-resident assignment for the
k-modes algorithm [0.0]
本稿では,k-modesアルゴリズムの初期解を選択する新しい方法を提案する。
これは、数学的公正性の概念と、文献から共通の初期化ができないデータの活用を可能にする。
論文 参考訳(メタデータ) (2020-02-07T10:20:49Z) - Clustering Binary Data by Application of Combinatorial Optimization
Heuristics [52.77024349608834]
本稿では,2値データのクラスタリング手法について検討し,まず,クラスタのコンパクトさを計測するアグリゲーション基準を定義した。
近隣地域と人口動態最適化メタヒューリスティックスを用いた5つの新しいオリジナル手法が導入された。
準モンテカルロ実験によって生成された16のデータテーブルから、L1の相似性と階層的クラスタリング、k-means(メドイドやPAM)の1つのアグリゲーションの比較を行う。
論文 参考訳(メタデータ) (2020-01-06T23:33:31Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。