論文の概要: How to Use K-means for Big Data Clustering?
- arxiv url: http://arxiv.org/abs/2204.07485v3
- Date: Thu, 23 Nov 2023 08:32:40 GMT
- ステータス: 処理完了
- システム内更新日: 2023-11-28 05:21:24.027350
- Title: How to Use K-means for Big Data Clustering?
- Title(参考訳): ビッグデータクラスタリングにK-meansを使うには?
- Authors: Rustam Mussabayev, Nenad Mladenovic, Bassem Jarboui, Ravil Mussabayev
- Abstract要約: K-meansはEuclidean Minimum Sum-of-Squares Clustering (MSSC)モデルの下で最もシンプルで広く使われているアルゴリズムである。
ビッグデータクラスタリングにK-means++アルゴリズムとK-means++アルゴリズムを用いる並列方式を提案する。
- 参考スコア(独自算出の注目度): 2.1165011830664677
- License: http://creativecommons.org/licenses/by-sa/4.0/
- Abstract: K-means plays a vital role in data mining and is the simplest and most widely
used algorithm under the Euclidean Minimum Sum-of-Squares Clustering (MSSC)
model. However, its performance drastically drops when applied to vast amounts
of data. Therefore, it is crucial to improve K-means by scaling it to big data
using as few of the following computational resources as possible: data, time,
and algorithmic ingredients. We propose a new parallel scheme of using K-means
and K-means++ algorithms for big data clustering that satisfies the properties
of a ``true big data'' algorithm and outperforms the classical and recent
state-of-the-art MSSC approaches in terms of solution quality and runtime. The
new approach naturally implements global search by decomposing the MSSC problem
without using additional metaheuristics. This work shows that data
decomposition is the basic approach to solve the big data clustering problem.
The empirical success of the new algorithm allowed us to challenge the common
belief that more data is required to obtain a good clustering solution.
Moreover, the present work questions the established trend that more
sophisticated hybrid approaches and algorithms are required to obtain a better
clustering solution.
- Abstract(参考訳): K-meansはデータマイニングにおいて重要な役割を担い、ユークリッド最小値クラスタリング(MSSC)モデルの下で最もシンプルで広く使われているアルゴリズムである。
しかし、その性能は膨大なデータに適用すると劇的に低下する。
したがって、データ、時間、アルゴリズムといった計算資源を可能な限り少なく使用して、ビッグデータにスケールすることで、K平均を改善することが重要である。
そこで我々は,K-meansとK-means++アルゴリズムを,‘true Big Data’アルゴリズムの特性を満足するビッグデータクラスタリングに利用し,ソリューションの品質と実行性の観点から,古典的かつ最新のMSSCアプローチよりも優れた並列方式を提案する。
新たなアプローチでは,MSSC問題をメタヒューリスティクスを使わずに分解することで,グローバル検索を自然に実現している。
この研究は、ビッグデータクラスタリング問題を解決するための基本的なアプローチがデータの分解であることを示している。
新しいアルゴリズムの実証的な成功により、優れたクラスタリングソリューションを得るためにより多くのデータが必要であるという共通の信念に挑戦することができました。
さらに,より高度なクラスタリングソリューションを得るためには,より洗練されたハイブリッドアプローチとアルゴリズムが必要であるという確立されたトレンドに疑問を呈する。
関連論文リスト
- Strong bounds for large-scale Minimum Sum-of-Squares Clustering [0.9831489366502302]
Minimum Sum-of-Squares Clustering (MSSC)は、最も広く使われているクラスタリング手法の1つである。
MSSCは、データポイントとそれに対応するクラスタセントロイド間の合計2乗ユークリッド距離を最小化することを目的としている。
最適性ギャップによるMSSCソリューションの検証手法を提案する。
論文 参考訳(メタデータ) (2025-02-12T13:40:00Z) - Self-Supervised Graph Embedding Clustering [70.36328717683297]
K-means 1-step dimensionality reduction clustering method は,クラスタリングタスクにおける次元性の呪いに対処する上で,いくつかの進歩をもたらした。
本稿では,K-meansに多様体学習を統合する統一フレームワークを提案する。
論文 参考訳(メタデータ) (2024-09-24T08:59:51Z) - A cutting plane algorithm for globally solving low dimensional k-means
clustering problems [4.5594982923247995]
我々は、低次元データを持つインスタンスのk-means問題を考え、これを構造的凹面割り当て問題として定式化する。
これにより、低次元構造を利用して、妥当な時間で大域的最適性に問題を解くことができる。
本論文は,グローバル最適化理論の手法を組み合わせて手順を高速化し,数値的な結果を提供する。
論文 参考訳(メタデータ) (2024-02-21T07:55:33Z) - A Weighted K-Center Algorithm for Data Subset Selection [70.49696246526199]
サブセット選択は、トレーニングデータの小さな部分を特定する上で重要な役割を果たす、基本的な問題である。
我々は,k中心および不確かさサンプリング目的関数の重み付け和に基づいて,サブセットを計算する新しい係数3近似アルゴリズムを開発した。
論文 参考訳(メタデータ) (2023-12-17T04:41:07Z) - Rethinking k-means from manifold learning perspective [122.38667613245151]
平均推定なしで直接データのクラスタを検出する新しいクラスタリングアルゴリズムを提案する。
具体的には,バタワースフィルタを用いてデータ点間の距離行列を構成する。
異なる視点に埋め込まれた相補的な情報をうまく活用するために、テンソルのSchatten p-norm正規化を利用する。
論文 参考訳(メタデータ) (2023-05-12T03:01:41Z) - Differentially-Private Clustering of Easy Instances [67.04951703461657]
異なるプライベートクラスタリングでは、個々のデータポイントに関する情報を公開せずに、$k$のクラスタセンターを特定することが目標だ。
我々は、データが"簡単"である場合にユーティリティを提供する実装可能な差分プライベートクラスタリングアルゴリズムを提供する。
我々は、非プライベートクラスタリングアルゴリズムを簡単なインスタンスに適用し、結果をプライベートに組み合わせることのできるフレームワークを提案する。
論文 参考訳(メタデータ) (2021-12-29T08:13:56Z) - An Exact Algorithm for Semi-supervised Minimum Sum-of-Squares Clustering [0.5801044612920815]
半教師付きMSSCのための分岐結合アルゴリズムを提案する。
背景知識はペアワイズ・マスタリンクと結びつかない制約として組み込まれている。
提案したグローバル最適化アルゴリズムは,実世界のインスタンスを最大800個のデータポイントまで効率的に解決する。
論文 参考訳(メタデータ) (2021-11-30T17:08:53Z) - Meta Clustering Learning for Large-scale Unsupervised Person
Re-identification [124.54749810371986]
メタクラスタリング学習(MCL)と呼ばれる「大規模タスクのための小さなデータ」パラダイムを提案する。
MCLは、第1フェーズのトレーニングのためにコンピューティングを節約するためにクラスタリングを介して、未ラベルデータのサブセットを擬似ラベル付けするのみである。
提案手法は計算コストを大幅に削減すると同時に,従来よりも優れた性能を実現している。
論文 参考訳(メタデータ) (2021-11-19T04:10:18Z) - Robust Trimmed k-means [70.88503833248159]
本稿では,外乱点とクラスタポイントを同時に識別するRobust Trimmed k-means (RTKM)を提案する。
RTKMは他の方法と競合することを示す。
論文 参考訳(メタデータ) (2021-08-16T15:49:40Z) - Clustering of Big Data with Mixed Features [3.3504365823045044]
我々は混合型の大規模データのための新しいクラスタリングアルゴリズムを開発した。
このアルゴリズムは、比較的低い密度値の外れ値とクラスターを検出することができる。
本研究では,本アルゴリズムが実際に有効であることを示す実験結果を示す。
論文 参考訳(メタデータ) (2020-11-11T19:54:38Z) - Too Much Information Kills Information: A Clustering Perspective [6.375668163098171]
分散に基づくk-クラスタリングタスクに対して,k-平均クラスタリング(k-means clustering)が広く知られていることを含む,単純かつ斬新なアプローチを提案する。
提案手法は、与えられたデータセットからサンプリングサブセットを選択し、サブセット内のデータ情報のみに基づいて決定する。
ある仮定では、結果のクラスタリングは、高い確率で分散に基づく目的の最適度を推定するのに十分である。
論文 参考訳(メタデータ) (2020-09-16T01:54:26Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。