論文の概要: Optimizing K-means for Big Data: A Comparative Study
- arxiv url: http://arxiv.org/abs/2310.09819v2
- Date: Thu, 7 Dec 2023 11:11:18 GMT
- ステータス: 処理完了
- システム内更新日: 2023-12-08 18:26:53.951256
- Title: Optimizing K-means for Big Data: A Comparative Study
- Title(参考訳): ビッグデータのためのK平均の最適化:比較研究
- Authors: Ravil Mussabayev, Rustam Mussabayev
- Abstract要約: K-meansはクラスタリングアルゴリズムとして広く使用されているが、大規模なデータセットを扱う場合、スケーラビリティの問題に悩まされる可能性がある。
本稿では、並列化、近似、サンプリング方法など、これらの問題を克服するための様々なアプローチについて検討する。
- 参考スコア(独自算出の注目度): 0.3626013617212667
- License: http://creativecommons.org/licenses/by-sa/4.0/
- Abstract: This paper presents a comparative analysis of different optimization
techniques for the K-means algorithm in the context of big data. K-means is a
widely used clustering algorithm, but it can suffer from scalability issues
when dealing with large datasets. The paper explores different approaches to
overcome these issues, including parallelization, approximation, and sampling
methods. The authors evaluate the performance of these techniques on various
benchmark datasets and compare them in terms of speed, quality of clustering,
and scalability according to the LIMA dominance criterion. The results show
that different techniques are more suitable for different types of datasets and
provide insights into the trade-offs between speed and accuracy in K-means
clustering for big data. Overall, the paper offers a comprehensive guide for
practitioners and researchers on how to optimize K-means for big data
applications.
- Abstract(参考訳): 本稿では,ビッグデータの文脈におけるk-meansアルゴリズムの最適化手法の比較分析を行う。
k-meansは広く使用されているクラスタリングアルゴリズムだが、大規模なデータセットを扱う場合、スケーラビリティの問題に苦しむ可能性がある。
この論文は、並列化、近似、サンプリング法など、これらの問題を克服するための様々なアプローチを探求する。
筆者らは,様々なベンチマークデータセットにおけるこれらの手法の性能を評価し,lima支配基準に従って,速度,クラスタリングの質,スケーラビリティの観点から比較した。
その結果、異なる手法がデータセットの異なるタイプに適していることが示され、ビッグデータのK平均クラスタリングにおける速度と精度のトレードオフに関する洞察を提供する。
全体として、この論文は、ビッグデータアプリケーションにK平均をどのように最適化するかについて、実践者や研究者に包括的なガイドを提供する。
関連論文リスト
- Fuzzy K-Means Clustering without Cluster Centroids [79.19713746387337]
ファジィK平均クラスタリングは教師なしデータ解析において重要な計算手法である。
本稿では,クラスタセントロイドへの依存を完全に排除する,ファジィK平均クラスタリングアルゴリズムを提案する。
論文 参考訳(メタデータ) (2024-04-07T12:25:03Z) - Superior Parallel Big Data Clustering through Competitive Stochastic Sample Size Optimization in Big-means [0.3069335774032178]
本稿では,従来のBig-means手法の進歩である,新しいK-meansクラスタリングアルゴリズムを提案する。
提案手法は並列処理,サンプリング,競合最適化を効率よく統合し,ビッグデータアプリケーション用に設計されたスケーラブルな変種を作成する。
論文 参考訳(メタデータ) (2024-03-27T17:05:03Z) - A Weighted K-Center Algorithm for Data Subset Selection [70.49696246526199]
サブセット選択は、トレーニングデータの小さな部分を特定する上で重要な役割を果たす、基本的な問題である。
我々は,k中心および不確かさサンプリング目的関数の重み付け和に基づいて,サブセットを計算する新しい係数3近似アルゴリズムを開発した。
論文 参考訳(メタデータ) (2023-12-17T04:41:07Z) - Strategies for Parallelizing the Big-Means Algorithm: A Comprehensive
Tutorial for Effective Big Data Clustering [0.3626013617212667]
本研究では,大規模データセットをクラスタリングするためのBig-meansアルゴリズムの最適化に注目し,4つの異なる並列化戦略を探索する。
計算効率,スケーラビリティ,クラスタリング性能を評価する実験を行い,その利点と限界を明らかにした。
論文 参考訳(メタデータ) (2023-11-08T08:02:52Z) - Rethinking k-means from manifold learning perspective [122.38667613245151]
平均推定なしで直接データのクラスタを検出する新しいクラスタリングアルゴリズムを提案する。
具体的には,バタワースフィルタを用いてデータ点間の距離行列を構成する。
異なる視点に埋め込まれた相補的な情報をうまく活用するために、テンソルのSchatten p-norm正規化を利用する。
論文 参考訳(メタデータ) (2023-05-12T03:01:41Z) - Detection and Evaluation of Clusters within Sequential Data [58.720142291102135]
Block Markov Chainsのクラスタリングアルゴリズムは理論的最適性を保証する。
特に、私たちのシーケンシャルデータは、ヒトのDNA、テキスト、動物運動データ、金融市場から派生しています。
ブロックマルコフ連鎖モデルの仮定は、実際に探索データ解析において有意義な洞察を得られることが判明した。
論文 参考訳(メタデータ) (2022-10-04T15:22:39Z) - How to Use K-means for Big Data Clustering? [2.1165011830664677]
K-meansはEuclidean Minimum Sum-of-Squares Clustering (MSSC)モデルの下で最もシンプルで広く使われているアルゴリズムである。
ビッグデータクラスタリングにK-means++アルゴリズムとK-means++アルゴリズムを用いる並列方式を提案する。
論文 参考訳(メタデータ) (2022-04-14T08:18:01Z) - A sampling-based approach for efficient clustering in large datasets [0.8952229340927184]
本稿では,多数のクラスタを持つ高次元データに対して,簡便かつ効率的なクラスタリング手法を提案する。
私たちのコントリビューションは、データポイントとクラスタの完全な比較を必要としないため、k-meansよりもはるかに効率的です。
論文 参考訳(メタデータ) (2021-12-29T19:15:20Z) - Robust Trimmed k-means [70.88503833248159]
本稿では,外乱点とクラスタポイントを同時に識別するRobust Trimmed k-means (RTKM)を提案する。
RTKMは他の方法と競合することを示す。
論文 参考訳(メタデータ) (2021-08-16T15:49:40Z) - Effective Data-aware Covariance Estimator from Compressed Data [63.16042585506435]
本研究では,データ対応重み付きサンプリングベース共分散行列推定器,すなわち DACE を提案し,非バイアス共分散行列推定を行う。
我々は、DACEの優れた性能を示すために、合成データセットと実世界のデータセットの両方で広範な実験を行う。
論文 参考訳(メタデータ) (2020-10-10T10:10:28Z) - Too Much Information Kills Information: A Clustering Perspective [6.375668163098171]
分散に基づくk-クラスタリングタスクに対して,k-平均クラスタリング(k-means clustering)が広く知られていることを含む,単純かつ斬新なアプローチを提案する。
提案手法は、与えられたデータセットからサンプリングサブセットを選択し、サブセット内のデータ情報のみに基づいて決定する。
ある仮定では、結果のクラスタリングは、高い確率で分散に基づく目的の最適度を推定するのに十分である。
論文 参考訳(メタデータ) (2020-09-16T01:54:26Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。