論文の概要: Strategies for Parallelizing the Big-Means Algorithm: A Comprehensive
Tutorial for Effective Big Data Clustering
- arxiv url: http://arxiv.org/abs/2311.04517v2
- Date: Thu, 23 Nov 2023 07:40:51 GMT
- ステータス: 処理完了
- システム内更新日: 2023-11-28 02:40:18.353312
- Title: Strategies for Parallelizing the Big-Means Algorithm: A Comprehensive
Tutorial for Effective Big Data Clustering
- Title(参考訳): Big-Meansアルゴリズムの並列化戦略: 効果的なビッグデータクラスタリングのための総合的チュートリアル
- Authors: Ravil Mussabayev and Rustam Mussabayev
- Abstract要約: 本研究では,大規模データセットをクラスタリングするためのBig-meansアルゴリズムの最適化に注目し,4つの異なる並列化戦略を探索する。
計算効率,スケーラビリティ,クラスタリング性能を評価する実験を行い,その利点と限界を明らかにした。
- 参考スコア(独自算出の注目度): 0.3626013617212667
- License: http://creativecommons.org/licenses/by-sa/4.0/
- Abstract: This study focuses on the optimization of the Big-means algorithm for
clustering large-scale datasets, exploring four distinct parallelization
strategies. We conducted extensive experiments to assess the computational
efficiency, scalability, and clustering performance of each approach, revealing
their benefits and limitations. The paper also delves into the trade-offs
between computational efficiency and clustering quality, examining the impacts
of various factors. Our insights provide practical guidance on selecting the
best parallelization strategy based on available resources and dataset
characteristics, contributing to a deeper understanding of parallelization
techniques for the Big-means algorithm.
- Abstract(参考訳): 本研究では,大規模データセットをクラスタリングするためのBig-meansアルゴリズムの最適化に注目し,4つの異なる並列化戦略を探索する。
各アプローチの計算効率,スケーラビリティ,クラスタリング性能を評価し,そのメリットと限界を明らかにするため,広範な実験を行った。
また,計算効率とクラスタリング品質のトレードオフについても検討し,各種要因の影響について検討した。
今回の知見は,利用可能なリソースとデータセット特性に基づく最良並列化戦略の選択に関する実践的ガイダンスを提供し,big-meansアルゴリズムの並列化手法のより深い理解に寄与する。
関連論文リスト
- Scalable Multi-view Clustering via Explicit Kernel Features Maps [20.610589722626074]
マルチビュー学習に対する意識の高まりは、現実世界のアプリケーションにおける複数のビューの増加によるものだ。
優れたクラスタリング性能を維持しつつ,計算負担を軽減するため,カーネル特徴マップを活用した効率的な最適化手法を提案する。
我々は,最先端のマルチビューサブスペースクラスタリング手法や属性ネットワークのマルチビューアプローチに対して,アルゴリズムの性能を評価するために,様々な規模の実世界のベンチマークネットワーク上で広範囲に実験を行った。
論文 参考訳(メタデータ) (2024-02-07T12:35:31Z) - A Weighted K-Center Algorithm for Data Subset Selection [70.49696246526199]
サブセット選択は、トレーニングデータの小さな部分を特定する上で重要な役割を果たす、基本的な問題である。
我々は,k中心および不確かさサンプリング目的関数の重み付け和に基づいて,サブセットを計算する新しい係数3近似アルゴリズムを開発した。
論文 参考訳(メタデータ) (2023-12-17T04:41:07Z) - Optimizing K-means for Big Data: A Comparative Study [0.3626013617212667]
K-meansはクラスタリングアルゴリズムとして広く使用されているが、大規模なデータセットを扱う場合、スケーラビリティの問題に悩まされる可能性がある。
本稿では、並列化、近似、サンプリング方法など、これらの問題を克服するための様々なアプローチについて検討する。
論文 参考訳(メタデータ) (2023-10-15T12:35:27Z) - Late Fusion Multi-view Clustering via Global and Local Alignment
Maximization [61.89218392703043]
マルチビュークラスタリング(MVC)は、異なるビューからの補完情報を最適に統合し、クラスタリング性能を改善する。
既存のアプローチの多くは、クラスタリングに最適な類似性行列を学ぶために、複数の事前定義された類似性を直接融合する。
これらの問題に対処するために、アライメントを通してレイトフュージョンMVCを提案する。
論文 参考訳(メタデータ) (2022-08-02T01:49:31Z) - A sampling-based approach for efficient clustering in large datasets [0.8952229340927184]
本稿では,多数のクラスタを持つ高次元データに対して,簡便かつ効率的なクラスタリング手法を提案する。
私たちのコントリビューションは、データポイントとクラスタの完全な比較を必要としないため、k-meansよりもはるかに効率的です。
論文 参考訳(メタデータ) (2021-12-29T19:15:20Z) - Effective and Efficient Graph Learning for Multi-view Clustering [173.8313827799077]
マルチビュークラスタリングのための効率的かつ効率的なグラフ学習モデルを提案する。
本手法はテンソルシャッテンp-ノルムの最小化により異なるビューのグラフ間のビュー類似性を利用する。
提案アルゴリズムは時間経済であり,安定した結果を得るとともに,データサイズによく対応している。
論文 参考訳(メタデータ) (2021-08-15T13:14:28Z) - A Field Guide to Federated Optimization [161.3779046812383]
フェデレートされた学習と分析は、分散化されたデータからモデル(あるいは統計)を協調的に学習するための分散アプローチである。
本稿では、フェデレート最適化アルゴリズムの定式化、設計、評価、分析に関する勧告とガイドラインを提供する。
論文 参考訳(メタデータ) (2021-07-14T18:09:08Z) - LSEC: Large-scale spectral ensemble clustering [8.545202841051582]
本稿では,効率と効率のバランスを良くするために,大規模スペクトルアンサンブルクラスタリング(LSEC)手法を提案する。
LSEC法は既存のアンサンブルクラスタリング法よりも計算複雑性が低い。
論文 参考訳(メタデータ) (2021-06-18T00:42:03Z) - Multi-View Spectral Clustering with High-Order Optimal Neighborhood
Laplacian Matrix [57.11971786407279]
マルチビュースペクトルクラスタリングは、データ間の固有のクラスタ構造を効果的に明らかにすることができる。
本稿では,高次最適近傍ラプラシア行列を学習するマルチビュースペクトルクラスタリングアルゴリズムを提案する。
提案アルゴリズムは, 1次ベースと高次ベースの両方の線形結合の近傍を探索し, 最適ラプラシア行列を生成する。
論文 参考訳(メタデータ) (2020-08-31T12:28:40Z) - A Survey on Large-scale Machine Learning [67.6997613600942]
機械学習はデータに対する深い洞察を与え、マシンが高品質な予測を行うことを可能にする。
ほとんどの高度な機械学習アプローチは、大規模なデータを扱う場合の膨大な時間コストに悩まされる。
大規模機械学習は、ビッグデータからパターンを、同等のパフォーマンスで効率的に学習することを目的としている。
論文 参考訳(メタデータ) (2020-08-10T06:07:52Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。