論文の概要: Strategies for Parallelizing the Big-Means Algorithm: A Comprehensive
Tutorial for Effective Big Data Clustering
- arxiv url: http://arxiv.org/abs/2311.04517v2
- Date: Thu, 23 Nov 2023 07:40:51 GMT
- ステータス: 処理完了
- システム内更新日: 2023-11-28 02:40:18.353312
- Title: Strategies for Parallelizing the Big-Means Algorithm: A Comprehensive
Tutorial for Effective Big Data Clustering
- Title(参考訳): Big-Meansアルゴリズムの並列化戦略: 効果的なビッグデータクラスタリングのための総合的チュートリアル
- Authors: Ravil Mussabayev and Rustam Mussabayev
- Abstract要約: 本研究では,大規模データセットをクラスタリングするためのBig-meansアルゴリズムの最適化に注目し,4つの異なる並列化戦略を探索する。
計算効率,スケーラビリティ,クラスタリング性能を評価する実験を行い,その利点と限界を明らかにした。
- 参考スコア(独自算出の注目度): 0.3626013617212667
- License: http://creativecommons.org/licenses/by-sa/4.0/
- Abstract: This study focuses on the optimization of the Big-means algorithm for
clustering large-scale datasets, exploring four distinct parallelization
strategies. We conducted extensive experiments to assess the computational
efficiency, scalability, and clustering performance of each approach, revealing
their benefits and limitations. The paper also delves into the trade-offs
between computational efficiency and clustering quality, examining the impacts
of various factors. Our insights provide practical guidance on selecting the
best parallelization strategy based on available resources and dataset
characteristics, contributing to a deeper understanding of parallelization
techniques for the Big-means algorithm.
- Abstract(参考訳): 本研究では,大規模データセットをクラスタリングするためのBig-meansアルゴリズムの最適化に注目し,4つの異なる並列化戦略を探索する。
各アプローチの計算効率,スケーラビリティ,クラスタリング性能を評価し,そのメリットと限界を明らかにするため,広範な実験を行った。
また,計算効率とクラスタリング品質のトレードオフについても検討し,各種要因の影響について検討した。
今回の知見は,利用可能なリソースとデータセット特性に基づく最良並列化戦略の選択に関する実践的ガイダンスを提供し,big-meansアルゴリズムの並列化手法のより深い理解に寄与する。
関連論文リスト
- Superior Parallel Big Data Clustering through Competitive Stochastic Sample Size Optimization in Big-means [0.3069335774032178]
本稿では,従来のBig-means手法の進歩である,新しいK-meansクラスタリングアルゴリズムを提案する。
提案手法は並列処理,サンプリング,競合最適化を効率よく統合し,ビッグデータアプリケーション用に設計されたスケーラブルな変種を作成する。
論文 参考訳(メタデータ) (2024-03-27T17:05:03Z) - Sample-Efficient Clustering and Conquer Procedures for Parallel
Large-Scale Ranking and Selection [0.0]
並列コンピューティング環境では、相関ベースのクラスタリングは$mathcalO(p)$サンプル複雑性低減率を達成することができる。
ニューラルアーキテクチャ検索のような大規模AIアプリケーションでは、スクリーニングなしバージョンの手順が、サンプル効率の点で完全に順序づけられたベンチマークを驚くほど上回っている。
論文 参考訳(メタデータ) (2024-02-03T15:56:03Z) - A Weighted K-Center Algorithm for Data Subset Selection [70.49696246526199]
サブセット選択は、トレーニングデータの小さな部分を特定する上で重要な役割を果たす、基本的な問題である。
我々は,k中心および不確かさサンプリング目的関数の重み付け和に基づいて,サブセットを計算する新しい係数3近似アルゴリズムを開発した。
論文 参考訳(メタデータ) (2023-12-17T04:41:07Z) - Towards a Better Theoretical Understanding of Independent Subnetwork Training [56.24689348875711]
独立サブネットワークトレーニング(IST)の理論的考察
ISTは、上記の問題を解決するための、最近提案され、非常に効果的である。
圧縮通信を用いた分散手法など,ISTと代替手法の基本的な違いを同定する。
論文 参考訳(メタデータ) (2023-06-28T18:14:22Z) - Coverage and Capacity Optimization in STAR-RISs Assisted Networks: A
Machine Learning Approach [102.00221938474344]
再構成可能なインテリジェントサーフェス (STAR-RIS) アシストネットワークを同時に送信および反射するカバレッジとキャパシティ最適化のための新しいモデルを提案する。
損失関数ベースの更新戦略はコアポイントであり、各更新時にmin-normソルバによってカバレッジとキャパシティの両方の損失関数の重みを計算することができる。
解析結果から,提案手法は固定重みに基づくMOアルゴリズムよりも優れていることがわかった。
論文 参考訳(メタデータ) (2022-04-13T13:52:22Z) - ES-Based Jacobian Enables Faster Bilevel Optimization [53.675623215542515]
バイレベル最適化(BO)は多くの現代の機械学習問題を解決する強力なツールとして生まれてきた。
既存の勾配法では、ヤコビアンあるいはヘッセンベクトル計算による二階微分近似が必要となる。
本稿では,進化戦略(ES)に基づく新しいBOアルゴリズムを提案し,BOの過勾配における応答ヤコビ行列を近似する。
論文 参考訳(メタデータ) (2021-10-13T19:36:50Z) - An Accurate and Efficient Large-scale Regression Method through Best
Friend Clustering [10.273838113763192]
データサンプルの中で最も重要な情報を捉えた、新規でシンプルなデータ構造を提案します。
クラスタリングと回帰テクニックを並列ライブラリとして組み合わせ、データのハイブリッド構造とモデルの並列性を利用して予測を行います。
論文 参考訳(メタデータ) (2021-04-22T01:34:29Z) - Progressive Batching for Efficient Non-linear Least Squares [31.082253632197023]
ガウス・ニュートンの基本的な改良のほとんどは、基礎となる問題構造の空間性を保証するか、あるいは活用して計算速度を上げることである。
我々の研究は、機械学習と統計の両方からアイデアを借用し、収束を保証するとともに、必要な計算量を大幅に削減する非線形最小二乗に対するアプローチを提案する。
論文 参考訳(メタデータ) (2020-10-21T13:00:04Z) - Multi-View Spectral Clustering with High-Order Optimal Neighborhood
Laplacian Matrix [57.11971786407279]
マルチビュースペクトルクラスタリングは、データ間の固有のクラスタ構造を効果的に明らかにすることができる。
本稿では,高次最適近傍ラプラシア行列を学習するマルチビュースペクトルクラスタリングアルゴリズムを提案する。
提案アルゴリズムは, 1次ベースと高次ベースの両方の線形結合の近傍を探索し, 最適ラプラシア行列を生成する。
論文 参考訳(メタデータ) (2020-08-31T12:28:40Z) - Simple and Scalable Parallelized Bayesian Optimization [2.512827436728378]
本稿では,非同期並列設定のためのシンプルでスケーラブルなBO法を提案する。
マルチ層パーセプトロンのベンチマーク関数とハイパーパラメータ最適化を用いて実験を行った。
論文 参考訳(メタデータ) (2020-06-24T10:25:27Z) - Parallelization Techniques for Verifying Neural Networks [52.917845265248744]
検証問題に基づくアルゴリズムを反復的に導入し、2つの分割戦略を探索する。
また、ニューラルネットワークの検証問題を単純化するために、ニューロンアクティベーションフェーズを利用する、高度に並列化可能な前処理アルゴリズムも導入する。
論文 参考訳(メタデータ) (2020-04-17T20:21:47Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。