論文の概要: High-Performance Hybrid Algorithm for Minimum Sum-of-Squares Clustering of Infinitely Tall Data
- arxiv url: http://arxiv.org/abs/2311.04517v5
- Date: Tue, 25 Jun 2024 10:49:06 GMT
- ステータス: 処理完了
- システム内更新日: 2024-06-26 21:00:07.819252
- Title: High-Performance Hybrid Algorithm for Minimum Sum-of-Squares Clustering of Infinitely Tall Data
- Title(参考訳): 無限大データの最小二乗クラスタリングのための高性能ハイブリッドアルゴリズム
- Authors: Ravil Mussabayev, Rustam Mussabayev,
- Abstract要約: 本稿では,Infinitely Tall Data (MSSC-ITD) の最小二乗クラスタリングという,クラスタリング問題の新しい定式化を提案する。
現代の高性能コンピューティング技術を利用することで、HPClustは、有効性、計算効率、拡張性といった主要なクラスタリング指標を強化する。
- 参考スコア(独自算出の注目度): 0.3069335774032178
- License: http://creativecommons.org/licenses/by-sa/4.0/
- Abstract: This paper introduces a novel formulation of the clustering problem, namely the Minimum Sum-of-Squares Clustering of Infinitely Tall Data (MSSC-ITD), and presents HPClust, an innovative set of hybrid parallel approaches for its effective solution. By utilizing modern high-performance computing techniques, HPClust enhances key clustering metrics: effectiveness, computational efficiency, and scalability. In contrast to vanilla data parallelism, which only accelerates processing time through the MapReduce framework, our approach unlocks superior performance by leveraging the multi-strategy competitive-cooperative parallelism and intricate properties of the objective function landscape. Unlike other available algorithms that struggle to scale, our algorithm is inherently parallel in nature, improving solution quality through increased scalability and parallelism, and outperforming even advanced algorithms designed for small and medium-sized datasets. Our evaluation of HPClust, featuring four parallel strategies, demonstrates its superiority over traditional and cutting-edge methods by offering better performance in the key metrics. These results also show that parallel processing not only enhances the clustering efficiency, but the accuracy as well. Additionally, we explore the balance between computational efficiency and clustering quality, providing insights into optimal parallel strategies based on dataset specifics and resource availability. This research advances our understanding of parallelism in clustering algorithms, demonstrating that a judicious hybridization of advanced parallel approaches yields optimal results for MSSC-ITD. Experiments on synthetic data further confirm HPClust's exceptional scalability and robustness to noise.
- Abstract(参考訳): 本稿では,Infinitely Tall Data (MSSC-ITD) の最小階数クラスタリング(Minimum Sum-of-Squares Clustering of Infinitely Tall Data, MSC-ITD)という,クラスタリング問題の新しい定式化と,その有効解に対するハイブリッド並列手法の革新的な集合であるHPClustを提案する。
現代の高性能コンピューティング技術を利用することで、HPClustは、有効性、計算効率、拡張性といった主要なクラスタリング指標を強化する。
MapReduceフレームワークによる処理時間を短縮するバニラデータ並列処理とは対照的に,本手法では,マルチストラテジーな競合協調並列処理と,目的関数ランドスケープの複雑な特性を活用して,優れた性能を実現する。
スケールに苦しむ他のアルゴリズムとは異なり、当社のアルゴリズムは本質的に並列であり、スケーラビリティと並列性の向上によるソリューション品質の向上、中小データセット用に設計された高度なアルゴリズムよりも優れています。
4つの並列戦略を特徴とするHPClustの評価は,従来の手法や最先端手法よりも優れた性能を示す。
これらの結果から,並列処理はクラスタリング効率を向上するだけでなく,精度も向上することが示された。
さらに、計算効率とクラスタリング品質のバランスについて検討し、データセットの詳細とリソース可用性に基づいた最適な並列戦略に関する洞察を提供する。
本研究はクラスタリングアルゴリズムにおける並列性についての理解を深め,MSSC-ITD に対して,高度な並列アプローチの厳密なハイブリッド化が最適な結果をもたらすことを示す。
合成データに関する実験は、HPClustの異常なスケーラビリティとノイズに対する堅牢性をさらに確認した。
関連論文リスト
- Superior Parallel Big Data Clustering through Competitive Stochastic Sample Size Optimization in Big-means [0.3069335774032178]
本稿では,従来のBig-means手法の進歩である,新しいK-meansクラスタリングアルゴリズムを提案する。
提案手法は並列処理,サンプリング,競合最適化を効率よく統合し,ビッグデータアプリケーション用に設計されたスケーラブルな変種を作成する。
論文 参考訳(メタデータ) (2024-03-27T17:05:03Z) - Sample-Efficient Clustering and Conquer Procedures for Parallel
Large-Scale Ranking and Selection [0.0]
並列コンピューティング環境では、相関ベースのクラスタリングは$mathcalO(p)$サンプル複雑性低減率を達成することができる。
ニューラルアーキテクチャ検索のような大規模AIアプリケーションでは、スクリーニングなしバージョンの手順が、サンプル効率の点で完全に順序づけられたベンチマークを驚くほど上回っている。
論文 参考訳(メタデータ) (2024-02-03T15:56:03Z) - A Weighted K-Center Algorithm for Data Subset Selection [70.49696246526199]
サブセット選択は、トレーニングデータの小さな部分を特定する上で重要な役割を果たす、基本的な問題である。
我々は,k中心および不確かさサンプリング目的関数の重み付け和に基づいて,サブセットを計算する新しい係数3近似アルゴリズムを開発した。
論文 参考訳(メタデータ) (2023-12-17T04:41:07Z) - Towards a Better Theoretical Understanding of Independent Subnetwork Training [56.24689348875711]
独立サブネットワークトレーニング(IST)の理論的考察
ISTは、上記の問題を解決するための、最近提案され、非常に効果的である。
圧縮通信を用いた分散手法など,ISTと代替手法の基本的な違いを同定する。
論文 参考訳(メタデータ) (2023-06-28T18:14:22Z) - Coverage and Capacity Optimization in STAR-RISs Assisted Networks: A
Machine Learning Approach [102.00221938474344]
再構成可能なインテリジェントサーフェス (STAR-RIS) アシストネットワークを同時に送信および反射するカバレッジとキャパシティ最適化のための新しいモデルを提案する。
損失関数ベースの更新戦略はコアポイントであり、各更新時にmin-normソルバによってカバレッジとキャパシティの両方の損失関数の重みを計算することができる。
解析結果から,提案手法は固定重みに基づくMOアルゴリズムよりも優れていることがわかった。
論文 参考訳(メタデータ) (2022-04-13T13:52:22Z) - ES-Based Jacobian Enables Faster Bilevel Optimization [53.675623215542515]
バイレベル最適化(BO)は多くの現代の機械学習問題を解決する強力なツールとして生まれてきた。
既存の勾配法では、ヤコビアンあるいはヘッセンベクトル計算による二階微分近似が必要となる。
本稿では,進化戦略(ES)に基づく新しいBOアルゴリズムを提案し,BOの過勾配における応答ヤコビ行列を近似する。
論文 参考訳(メタデータ) (2021-10-13T19:36:50Z) - An Accurate and Efficient Large-scale Regression Method through Best
Friend Clustering [10.273838113763192]
データサンプルの中で最も重要な情報を捉えた、新規でシンプルなデータ構造を提案します。
クラスタリングと回帰テクニックを並列ライブラリとして組み合わせ、データのハイブリッド構造とモデルの並列性を利用して予測を行います。
論文 参考訳(メタデータ) (2021-04-22T01:34:29Z) - Progressive Batching for Efficient Non-linear Least Squares [31.082253632197023]
ガウス・ニュートンの基本的な改良のほとんどは、基礎となる問題構造の空間性を保証するか、あるいは活用して計算速度を上げることである。
我々の研究は、機械学習と統計の両方からアイデアを借用し、収束を保証するとともに、必要な計算量を大幅に削減する非線形最小二乗に対するアプローチを提案する。
論文 参考訳(メタデータ) (2020-10-21T13:00:04Z) - Multi-View Spectral Clustering with High-Order Optimal Neighborhood
Laplacian Matrix [57.11971786407279]
マルチビュースペクトルクラスタリングは、データ間の固有のクラスタ構造を効果的に明らかにすることができる。
本稿では,高次最適近傍ラプラシア行列を学習するマルチビュースペクトルクラスタリングアルゴリズムを提案する。
提案アルゴリズムは, 1次ベースと高次ベースの両方の線形結合の近傍を探索し, 最適ラプラシア行列を生成する。
論文 参考訳(メタデータ) (2020-08-31T12:28:40Z) - Simple and Scalable Parallelized Bayesian Optimization [2.512827436728378]
本稿では,非同期並列設定のためのシンプルでスケーラブルなBO法を提案する。
マルチ層パーセプトロンのベンチマーク関数とハイパーパラメータ最適化を用いて実験を行った。
論文 参考訳(メタデータ) (2020-06-24T10:25:27Z) - Parallelization Techniques for Verifying Neural Networks [52.917845265248744]
検証問題に基づくアルゴリズムを反復的に導入し、2つの分割戦略を探索する。
また、ニューラルネットワークの検証問題を単純化するために、ニューロンアクティベーションフェーズを利用する、高度に並列化可能な前処理アルゴリズムも導入する。
論文 参考訳(メタデータ) (2020-04-17T20:21:47Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。