論文の概要: Binary Bleed: Fast Distributed and Parallel Method for Automatic Model Selection
- arxiv url: http://arxiv.org/abs/2407.19125v1
- Date: Fri, 26 Jul 2024 23:48:51 GMT
- ステータス: 処理完了
- システム内更新日: 2024-07-30 19:40:49.317493
- Title: Binary Bleed: Fast Distributed and Parallel Method for Automatic Model Selection
- Title(参考訳): Binary Bleed: 自動モデル選択のための高速分散並列方式
- Authors: Ryan Barron, Maksim E. Eren, Manish Bhattarai, Ismael Boureima, Cynthia Matuszek, Boian S. Alexandrov,
- Abstract要約: 本稿では,2進探索に基づくBinary Bleed方式を導入し,機械学習アルゴリズムのk探索スペースを大幅に削減する。
Binary Bleedはシングルノードシリアル、シングルノードマルチプロセッサ、分散コンピューティングリソースで動作するように設計されている。
- 参考スコア(独自算出の注目度): 6.951454308408134
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: In several Machine Learning (ML) clustering and dimensionality reduction approaches, such as non-negative matrix factorization (NMF), RESCAL, and K-Means clustering, users must select a hyper-parameter k to define the number of clusters or components that yield an ideal separation of samples or clean clusters. This selection, while difficult, is crucial to avoid overfitting or underfitting the data. Several ML applications use scoring methods (e.g., Silhouette and Davies Boulding scores) to evaluate the cluster pattern stability for a specific k. The score is calculated for different trials over a range of k, and the ideal k is heuristically selected as the value before the model starts overfitting, indicated by a drop or increase in the score resembling an elbow curve plot. While the grid-search method can be used to accurately find a good k value, visiting a range of k can become time-consuming and computationally resource-intensive. In this paper, we introduce the Binary Bleed method based on binary search, which significantly reduces the k search space for these grid-search ML algorithms by truncating the target k values from the search space using a heuristic with thresholding over the scores. Binary Bleed is designed to work with single-node serial, single-node multi-processing, and distributed computing resources. In our experiments, we demonstrate the reduced search space gain over a naive sequential search of the ideal k and the accuracy of the Binary Bleed in identifying the correct k for NMFk, K-Means pyDNMFk, and pyDRESCALk with Silhouette and Davies Boulding scores. We make our implementation of Binary Bleed for the NMF algorithm available on GitHub.
- Abstract(参考訳): 非負行列分解(NMF)、RESCAL、K-Meansクラスタリングなどの機械学習(ML)クラスタリングと次元削減アプローチでは、サンプルやクリーンクラスタの理想的な分離をもたらすクラスタやコンポーネントの数を定義するために、ハイパーパラメータkを選択する必要がある。
いくつかのMLアプリケーションは、特定のkに対するクラスタパターンの安定性を評価するのにスコアリング方法(例:Silhouette、Davies Bouldingスコア)を使用している。
本稿では,二進探索に基づく二進 Bleed 法を導入し,これらの格子探索ML アルゴリズムの k 探索空間を,スコアをしきい値で割ったヒューリスティックを用いて探索空間から目標 k 値を切り離すことにより,大幅に削減する。
Binary Bleedはシングルノードシリアル、シングルノードマルチプロセッサ、分散コンピューティングリソースで動作するように設計されている。
実験では,NMFk,K-Means pyDNMFk,pyDRESCALkとSilhouette,Davies Bouldingの正解 k に対して,理想 k の単純連続探索と二項 Bleed の精度を比較検討した。
NMFアルゴリズムのためのBinary Bleedの実装をGitHubで公開しています。
- A simulation study of cluster search algorithms in data set generated by Gaussian mixture models [0.0]
本研究では,ガウス混合モデル (GMM) が生成できる様々なケースにおいて,セントロイドおよびモデルに基づくクラスタ探索アルゴリズムについて検討した。
その結果, ユークリッド距離に基づくクラスタ分割基準は, クラスタが重なり合うと不合理な決定を下すことがわかった。
論文 参考訳(メタデータ) (2024-07-27T07:47:25Z) - Linear time Evidence Accumulation Clustering with KMeans [0.0]
論文 参考訳(メタデータ) (2023-11-15T14:12:59Z) - Revisiting Instance-Optimal Cluster Recovery in the Labeled Stochastic Block Model [69.15976031704687]
IAC (Instance-Adaptive Clustering, インスタンス適応クラスタリング) を提案する。
IACは$ MathcalO(n, textpolylog(n) $の計算複雑性を維持しており、大規模問題に対してスケーラブルで実用的なものである。
論文 参考訳(メタデータ) (2023-06-18T08:46:06Z) - Rethinking k-means from manifold learning perspective [122.38667613245151]
異なる視点に埋め込まれた相補的な情報をうまく活用するために、テンソルのSchatten p-norm正規化を利用する。
論文 参考訳(メタデータ) (2023-05-12T03:01:41Z) - Efficient Nearest Neighbor Search for Cross-Encoder Models using Matrix
Factorization [60.91600465922932]
論文 参考訳(メタデータ) (2022-10-23T00:32:04Z) - An enhanced method of initial cluster center selection for K-means
algorithm [0.0]
Convex Hullアルゴリズムは、最初の2つのセントロイドの計算を容易にし、残りの2つは、以前選択された中心からの距離に応じて選択される。
We obtained only 7.33%, 7.90%, and 0% clustering error in Iris, Letter, and Ruspini data。
論文 参考訳(メタデータ) (2022-10-18T00:58:50Z) - K-Splits: Improved K-Means Clustering Algorithm to Automatically Detect
the Number of Clusters [0.12313056815753944]
論文 参考訳(メタデータ) (2021-10-09T23:02:57Z) - SMLSOM: The shrinking maximum likelihood self-organizing map [0.0]
論文 参考訳(メタデータ) (2021-04-28T18:50:36Z) - Computationally efficient sparse clustering [67.95910835079825]
ここでは,ミニマックス最適誤クラスタ化率を,体制$|theta infty$で達成することを示す。
論文 参考訳(メタデータ) (2020-05-21T17:51:30Z) - Clustering Binary Data by Application of Combinatorial Optimization
Heuristics [52.77024349608834]
論文 参考訳(メタデータ) (2020-01-06T23:33:31Z) - Optimal Clustering from Noisy Binary Feedback [75.17453757892152]
論文 参考訳(メタデータ) (2019-10-14T09:18:26Z)