論文の概要: Binary Bleed: Fast Distributed and Parallel Method for Automatic Model Selection
- arxiv url: http://arxiv.org/abs/2407.19125v1
- Date: Fri, 26 Jul 2024 23:48:51 GMT
- ステータス: 処理完了
- システム内更新日: 2024-07-30 19:40:49.317493
- Title: Binary Bleed: Fast Distributed and Parallel Method for Automatic Model Selection
- Title(参考訳): Binary Bleed: 自動モデル選択のための高速分散並列方式
- Authors: Ryan Barron, Maksim E. Eren, Manish Bhattarai, Ismael Boureima, Cynthia Matuszek, Boian S. Alexandrov,
- Abstract要約: 本稿では,2進探索に基づくBinary Bleed方式を導入し,機械学習アルゴリズムのk探索スペースを大幅に削減する。
Binary Bleedはシングルノードシリアル、シングルノードマルチプロセッサ、分散コンピューティングリソースで動作するように設計されている。
- 参考スコア(独自算出の注目度): 6.951454308408134
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: In several Machine Learning (ML) clustering and dimensionality reduction approaches, such as non-negative matrix factorization (NMF), RESCAL, and K-Means clustering, users must select a hyper-parameter k to define the number of clusters or components that yield an ideal separation of samples or clean clusters. This selection, while difficult, is crucial to avoid overfitting or underfitting the data. Several ML applications use scoring methods (e.g., Silhouette and Davies Boulding scores) to evaluate the cluster pattern stability for a specific k. The score is calculated for different trials over a range of k, and the ideal k is heuristically selected as the value before the model starts overfitting, indicated by a drop or increase in the score resembling an elbow curve plot. While the grid-search method can be used to accurately find a good k value, visiting a range of k can become time-consuming and computationally resource-intensive. In this paper, we introduce the Binary Bleed method based on binary search, which significantly reduces the k search space for these grid-search ML algorithms by truncating the target k values from the search space using a heuristic with thresholding over the scores. Binary Bleed is designed to work with single-node serial, single-node multi-processing, and distributed computing resources. In our experiments, we demonstrate the reduced search space gain over a naive sequential search of the ideal k and the accuracy of the Binary Bleed in identifying the correct k for NMFk, K-Means pyDNMFk, and pyDRESCALk with Silhouette and Davies Boulding scores. We make our implementation of Binary Bleed for the NMF algorithm available on GitHub.
- Abstract(参考訳): 非負行列分解(NMF)、RESCAL、K-Meansクラスタリングなどの機械学習(ML)クラスタリングと次元削減アプローチでは、サンプルやクリーンクラスタの理想的な分離をもたらすクラスタやコンポーネントの数を定義するために、ハイパーパラメータkを選択する必要がある。
この選択は難しいが、データの過度な適合や過度な適合を避けることが不可欠である。
いくつかのMLアプリケーションは、特定のkに対するクラスタパターンの安定性を評価するのにスコアリング方法(例:Silhouette、Davies Bouldingスコア)を使用している。
スコアは、kの範囲で異なる試行に対して算出され、理想kは、エルボ曲線プロットに類似したスコアの減少または増加によって、モデルがオーバーフィットを開始する前に、値としてヒューリスティックに選択される。
グリッド探索法は良いk値を正確に見つけるのに使えるが、kの範囲を訪れると時間と計算資源が集中する。
本稿では,二進探索に基づく二進 Bleed 法を導入し,これらの格子探索ML アルゴリズムの k 探索空間を,スコアをしきい値で割ったヒューリスティックを用いて探索空間から目標 k 値を切り離すことにより,大幅に削減する。
Binary Bleedはシングルノードシリアル、シングルノードマルチプロセッサ、分散コンピューティングリソースで動作するように設計されている。
実験では,NMFk,K-Means pyDNMFk,pyDRESCALkとSilhouette,Davies Bouldingの正解 k に対して,理想 k の単純連続探索と二項 Bleed の精度を比較検討した。
NMFアルゴリズムのためのBinary Bleedの実装をGitHubで公開しています。
関連論文リスト
- A simulation study of cluster search algorithms in data set generated by Gaussian mixture models [0.0]
本研究では,ガウス混合モデル (GMM) が生成できる様々なケースにおいて,セントロイドおよびモデルに基づくクラスタ探索アルゴリズムについて検討した。
その結果, ユークリッド距離に基づくクラスタ分割基準は, クラスタが重なり合うと不合理な決定を下すことがわかった。
論文 参考訳(メタデータ) (2024-07-27T07:47:25Z) - Linear time Evidence Accumulation Clustering with KMeans [0.0]
この研究は、平均的なリンククラスタリングの振る舞いを模倣するトリックを記述する。
分割の密度を効率よく計算する方法を見つけ、二次的な複雑さから線形的な複雑さへのコストを削減した。
k平均結果は、計算コストを低く保ちながら、NMIの観点からは、最先端の技術に匹敵する。
論文 参考訳(メタデータ) (2023-11-15T14:12:59Z) - Instance-Optimal Cluster Recovery in the Labeled Stochastic Block Model [79.46465138631592]
観測されたラベルを用いてクラスタを復元する効率的なアルゴリズムを考案する。
本稿では,期待値と高い確率でこれらの下位境界との性能を一致させる最初のアルゴリズムであるIACを提案する。
論文 参考訳(メタデータ) (2023-06-18T08:46:06Z) - Rethinking k-means from manifold learning perspective [122.38667613245151]
平均推定なしで直接データのクラスタを検出する新しいクラスタリングアルゴリズムを提案する。
具体的には,バタワースフィルタを用いてデータ点間の距離行列を構成する。
異なる視点に埋め込まれた相補的な情報をうまく活用するために、テンソルのSchatten p-norm正規化を利用する。
論文 参考訳(メタデータ) (2023-05-12T03:01:41Z) - Efficient Nearest Neighbor Search for Cross-Encoder Models using Matrix
Factorization [60.91600465922932]
本稿では,クロスエンコーダのみに頼って,二重エンコーダによる検索を回避する手法を提案する。
我々のアプローチは、現在の広く使われている方法よりも優れたテスト時間リコール-vs計算コストトレードオフを提供する。
論文 参考訳(メタデータ) (2022-10-23T00:32:04Z) - An enhanced method of initial cluster center selection for K-means
algorithm [0.0]
K-meansアルゴリズムの初期クラスタ選択を改善するための新しい手法を提案する。
Convex Hullアルゴリズムは、最初の2つのセントロイドの計算を容易にし、残りの2つは、以前選択された中心からの距離に応じて選択される。
We obtained only 7.33%, 7.90%, and 0% clustering error in Iris, Letter, and Ruspini data。
論文 参考訳(メタデータ) (2022-10-18T00:58:50Z) - K-Splits: Improved K-Means Clustering Algorithm to Automatically Detect
the Number of Clusters [0.12313056815753944]
本稿では,k-meansに基づく改良された階層型アルゴリズムであるk-splitsを紹介する。
提案手法の主な利点は,精度と速度である。
論文 参考訳(メタデータ) (2021-10-09T23:02:57Z) - SMLSOM: The shrinking maximum likelihood self-organizing map [0.0]
本稿では,確率分布モデルフレームワークに基づいて,適切な数のクラスタを自動的に選択するグリージーアルゴリズムを提案する。
既存の手法と比較して,提案手法は計算効率が高く,クラスタ数を正確に選択できる。
論文 参考訳(メタデータ) (2021-04-28T18:50:36Z) - Computationally efficient sparse clustering [67.95910835079825]
我々はPCAに基づく新しいクラスタリングアルゴリズムの有限サンプル解析を行う。
ここでは,ミニマックス最適誤クラスタ化率を,体制$|theta infty$で達成することを示す。
論文 参考訳(メタデータ) (2020-05-21T17:51:30Z) - Clustering Binary Data by Application of Combinatorial Optimization
Heuristics [52.77024349608834]
本稿では,2値データのクラスタリング手法について検討し,まず,クラスタのコンパクトさを計測するアグリゲーション基準を定義した。
近隣地域と人口動態最適化メタヒューリスティックスを用いた5つの新しいオリジナル手法が導入された。
準モンテカルロ実験によって生成された16のデータテーブルから、L1の相似性と階層的クラスタリング、k-means(メドイドやPAM)の1つのアグリゲーションの比較を行う。
論文 参考訳(メタデータ) (2020-01-06T23:33:31Z) - Optimal Clustering from Noisy Binary Feedback [75.17453757892152]
本稿では,二元的ユーザフィードバックから一組のアイテムをクラスタリングする問題について検討する。
最小クラスタ回復誤差率のアルゴリズムを考案する。
適応選択のために,情報理論的誤差下界の導出にインスパイアされたアルゴリズムを開発する。
論文 参考訳(メタデータ) (2019-10-14T09:18:26Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。