論文の概要: An Observation on Lloyd's k-Means Algorithm in High Dimensions
- arxiv url: http://arxiv.org/abs/2506.14952v1
- Date: Tue, 17 Jun 2025 20:06:41 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-06-19 19:35:51.473068
- Title: An Observation on Lloyd's k-Means Algorithm in High Dimensions
- Title(参考訳): 高次元ロイドk平均アルゴリズムの観測
- Authors: David Silva-Sánchez, Roy R. Lederman,
- Abstract要約: クラスタリングと推定クラスタは、統計学と機械学習における中核的な問題である。
我々は,高雑音と限られたサンプルサイズを有する高次元設定におけるk平均値の故障に関する理論的説明を提供する。
- 参考スコア(独自算出の注目度): 2.186901738997927
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Clustering and estimating cluster means are core problems in statistics and machine learning, with k-means and Expectation Maximization (EM) being two widely used algorithms. In this work, we provide a theoretical explanation for the failure of k-means in high-dimensional settings with high noise and limited sample sizes, using a simple Gaussian Mixture Model (GMM). We identify regimes where, with high probability, almost every partition of the data becomes a fixed point of the k-means algorithm. This study is motivated by challenges in the analysis of more complex cases, such as masked GMMs, and those arising from applications in Cryo-Electron Microscopy.
- Abstract(参考訳): クラスタリングとクラスタ推定は、統計学と機械学習における中核的な問題であり、k平均と期待最大化(EM)は2つの広く使われているアルゴリズムである。
本研究では, 単純なガウス混合モデル(GMM)を用いて, 高雑音, 限られたサンプルサイズを有する高次元環境下でのk平均の故障を理論的に説明する。
我々は、高い確率で、データのほぼすべての分割がk平均アルゴリズムの固定点となる状態を特定する。
この研究は、マスク付きGMMのようなより複雑なケースの解析における課題と、Cryo-Electron Microscopyにおける応用から生じる問題によって動機付けられている。
関連論文リスト
- K*-Means: A Parameter-free Clustering Algorithm [55.20132267309382]
k*-meansは、kや他のパラメータをセットする必要がない新しいクラスタリングアルゴリズムである。
最小記述長の原理を用いて、クラスタの分割とマージによって最適なクラスタ数k*を自動的に決定する。
k*-平均が収束することが保証されることを証明し、kが未知のシナリオにおいて既存のメソッドよりも著しく優れていることを実験的に証明する。
論文 参考訳(メタデータ) (2025-05-17T08:41:07Z) - Fuzzy K-Means Clustering without Cluster Centroids [21.256564324236333]
ファジィK平均クラスタリングは教師なしデータ分析において重要な手法である。
本稿では,クラスタセントロイドへの依存を完全に排除する,ファジィテクストK-Meansクラスタリングアルゴリズムを提案する。
論文 参考訳(メタデータ) (2024-04-07T12:25:03Z) - An Efficient Algorithm for Clustered Multi-Task Compressive Sensing [60.70532293880842]
クラスタ化マルチタスク圧縮センシングは、複数の圧縮センシングタスクを解決する階層モデルである。
このモデルに対する既存の推論アルゴリズムは計算コストが高く、高次元ではうまくスケールしない。
本稿では,これらの共分散行列を明示的に計算する必要をなくし,モデル推論を大幅に高速化するアルゴリズムを提案する。
論文 参考訳(メタデータ) (2023-09-30T15:57:14Z) - Regularized EM algorithm [9.367612782346205]
本稿では,従来の知識を効率的に活用し,LSSの状況に対処できる,GMM-sの正規化EMアルゴリズムを提案する。
コンバージェンスホールドの理論的保証は、構造化共分散行列モデルや低サンプル設定のEMアルゴリズムの性能向上につながることを示す。
論文 参考訳(メタデータ) (2023-03-27T08:32:20Z) - Clustering based on Mixtures of Sparse Gaussian Processes [6.939768185086753]
低次元の組込み空間を使ってデータをクラスタする方法は、マシンラーニングにおいて依然として難しい問題である。
本稿では,クラスタリングと次元還元の両立を目的とした共同定式化を提案する。
我々のアルゴリズムはスパースガウス過程の混合に基づいており、スパースガウス過程混合クラスタリング(SGP-MIC)と呼ばれる。
論文 参考訳(メタデータ) (2023-03-23T20:44:36Z) - Regularization and Optimization in Model-Based Clustering [4.096453902709292]
k-平均アルゴリズムの変種は、本質的に同じ球面ガウスの混合と、そのような分布から大きく逸脱するデータに適合する。
一般のGMMに対してより効率的な最適化アルゴリズムを開発し、これらのアルゴリズムと正規化戦略を組み合わせ、過度な適合を避ける。
これらの結果から, GMM と k-means 法の間の現状に新たな光を当て, 一般 GMM をデータ探索に利用することが示唆された。
論文 参考訳(メタデータ) (2023-02-05T18:22:29Z) - A Non-Parametric Bootstrap for Spectral Clustering [0.7673339435080445]
我々は,データ行列のスペクトル分解と非パラメトリックブートストラップサンプリング方式を組み合わせた2つの新しいアルゴリズムを開発した。
我々の手法は、有限混合モデルに適合する他のブートストラップアルゴリズムと比較して収束性においてより一貫性がある。
論文 参考訳(メタデータ) (2022-09-13T08:37:05Z) - Lattice-Based Methods Surpass Sum-of-Squares in Clustering [98.46302040220395]
クラスタリングは教師なし学習における基本的なプリミティブである。
最近の研究は、低次手法のクラスに対する低い境界を確立している。
意外なことに、この特定のクラスタリングモデルのtextitdoesは、統計的-計算的ギャップを示さない。
論文 参考訳(メタデータ) (2021-12-07T18:50:17Z) - Learning Gaussian Mixtures with Generalised Linear Models: Precise
Asymptotics in High-dimensions [79.35722941720734]
多クラス分類問題に対する一般化線形モデルは、現代の機械学習タスクの基本的な構成要素の1つである。
実験的リスク最小化による高次元推定器の精度を実証する。
合成データの範囲を超えて我々の理論をどのように適用できるかを論じる。
論文 参考訳(メタデータ) (2021-06-07T16:53:56Z) - Differentially Private Clustering: Tight Approximation Ratios [57.89473217052714]
基本的なクラスタリング問題に対して,効率的な微分プライベートアルゴリズムを提案する。
この結果から,SampleとAggregateのプライバシーフレームワークのアルゴリズムの改善が示唆された。
1-Clusterアルゴリズムで使用されるツールの1つは、ClosestPairのより高速な量子アルゴリズムを適度な次元で得るために利用できる。
論文 参考訳(メタデータ) (2020-08-18T16:22:06Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。