Fugu-MT 論文翻訳(概要): An Observation on Lloyd's k-Means Algorithm in High Dimensions

論文の概要: An Observation on Lloyd's k-Means Algorithm in High Dimensions

arxiv url: http://arxiv.org/abs/2506.14952v1
Date: Tue, 17 Jun 2025 20:06:41 GMT
ステータス: 翻訳完了
システム内更新日: 2025-06-19 19:35:51.473068
Title: An Observation on Lloyd's k-Means Algorithm in High Dimensions
Title（参考訳）: 高次元ロイドk平均アルゴリズムの観測
Authors: David Silva-Sánchez, Roy R. Lederman,
Abstract要約: クラスタリングと推定クラスタは、統計学と機械学習における中核的な問題である。我々は,高雑音と限られたサンプルサイズを有する高次元設定におけるk平均値の故障に関する理論的説明を提供する。
参考スコア（独自算出の注目度）: 2.186901738997927
License: http://creativecommons.org/licenses/by/4.0/
Abstract: Clustering and estimating cluster means are core problems in statistics and machine learning, with k-means and Expectation Maximization (EM) being two widely used algorithms. In this work, we provide a theoretical explanation for the failure of k-means in high-dimensional settings with high noise and limited sample sizes, using a simple Gaussian Mixture Model (GMM). We identify regimes where, with high probability, almost every partition of the data becomes a fixed point of the k-means algorithm. This study is motivated by challenges in the analysis of more complex cases, such as masked GMMs, and those arising from applications in Cryo-Electron Microscopy.
Abstract（参考訳）: クラスタリングとクラスタ推定は、統計学と機械学習における中核的な問題であり、k平均と期待最大化(EM)は2つの広く使われているアルゴリズムである。本研究では, 単純なガウス混合モデル(GMM)を用いて, 高雑音, 限られたサンプルサイズを有する高次元環境下でのk平均の故障を理論的に説明する。我々は、高い確率で、データのほぼすべての分割がk平均アルゴリズムの固定点となる状態を特定する。この研究は、マスク付きGMMのようなより複雑なケースの解析における課題と、Cryo-Electron Microscopyにおける応用から生じる問題によって動機付けられている。

関連論文リスト

Classification EM-PCA for clustering and embedding [13.713107020091726]
混合モデルは、間違いなくクラスタリングに対する最大の貢献の1つです。 expectation-Maximization (EM)アルゴリズムは、クラスタリングが推測されるパラメータを推定するのに特に適している。分類版である分類EM(CEM)アルゴリズムは、高速収束ソリューションを提供する。
論文参考訳（メタデータ） (2025-11-24T11:18:59Z)
Overspecified Mixture Discriminant Analysis: Exponential Convergence, Statistical Guarantees, and Remote Sensing Applications [2.124297073085513]
本研究では,混合判別分析(MDA)の分類誤差について,実際のデータ分布に存在する混合成分数を超える場合の分類誤差について検討する。予測最大化(EM)アルゴリズムのアルゴリズム収束と統計的分類誤差の両方を解析する。
論文参考訳（メタデータ） (2025-10-30T23:56:56Z)
K*-Means: A Parameter-free Clustering Algorithm [55.20132267309382]
k*-meansは、kや他のパラメータをセットする必要がない新しいクラスタリングアルゴリズムである。最小記述長の原理を用いて、クラスタの分割とマージによって最適なクラスタ数k*を自動的に決定する。 k*-平均が収束することが保証されることを証明し、kが未知のシナリオにおいて既存のメソッドよりも著しく優れていることを実験的に証明する。
論文参考訳（メタデータ） (2025-05-17T08:41:07Z)
Fuzzy K-Means Clustering without Cluster Centroids [21.256564324236333]
ファジィK平均クラスタリングは教師なしデータ分析において重要な手法である。本稿では,クラスタセントロイドへの依存を完全に排除する,ファジィテクストK-Meansクラスタリングアルゴリズムを提案する。
論文参考訳（メタデータ） (2024-04-07T12:25:03Z)
An Efficient Algorithm for Clustered Multi-Task Compressive Sensing [60.70532293880842]
クラスタ化マルチタスク圧縮センシングは、複数の圧縮センシングタスクを解決する階層モデルである。このモデルに対する既存の推論アルゴリズムは計算コストが高く、高次元ではうまくスケールしない。本稿では,これらの共分散行列を明示的に計算する必要をなくし,モデル推論を大幅に高速化するアルゴリズムを提案する。
論文参考訳（メタデータ） (2023-09-30T15:57:14Z)
Algorithme EM r\'egularis\'e [0.0]
本稿では,より少ないサンプルサイズに対応するために,事前知識を効率的に活用するEMアルゴリズムの正規化バージョンを提案する。実データを用いた実験では,クラスタリングのための提案アルゴリズムの性能が向上した。
論文参考訳（メタデータ） (2023-07-04T23:19:25Z)
Regularized EM algorithm [9.367612782346205]
本稿では,従来の知識を効率的に活用し,LSSの状況に対処できる,GMM-sの正規化EMアルゴリズムを提案する。コンバージェンスホールドの理論的保証は、構造化共分散行列モデルや低サンプル設定のEMアルゴリズムの性能向上につながることを示す。
論文参考訳（メタデータ） (2023-03-27T08:32:20Z)
Clustering based on Mixtures of Sparse Gaussian Processes [6.939768185086753]
低次元の組込み空間を使ってデータをクラスタする方法は、マシンラーニングにおいて依然として難しい問題である。本稿では,クラスタリングと次元還元の両立を目的とした共同定式化を提案する。我々のアルゴリズムはスパースガウス過程の混合に基づいており、スパースガウス過程混合クラスタリング(SGP-MIC)と呼ばれる。
論文参考訳（メタデータ） (2023-03-23T20:44:36Z)
Regularization and Optimization in Model-Based Clustering [4.096453902709292]
k-平均アルゴリズムの変種は、本質的に同じ球面ガウスの混合と、そのような分布から大きく逸脱するデータに適合する。一般のGMMに対してより効率的な最適化アルゴリズムを開発し、これらのアルゴリズムと正規化戦略を組み合わせ、過度な適合を避ける。これらの結果から, GMM と k-means 法の間の現状に新たな光を当て, 一般 GMM をデータ探索に利用することが示唆された。
論文参考訳（メタデータ） (2023-02-05T18:22:29Z)
A Non-Parametric Bootstrap for Spectral Clustering [0.7673339435080445]
我々は,データ行列のスペクトル分解と非パラメトリックブートストラップサンプリング方式を組み合わせた2つの新しいアルゴリズムを開発した。我々の手法は、有限混合モデルに適合する他のブートストラップアルゴリズムと比較して収束性においてより一貫性がある。
論文参考訳（メタデータ） (2022-09-13T08:37:05Z)
Lattice-Based Methods Surpass Sum-of-Squares in Clustering [98.46302040220395]
クラスタリングは教師なし学習における基本的なプリミティブである。最近の研究は、低次手法のクラスに対する低い境界を確立している。意外なことに、この特定のクラスタリングモデルのtextitdoesは、統計的-計算的ギャップを示さない。
論文参考訳（メタデータ） (2021-12-07T18:50:17Z)
Riemannian classification of EEG signals with missing values [67.90148548467762]
本稿では脳波の分類に欠落したデータを扱うための2つの方法を提案する。第1のアプローチでは、インプットされたデータと$k$-nearestの隣人アルゴリズムとの共分散を推定し、第2のアプローチでは、期待最大化アルゴリズム内で観測データの可能性を活用することにより、観測データに依存する。その結果, 提案手法は観測データに基づく分類よりも優れており, 欠落したデータ比が増大しても高い精度を維持することができることがわかった。
論文参考訳（メタデータ） (2021-10-19T14:24:50Z)
Learning Gaussian Mixtures with Generalised Linear Models: Precise Asymptotics in High-dimensions [79.35722941720734]
多クラス分類問題に対する一般化線形モデルは、現代の機械学習タスクの基本的な構成要素の1つである。実験的リスク最小化による高次元推定器の精度を実証する。合成データの範囲を超えて我々の理論をどのように適用できるかを論じる。
論文参考訳（メタデータ） (2021-06-07T16:53:56Z)
Differentially Private Clustering: Tight Approximation Ratios [57.89473217052714]
基本的なクラスタリング問題に対して,効率的な微分プライベートアルゴリズムを提案する。この結果から,SampleとAggregateのプライバシーフレームワークのアルゴリズムの改善が示唆された。 1-Clusterアルゴリズムで使用されるツールの1つは、ClosestPairのより高速な量子アルゴリズムを適度な次元で得るために利用できる。
論文参考訳（メタデータ） (2020-08-18T16:22:06Z)
Simple and Scalable Sparse k-means Clustering via Feature Ranking [14.839931533868176]
直感的で実装が簡単で,最先端のアルゴリズムと競合する,スパースk平均クラスタリングのための新しいフレームワークを提案する。本手法は,属性のサブセットのクラスタリングや部分的に観測されたデータ設定など,タスク固有のアルゴリズムに容易に一般化できる。
論文参考訳（メタデータ） (2020-02-20T02:41:02Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。