論文の概要: A Novel Theoretical Analysis for Clustering Heteroscedastic Gaussian Data without Knowledge of the Number of Clusters
- arxiv url: http://arxiv.org/abs/2604.01943v1
- Date: Thu, 02 Apr 2026 12:06:21 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-04-03 14:21:10.765448
- Title: A Novel Theoretical Analysis for Clustering Heteroscedastic Gaussian Data without Knowledge of the Number of Clusters
- Title(参考訳): クラスタ数の知識を持たないヘテロセダスティックガウスデータの新しい理論的解析
- Authors: Dominique Pastor, Elsa Dupraz, Ismail Hbilou, Guillaume Ansel,
- Abstract要約: 我々は,ある関数の固定点を推定するために,新しいコスト関数を導入する。
このコスト関数の勾配の零点は、ある関数の固定点であることが分かる。
我々は、同定された関数の固定点を推定して機能する、CENTRE-Xと呼ばれる新しいクラスタリングアルゴリズムを導出する。
- 参考スコア(独自算出の注目度): 0.9519647470165687
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: This paper addresses the problem of clustering measurement vectors that are heteroscedastic in that they can have different covariance matrices. From the assumption that the measurement vectors within a given cluster are Gaussian distributed with possibly different and unknown covariant matrices around the cluster centroid, we introduce a novel cost function to estimate the centroids. The zeros of the gradient of this cost function turn out to be the fixed-points of a certain function. As such, the approach generalizes the methodology employed to derive the existing Mean-Shift algorithm. But as a main and novel theoretical result compared to Mean-Shift, this paper shows that the sole fixed-points of the identified function tend to be the cluster centroids if both the number of measurements per cluster and the distances between centroids are large enough. As a second contribution, this paper introduces the Wald kernel for clustering. This kernel is defined as the p-value of the Wald hypothesis test for testing the mean of a Gaussian. As such, the Wald kernel measures the plausibility that a measurement vector belongs to a given cluster and it scales better with the dimension of the measurement vectors than the usual Gaussian kernel. Finally, the proposed theoretical framework allows us to derive a new clustering algorithm called CENTRE-X that works by estimating the fixed-points of the identified function. As Mean-Shift, CENTRE-X requires no prior knowledge of the number of clusters. It relies on a Wald hypothesis test to significantly reduce the number of fixed points to calculate compared to the Mean-Shift algorithm, thus resulting in a clear gain in complexity. Simulation results on synthetic and real data sets show that CENTRE-X has comparable or better performance than standard clustering algorithms K-means and Mean-Shift, even when the covariance matrices are not perfectly known.
- Abstract(参考訳): 本稿では,異なる共分散行列を持つことができるヘテロセダスティックな測定ベクトルのクラスタリング問題に対処する。
与えられたクラスタ内の測定ベクトルが、クラスタセントロイドの周りで、おそらく異なる、未知の共変行列を持つガウス分布であるという仮定から、セントロイドを推定する新たなコスト関数を導入する。
このコスト関数の勾配の零点は、ある関数の固定点であることが分かる。
このように、既存の平均シフトアルゴリズムを導出するために用いられる方法論を一般化する。
しかし,本論文は,平均シフトと比較して,クラスタ単位の測定数と中心点間の距離の両方が十分に大きい場合,同定された関数の唯一の固定点がクラスタセントロイドであることを示す。
2つ目のコントリビューションとして,クラスタリングのためのWaldカーネルを紹介する。
この核は、ガウス平均をテストするウォルド仮説テストのp値として定義される。
このように、ウォルド核は、測定ベクトルが与えられたクラスタに属することの可測性を測定し、測定ベクトルの次元が通常のガウス核よりも良くスケールする。
最後に、提案した理論フレームワークにより、同定された関数の固定点を推定して機能する、CENTRE-Xと呼ばれる新しいクラスタリングアルゴリズムを導出することができる。
平均シフトとして、CENTRE-Xはクラスタ数の事前の知識を必要としない。
平均シフトアルゴリズムと比較して計算する固定点の数を著しく減らし、結果として複雑性が明らかに向上する。
合成および実データ集合のシミュレーション結果から、CENTRE-X は標準クラスタリングアルゴリズム K-means や Mean-Shift に匹敵する性能を示した。
関連論文リスト
- Counterfactual Explanations for k-means and Gaussian Clustering [1.8561812622368767]
本稿では、妥当性と実現可能性の制約を含むモデルベースのクラスタリングに対する反事実の一般的な定義について述べる。
提案手法は, 現実性, 対象クラスタ, 動作可能な, 不変な特徴を示す2値マスク, クラスタ境界からどの程度の距離を指定すべきかを示す可視性係数を入力として行う。
論文 参考訳(メタデータ) (2025-01-17T14:56:20Z) - Fuzzy K-Means Clustering without Cluster Centroids [21.256564324236333]
ファジィK平均クラスタリングは教師なしデータ分析において重要な手法である。
本稿では,クラスタセントロイドへの依存を完全に排除する,ファジィテクストK-Meansクラスタリングアルゴリズムを提案する。
論文 参考訳(メタデータ) (2024-04-07T12:25:03Z) - Linear time Evidence Accumulation Clustering with KMeans [0.0]
この研究は、平均的なリンククラスタリングの振る舞いを模倣するトリックを記述する。
分割の密度を効率よく計算する方法を見つけ、二次的な複雑さから線形的な複雑さへのコストを削減した。
k平均結果は、計算コストを低く保ちながら、NMIの観点からは、最先端の技術に匹敵する。
論文 参考訳(メタデータ) (2023-11-15T14:12:59Z) - Superclustering by finding statistically significant separable groups of
optimal gaussian clusters [0.0]
本稿では,BIC基準の観点から,最適なデータセットをグループ化することで,データセットをクラスタリングするアルゴリズムを提案する。
このアルゴリズムの重要な利点は、既に訓練済みのクラスタに基づいて、新しいデータの正しいスーパークラスタを予測する能力である。
論文 参考訳(メタデータ) (2023-09-05T23:49:46Z) - Rethinking k-means from manifold learning perspective [122.38667613245151]
平均推定なしで直接データのクラスタを検出する新しいクラスタリングアルゴリズムを提案する。
具体的には,バタワースフィルタを用いてデータ点間の距離行列を構成する。
異なる視点に埋め込まれた相補的な情報をうまく活用するために、テンソルのSchatten p-norm正規化を利用する。
論文 参考訳(メタデータ) (2023-05-12T03:01:41Z) - Clustering by the Probability Distributions from Extreme Value Theory [32.496691290725764]
本稿では,クラスタの分布をモデル化するためにk-meansを一般化する。
GPDを用いて各クラスタの確率モデルを確立する。
我々はまた、GEV (Generalized Extreme Value) k-means(一般化極値)(GEV)と呼ばれる単純なベースラインも導入する。
特に、GEV k-平均はクラスタ構造を推定することもでき、したがって古典的なk-平均に対して合理的に振る舞うことができる。
論文 参考訳(メタデータ) (2022-02-20T10:52:43Z) - Lattice-Based Methods Surpass Sum-of-Squares in Clustering [98.46302040220395]
クラスタリングは教師なし学習における基本的なプリミティブである。
最近の研究は、低次手法のクラスに対する低い境界を確立している。
意外なことに、この特定のクラスタリングモデルのtextitdoesは、統計的-計算的ギャップを示さない。
論文 参考訳(メタデータ) (2021-12-07T18:50:17Z) - Spectral clustering under degree heterogeneity: a case for the random
walk Laplacian [83.79286663107845]
本稿では,ランダムウォークラプラシアンを用いたグラフスペクトル埋め込みが,ノード次数に対して完全に補正されたベクトル表現を生成することを示す。
次数補正ブロックモデルの特別な場合、埋め込みはK個の異なる点に集中し、コミュニティを表す。
論文 参考訳(メタデータ) (2021-05-03T16:36:27Z) - Computationally efficient sparse clustering [67.95910835079825]
我々はPCAに基づく新しいクラスタリングアルゴリズムの有限サンプル解析を行う。
ここでは,ミニマックス最適誤クラスタ化率を,体制$|theta infty$で達成することを示す。
論文 参考訳(メタデータ) (2020-05-21T17:51:30Z) - Softmax-based Classification is k-means Clustering: Formal Proof,
Consequences for Adversarial Attacks, and Improvement through Centroid Based
Tailoring [3.0724051098062097]
我々は,k平均クラスタリングと,ソフトマックスアクティベーション層に基づくニューラルネットワークの予測の関連性を証明する。
ニューラルネットワークの最後の層におけるソフトマックス関数の代替として,Centroid Based Tailoringを提案する。
論文 参考訳(メタデータ) (2020-01-07T11:47:45Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。