論文の概要: Clustering by the Probability Distributions from Extreme Value Theory
- arxiv url: http://arxiv.org/abs/2202.09784v1
- Date: Sun, 20 Feb 2022 10:52:43 GMT
- ステータス: 処理完了
- システム内更新日: 2022-02-22 19:30:30.716579
- Title: Clustering by the Probability Distributions from Extreme Value Theory
- Title(参考訳): 極値理論からの確率分布によるクラスタリング
- Authors: Sixiao Zheng, Ke Fan, Yanxi Hou, Jianfeng Feng, and Yanwei Fu
- Abstract要約: 本稿では,クラスタの分布をモデル化するためにk-meansを一般化する。
GPDを用いて各クラスタの確率モデルを確立する。
我々はまた、GEV (Generalized Extreme Value) k-means(一般化極値)(GEV)と呼ばれる単純なベースラインも導入する。
特に、GEV k-平均はクラスタ構造を推定することもでき、したがって古典的なk-平均に対して合理的に振る舞うことができる。
- 参考スコア(独自算出の注目度): 32.496691290725764
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Clustering is an essential task to unsupervised learning. It tries to
automatically separate instances into coherent subsets. As one of the most
well-known clustering algorithms, k-means assigns sample points at the boundary
to a unique cluster, while it does not utilize the information of sample
distribution or density. Comparably, it would potentially be more beneficial to
consider the probability of each sample in a possible cluster. To this end,
this paper generalizes k-means to model the distribution of clusters. Our novel
clustering algorithm thus models the distributions of distances to centroids
over a threshold by Generalized Pareto Distribution (GPD) in Extreme Value
Theory (EVT). Notably, we propose the concept of centroid margin distance, use
GPD to establish a probability model for each cluster, and perform a clustering
algorithm based on the covering probability function derived from GPD. Such a
GPD k-means thus enables the clustering algorithm from the probabilistic
perspective. Correspondingly, we also introduce a naive baseline, dubbed as
Generalized Extreme Value (GEV) k-means. GEV fits the distribution of the block
maxima. In contrast, the GPD fits the distribution of distance to the centroid
exceeding a sufficiently large threshold, leading to a more stable performance
of GPD k-means. Notably, GEV k-means can also estimate cluster structure and
thus perform reasonably well over classical k-means. Thus, extensive
experiments on synthetic datasets and real datasets demonstrate that GPD
k-means outperforms competitors. The github codes are released in
https://github.com/sixiaozheng/EVT-K-means.
- Abstract(参考訳): クラスタリングは教師なしの学習に不可欠である。
自動的にインスタンスをコヒーレントなサブセットに分離しようとする。
最もよく知られたクラスタリングアルゴリズムの1つとして、k-meansは境界のサンプルポイントを一意なクラスタに割り当てるが、サンプル分布や密度の情報を利用しない。
比較して、考えられるクラスタ内の各サンプルの確率を考える方が、より有益かもしれない。
そこで本研究では,クラスタの分布をモデル化するためにk-meansを一般化する。
提案アルゴリズムは, 極値理論 (EVT) における一般化パレート分布 (GPD) を用いて, しきい値上での距離の分布をモデル化する。
特に,遠心辺縁距離の概念を提案し,gpdを用いて各クラスタの確率モデルを構築し,gpdから派生した被覆確率関数に基づくクラスタリングアルゴリズムを実行する。
このような GPD k-平均は確率論的観点からクラスタリングアルゴリズムを可能にする。
また,GEV (Generalized Extreme Value) k-means と呼ばれるナイーブなベースラインも導入した。
GEVはブロック最大値の分布に適合する。
対照的に、gpdは十分大きな閾値を超える中心体への距離分布に適合し、より安定したgpd k-meansの性能をもたらす。
特に、gev k-meansはクラスター構造を推定することができ、古典的k-meansよりも合理的に機能する。
このように、合成データセットと実際のデータセットに関する広範な実験は、GPD k-平均が競合より優れていることを示した。
githubコードはhttps://github.com/sixiaozheng/evt-k-meansでリリースされている。
関連論文リスト
- Self-Supervised Graph Embedding Clustering [70.36328717683297]
K-means 1-step dimensionality reduction clustering method は,クラスタリングタスクにおける次元性の呪いに対処する上で,いくつかの進歩をもたらした。
本稿では,K-meansに多様体学習を統合する統一フレームワークを提案する。
論文 参考訳(メタデータ) (2024-09-24T08:59:51Z) - A provable initialization and robust clustering method for general mixture models [6.806940901668607]
クラスタリングは、異種データの存在下での統計機械学習の基本的なツールである。
最新の結果は、ガウス以下の誤差を伴うセントロイドの周りにデータが分散されている場合に、最適なラベルの誤りを保証することに焦点が当てられている。
論文 参考訳(メタデータ) (2024-01-10T22:56:44Z) - UniForCE: The Unimodality Forest Method for Clustering and Estimation of
the Number of Clusters [2.4953699842881605]
我々は,一様性の概念に着目し,局所的一様性クラスタと呼ばれる柔軟なクラスタ定義を提案する。
局所的ユニモーダルクラスタは、データのサブクラスタのペア間で一様性が局所的に保存される限り、拡張される。
局所的な単調クラスタリングのためのUniForCE法を提案する。
論文 参考訳(メタデータ) (2023-12-18T16:19:02Z) - Rethinking k-means from manifold learning perspective [122.38667613245151]
平均推定なしで直接データのクラスタを検出する新しいクラスタリングアルゴリズムを提案する。
具体的には,バタワースフィルタを用いてデータ点間の距離行列を構成する。
異なる視点に埋め込まれた相補的な情報をうまく活用するために、テンソルのSchatten p-norm正規化を利用する。
論文 参考訳(メタデータ) (2023-05-12T03:01:41Z) - A One-shot Framework for Distributed Clustered Learning in Heterogeneous
Environments [54.172993875654015]
異種環境における分散学習のためのコミュニケーション効率化手法のファミリーを提案する。
ユーザによるローカル計算に基づくワンショットアプローチと、サーバにおけるクラスタリングベースのアグリゲーションステップは、強力な学習保証を提供する。
厳密な凸問題に対しては,ユーザ毎のデータ点数がしきい値を超える限り,提案手法はサンプルサイズの観点から順序最適平均二乗誤差率を達成する。
論文 参考訳(メタデータ) (2022-09-22T09:04:10Z) - Wasserstein $K$-means for clustering probability distributions [16.153709556346417]
ユークリッド空間では、セントロイドと距離に基づくK$平均の定式化は同値である。
現代の機械学習アプリケーションでは、データは確率分布として発生し、測度値のデータを扱う自然な一般化は最適な輸送距離を使用する。
SDP緩和ワッサースタイン$K$-平均は、クラスターが2ドルワッサースタイン計量の下で十分に分離されているため、正確な回復を達成することができることを示す。
論文 参考訳(メタデータ) (2022-09-14T23:43:16Z) - Determinantal consensus clustering [77.34726150561087]
本稿では,クラスタリングアルゴリズムのランダム再起動における決定点プロセス (DPP) の利用を提案する。
DPPは部分集合内の中心点の多様性を好んでいる。
DPPとは対照的に、この手法は多様性の確保と、すべてのデータフェースについて良好なカバレッジを得るために失敗することを示す。
論文 参考訳(メタデータ) (2021-02-07T23:48:24Z) - Kernel learning approaches for summarising and combining posterior
similarity matrices [68.8204255655161]
我々は,ベイズクラスタリングモデルに対するMCMCアルゴリズムの出力を要約するための新しいアプローチを提案するために,後部類似性行列(PSM)の概念を構築した。
我々の研究の重要な貢献は、PSMが正の半定値であり、したがって確率的に動機付けられたカーネル行列を定義するのに使用できることである。
論文 参考訳(メタデータ) (2020-09-27T14:16:14Z) - Computationally efficient sparse clustering [67.95910835079825]
我々はPCAに基づく新しいクラスタリングアルゴリズムの有限サンプル解析を行う。
ここでは,ミニマックス最適誤クラスタ化率を,体制$|theta infty$で達成することを示す。
論文 参考訳(メタデータ) (2020-05-21T17:51:30Z) - Statistical power for cluster analysis [0.0]
クラスターアルゴリズムは、生物医学研究でますます人気がある。
シミュレーションにより,共通解析におけるパワーと精度を推定する。
我々は,大規模なサブグループ分離が期待される場合にのみ,クラスタ分析を適用することを推奨する。
論文 参考訳(メタデータ) (2020-03-01T02:43:15Z) - K-bMOM: a robust Lloyd-type clustering algorithm based on bootstrap
Median-of-Means [3.222802562733787]
本稿では,データセットの外れ値の存在に頑健な新しいクラスタリングアルゴリズムを提案する。
我々は、中央値統計のアイデアに基づいて、セントロイドを推定するが、ブロックを構築しながら置き換えることができる。
我々は,K-means歪に対する収束率の頑健さを導出することにより,敵の汚染に対する頑健さを証明した。
論文 参考訳(メタデータ) (2020-02-10T16:08:08Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。