論文の概要: Asymptotics for The $k$-means
- arxiv url: http://arxiv.org/abs/2211.10015v1
- Date: Fri, 18 Nov 2022 03:36:58 GMT
- ステータス: 処理完了
- システム内更新日: 2022-11-21 14:16:21.881038
- Title: Asymptotics for The $k$-means
- Title(参考訳): $k$-meansの漸近
- Authors: Tonglin Zhang
- Abstract要約: k$-meansは統計学と計算機科学において最も重要な教師なし学習手法の1つである。
提案したクラスタリング整合性は,クラスタリング手法の以前の基準整合性よりも適切である。
提案した$k$-means法はクラスタリングエラー率を低くし,小さなクラスタやアウトレイアに対してより堅牢であることがわかった。
- 参考スコア(独自算出の注目度): 0.6091702876917281
- License: http://creativecommons.org/publicdomain/zero/1.0/
- Abstract: The $k$-means is one of the most important unsupervised learning techniques
in statistics and computer science. The goal is to partition a data set into
many clusters, such that observations within clusters are the most homogeneous
and observations between clusters are the most heterogeneous. Although it is
well known, the investigation of the asymptotic properties is far behind,
leading to difficulties in developing more precise $k$-means methods in
practice. To address this issue, a new concept called clustering consistency is
proposed. Fundamentally, the proposed clustering consistency is more
appropriate than the previous criterion consistency for the clustering methods.
Using this concept, a new $k$-means method is proposed. It is found that the
proposed $k$-means method has lower clustering error rates and is more robust
to small clusters and outliers than existing $k$-means methods. When $k$ is
unknown, using the Gap statistics, the proposed method can also identify the
number of clusters. This is rarely achieved by existing $k$-means methods
adopted by many software packages.
- Abstract(参考訳): k$-meansは統計学や計算機科学において最も重要な教師なし学習技術の1つである。
目的はデータセットを多くのクラスタに分割することであり、クラスタ内の観測が最も均一であり、クラスタ間の観測が最も均一である。
知られているが、漸近性の研究ははるかに遅れており、実際はより正確な$k$-means法を開発するのが困難である。
この問題に対処するため,クラスタリング一貫性という新しい概念が提案されている。
提案したクラスタリング一貫性は,クラスタリング手法の以前の基準整合性よりも適切である。
この概念を用いて,新しい$k$-means法を提案する。
提案した$k$-means法はクラスタリングエラー率が低く,既存の$k$-means法よりも小さなクラスタやアウトレーヤに対して堅牢であることがわかった。
ギャップ統計を用いて、$k$が未知である場合、提案手法はクラスタの数を識別することもできる。
これは、多くのソフトウェアパッケージで採用されている既存の$k$-meansメソッドで実現されることはめったにない。
関連論文リスト
- Dirichlet Process-based Robust Clustering using the Median-of-Means Estimator [16.774378814288806]
本稿では,モデルに基づく手法とセントロイド方式の長所を統合することにより,効率的かつ自動的なクラスタリング手法を提案する。
本手法は,クラスタリングの品質に及ぼすノイズの影響を緩和するが,同時にクラスタ数を推定する。
論文 参考訳(メタデータ) (2023-11-26T19:01:15Z) - Are Easy Data Easy (for K-Means) [0.0]
本稿では、$k$-meansアルゴリズムの様々なブランドによって、適切に分離されたクラスタを復元する能力について検討する。
シード選択時に繰り返しサブサンプリングによって$k$-means++のバリエーションが提案される。
論文 参考訳(メタデータ) (2023-08-02T09:40:19Z) - Rethinking k-means from manifold learning perspective [122.38667613245151]
平均推定なしで直接データのクラスタを検出する新しいクラスタリングアルゴリズムを提案する。
具体的には,バタワースフィルタを用いてデータ点間の距離行列を構成する。
異なる視点に埋め込まれた相補的な情報をうまく活用するために、テンソルのSchatten p-norm正規化を利用する。
論文 参考訳(メタデータ) (2023-05-12T03:01:41Z) - Global $k$-means$++$: an effective relaxation of the global $k$-means
clustering algorithm [0.20305676256390928]
k$-meansアルゴリズムは、その単純さ、有効性、スピードから、一般的なクラスタリング手法である。
本稿では,高品質クラスタリングソリューションを効果的に取得する手段として,emphglobal $k$-meanstexttt++クラスタリングアルゴリズムを提案する。
論文 参考訳(メタデータ) (2022-11-22T13:42:53Z) - A One-shot Framework for Distributed Clustered Learning in Heterogeneous
Environments [54.172993875654015]
異種環境における分散学習のためのコミュニケーション効率化手法のファミリーを提案する。
ユーザによるローカル計算に基づくワンショットアプローチと、サーバにおけるクラスタリングベースのアグリゲーションステップは、強力な学習保証を提供する。
厳密な凸問題に対しては,ユーザ毎のデータ点数がしきい値を超える限り,提案手法はサンプルサイズの観点から順序最適平均二乗誤差率を達成する。
論文 参考訳(メタデータ) (2022-09-22T09:04:10Z) - Differentially-Private Clustering of Easy Instances [67.04951703461657]
異なるプライベートクラスタリングでは、個々のデータポイントに関する情報を公開せずに、$k$のクラスタセンターを特定することが目標だ。
我々は、データが"簡単"である場合にユーティリティを提供する実装可能な差分プライベートクラスタリングアルゴリズムを提供する。
我々は、非プライベートクラスタリングアルゴリズムを簡単なインスタンスに適用し、結果をプライベートに組み合わせることのできるフレームワークを提案する。
論文 参考訳(メタデータ) (2021-12-29T08:13:56Z) - Lattice-Based Methods Surpass Sum-of-Squares in Clustering [98.46302040220395]
クラスタリングは教師なし学習における基本的なプリミティブである。
最近の研究は、低次手法のクラスに対する低い境界を確立している。
意外なことに、この特定のクラスタリングモデルのtextitdoesは、統計的-計算的ギャップを示さない。
論文 参考訳(メタデータ) (2021-12-07T18:50:17Z) - Fuzzy Clustering with Similarity Queries [56.96625809888241]
ファジィ(fuzzy, soft objective)は、よく知られた$k$-means問題の一般化である。
クエリを少なくすることで、問題の解決が容易になる。
論文 参考訳(メタデータ) (2021-06-04T02:32:26Z) - K-expectiles clustering [0.0]
本稿では,期待値に基づく分割クラスタリングアルゴリズムを提案する。
固定$tau$クラスタリングと適応$tau$クラスタリングの2つのスキームを提案します。
論文 参考訳(メタデータ) (2021-03-16T21:14:56Z) - Scalable Hierarchical Agglomerative Clustering [65.66407726145619]
既存のスケーラブルな階層的クラスタリング手法は、スピードの質を犠牲にする。
我々は、品質を犠牲にせず、数十億のデータポイントまでスケールする、スケーラブルで集約的な階層的クラスタリング法を提案する。
論文 参考訳(メタデータ) (2020-10-22T15:58:35Z) - Structures of Spurious Local Minima in $k$-means [20.155509538529568]
我々は、$k$-means問題に対する急激な局所解の構造について検討する。
分離条件下では,この現象が唯一の局所的局所最小値であることを示す。
論文 参考訳(メタデータ) (2020-02-16T22:15:03Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。