論文の概要: K-bMOM: a robust Lloyd-type clustering algorithm based on bootstrap
Median-of-Means
- arxiv url: http://arxiv.org/abs/2002.03899v2
- Date: Wed, 19 Aug 2020 16:56:21 GMT
- ステータス: 処理完了
- システム内更新日: 2023-01-02 09:30:57.991998
- Title: K-bMOM: a robust Lloyd-type clustering algorithm based on bootstrap
Median-of-Means
- Title(参考訳): K-bMOM:Meansのブートストラップに基づくロッド型クラスタリングアルゴリズム
- Authors: Camille Brunet-Saumard, Edouard Genetay, Adrien Saumard
- Abstract要約: 本稿では,データセットの外れ値の存在に頑健な新しいクラスタリングアルゴリズムを提案する。
我々は、中央値統計のアイデアに基づいて、セントロイドを推定するが、ブロックを構築しながら置き換えることができる。
我々は,K-means歪に対する収束率の頑健さを導出することにより,敵の汚染に対する頑健さを証明した。
- 参考スコア(独自算出の注目度): 3.222802562733787
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: We propose a new clustering algorithm that is robust to the presence of
outliers in the dataset. We perform Lloyd-type iterations with robust estimates
of the centroids. More precisely, we build on the idea of median-of-means
statistics to estimate the centroids, but allow for replacement while
constructing the blocks. We call this methodology the bootstrap median-of-means
(bMOM) and prove that if enough blocks are generated through the bootstrap
sampling, then it has a better breakdown point for mean estimation than the
classical median-of-means (MOM), where the blocks form a partition of the
dataset. From a clustering perspective, bMOM enables to take many blocks of a
desired size, thus avoiding possible disappearance of clusters in some blocks,
a pitfall that can occur for the partition-based generation of blocks of the
classical median-of-means. Experiments on simulated datasets show that the
proposed approach, called K-bMOM, performs better than existing robust K-means
based methods. Guidelines are provided for tuning the hyper-parameters K-bMOM
in practice. It is also recommended to the practitionner to use such a robust
approach to initialize their clustering algorithm. Finally, considering a
simplified and theoretical version of our estimator, we prove its robustness to
adversarial contamination by deriving robust rates of convergence for the
K-means distorsion. To our knowledge, it is the first result of this kind for
the K-means distorsion.
- Abstract(参考訳): 本稿では,データセットの外れ値の存在に頑健な新しいクラスタリングアルゴリズムを提案する。
我々は、セントロイドの頑健な推定でロイド型反復を行う。
より正確には、中央値統計のアイデアに基づいて、セントロイドを推定するが、ブロックを構築しながら置き換えることができる。
この手法をbootstrap median-of-means(bmom)と呼び、bootstrapサンプリングによって十分なブロックが生成されるならば、ブロックがデータセットのパーティションを形成する古典的な middle-of-means(mom)よりも平均推定のブレークダウンポイントが優れていることを証明します。
クラスタリングの観点からは、bMOMは所望の大きさの多くのブロックを取ることができるため、いくつかのブロックにおけるクラスタの消失を避けることができる。
シミュレーションデータセットの実験により、提案手法はK-bMOMと呼ばれ、既存のロバストなK-meansベースの手法よりも優れていることが示された。
ハイパーパラメータK-bMOMを実際にチューニングするためのガイドラインが提供されている。
また、クラスタリングアルゴリズムの初期化にこのような堅牢なアプローチを使用することも推奨されている。
最後に,この推定器の簡易化と理論的バージョンを考えると,k-平均偏差のロバストな収束率を導出することにより,その対向汚染に対するロバスト性が証明される。
我々の知る限り、これはK-平均歪曲の最初の結果である。
関連論文リスト
- Self-Supervised Graph Embedding Clustering [70.36328717683297]
K-means 1-step dimensionality reduction clustering method は,クラスタリングタスクにおける次元性の呪いに対処する上で,いくつかの進歩をもたらした。
本稿では,K-meansに多様体学習を統合する統一フレームワークを提案する。
論文 参考訳(メタデータ) (2024-09-24T08:59:51Z) - Fuzzy K-Means Clustering without Cluster Centroids [21.256564324236333]
ファジィK平均クラスタリングは教師なしデータ分析において重要な手法である。
本稿では,クラスタセントロイドへの依存を完全に排除する,ファジィテクストK-Meansクラスタリングアルゴリズムを提案する。
論文 参考訳(メタデータ) (2024-04-07T12:25:03Z) - Robust and Automatic Data Clustering: Dirichlet Process meets
Median-of-Means [18.3248037914529]
本稿では,モデルに基づく手法とセントロイド方式の原理を統合することにより,効率的かつ自動的なクラスタリング手法を提案する。
クラスタリング誤差の上限に関する統計的保証は,既存のクラスタリングアルゴリズムよりも提案手法の利点を示唆している。
論文 参考訳(メタデータ) (2023-11-26T19:01:15Z) - Rethinking k-means from manifold learning perspective [122.38667613245151]
平均推定なしで直接データのクラスタを検出する新しいクラスタリングアルゴリズムを提案する。
具体的には,バタワースフィルタを用いてデータ点間の距離行列を構成する。
異なる視点に埋め込まれた相補的な情報をうまく活用するために、テンソルのSchatten p-norm正規化を利用する。
論文 参考訳(メタデータ) (2023-05-12T03:01:41Z) - Sketch-and-solve approaches to k-means clustering by semidefinite
programming [14.930208990741132]
我々は,k-meansクラスタリングのPeng-Wei半定緩和を高速化するためのスケッチ・アンド・ソルジ手法を提案する。
データが適切に分離された場合、k平均の最適なクラスタリングを特定する。
そうでなければ、我々のアプローチは最適k-平均値に高信頼な下界を与える。
論文 参考訳(メタデータ) (2022-11-28T19:51:30Z) - Rethinking Clustering-Based Pseudo-Labeling for Unsupervised
Meta-Learning [146.11600461034746]
教師なしメタラーニングのメソッドであるCACTUsは、擬似ラベル付きクラスタリングベースのアプローチである。
このアプローチはモデルに依存しないため、教師付きアルゴリズムと組み合わせてラベルのないデータから学習することができる。
このことの核となる理由は、埋め込み空間においてクラスタリングに優しい性質が欠如していることである。
論文 参考訳(メタデータ) (2022-09-27T19:04:36Z) - Clustering by the Probability Distributions from Extreme Value Theory [32.496691290725764]
本稿では,クラスタの分布をモデル化するためにk-meansを一般化する。
GPDを用いて各クラスタの確率モデルを確立する。
我々はまた、GEV (Generalized Extreme Value) k-means(一般化極値)(GEV)と呼ばれる単純なベースラインも導入する。
特に、GEV k-平均はクラスタ構造を推定することもでき、したがって古典的なk-平均に対して合理的に振る舞うことができる。
論文 参考訳(メタデータ) (2022-02-20T10:52:43Z) - Meta Clustering Learning for Large-scale Unsupervised Person
Re-identification [124.54749810371986]
メタクラスタリング学習(MCL)と呼ばれる「大規模タスクのための小さなデータ」パラダイムを提案する。
MCLは、第1フェーズのトレーニングのためにコンピューティングを節約するためにクラスタリングを介して、未ラベルデータのサブセットを擬似ラベル付けするのみである。
提案手法は計算コストを大幅に削減すると同時に,従来よりも優れた性能を実現している。
論文 参考訳(メタデータ) (2021-11-19T04:10:18Z) - Determinantal consensus clustering [77.34726150561087]
本稿では,クラスタリングアルゴリズムのランダム再起動における決定点プロセス (DPP) の利用を提案する。
DPPは部分集合内の中心点の多様性を好んでいる。
DPPとは対照的に、この手法は多様性の確保と、すべてのデータフェースについて良好なカバレッジを得るために失敗することを示す。
論文 参考訳(メタデータ) (2021-02-07T23:48:24Z) - Scalable Hierarchical Agglomerative Clustering [65.66407726145619]
既存のスケーラブルな階層的クラスタリング手法は、スピードの質を犠牲にする。
我々は、品質を犠牲にせず、数十億のデータポイントまでスケールする、スケーラブルで集約的な階層的クラスタリング法を提案する。
論文 参考訳(メタデータ) (2020-10-22T15:58:35Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。