論文の概要: Robust Trimmed k-means
- arxiv url: http://arxiv.org/abs/2108.07186v1
- Date: Mon, 16 Aug 2021 15:49:40 GMT
- ステータス: 処理完了
- システム内更新日: 2021-08-17 17:12:10.226136
- Title: Robust Trimmed k-means
- Title(参考訳): ロバストトリミングk-means
- Authors: Olga Dorabiala, J. Nathan Kutz, Aleksandr Aravkin
- Abstract要約: 本稿では,外乱点とクラスタポイントを同時に識別するRobust Trimmed k-means (RTKM)を提案する。
RTKMは他の方法と競合することを示す。
- 参考スコア(独自算出の注目度): 70.88503833248159
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Clustering is a fundamental tool in unsupervised learning, used to group
objects by distinguishing between similar and dissimilar features of a given
data set. One of the most common clustering algorithms is k-means.
Unfortunately, when dealing with real-world data many traditional clustering
algorithms are compromised by lack of clear separation between groups, noisy
observations, and/or outlying data points. Thus, robust statistical algorithms
are required for successful data analytics. Current methods that robustify
k-means clustering are specialized for either single or multi-membership data,
but do not perform competitively in both cases. We propose an extension of the
k-means algorithm, which we call Robust Trimmed k-means (RTKM) that
simultaneously identifies outliers and clusters points and can be applied to
either single- or multi-membership data. We test RTKM on various real-world
datasets and show that RTKM performs competitively with other methods on single
membership data with outliers and multi-membership data without outliers. We
also show that RTKM leverages its relative advantages to outperform other
methods on multi-membership data containing outliers.
- Abstract(参考訳): クラスタリングは教師なし学習の基本的なツールであり、与えられたデータセットの類似点と類似点を区別してオブジェクトをグループ化するのに使われる。
最も一般的なクラスタリングアルゴリズムの1つはk-meansである。
残念なことに、実世界のデータを扱う場合、多くの従来のクラスタリングアルゴリズムは、グループ間の明確な分離の欠如、ノイズの多い観測、および/またはデータポイントの出力によって妥協される。
したがって、データ分析を成功させるためには、堅牢な統計アルゴリズムが必要である。
k平均クラスタリングを堅牢化する現在の方法は、シングルまたはマルチメンバーシップデータに特化しているが、どちらの場合にも競合しない。
本稿では,k-meansアルゴリズムの拡張を提案する。これはロバストなトリミングk-means (rtkm) と呼ばれ,異常点とクラスタ点を同時に識別し,単一または複数メンバのデータに適用できる。
実世界の様々なデータセット上でRTKMをテストし、アウトレイアのない単一メンバシップデータとマルチメンバシップデータでRTKMが競合することを示す。
また、RTKMはその相対的な利点を利用して、外乱を含むマルチメンバシップデータにおいて、他の手法よりも優れていることを示す。
関連論文リスト
- Self-Supervised Graph Embedding Clustering [70.36328717683297]
K-means 1-step dimensionality reduction clustering method は,クラスタリングタスクにおける次元性の呪いに対処する上で,いくつかの進歩をもたらした。
本稿では,K-meansに多様体学習を統合する統一フレームワークを提案する。
論文 参考訳(メタデータ) (2024-09-24T08:59:51Z) - Fuzzy K-Means Clustering without Cluster Centroids [21.256564324236333]
ファジィK平均クラスタリングは教師なしデータ分析において重要な手法である。
本稿では,クラスタセントロイドへの依存を完全に排除する,ファジィテクストK-Meansクラスタリングアルゴリズムを提案する。
論文 参考訳(メタデータ) (2024-04-07T12:25:03Z) - A Weighted K-Center Algorithm for Data Subset Selection [70.49696246526199]
サブセット選択は、トレーニングデータの小さな部分を特定する上で重要な役割を果たす、基本的な問題である。
我々は,k中心および不確かさサンプリング目的関数の重み付け和に基づいて,サブセットを計算する新しい係数3近似アルゴリズムを開発した。
論文 参考訳(メタデータ) (2023-12-17T04:41:07Z) - Comparative Analysis of Optimization Strategies for K-means Clustering in Big Data Contexts: A Review [0.3069335774032178]
K-meansはクラスタリングアルゴリズムとして広く使用されているが、大規模なデータセットを扱う場合、スケーラビリティの問題に悩まされる可能性がある。
本稿では、並列化、近似、サンプリング方法など、これらの問題を克服するための様々なアプローチについて検討する。
論文 参考訳(メタデータ) (2023-10-15T12:35:27Z) - Rethinking k-means from manifold learning perspective [122.38667613245151]
平均推定なしで直接データのクラスタを検出する新しいクラスタリングアルゴリズムを提案する。
具体的には,バタワースフィルタを用いてデータ点間の距離行列を構成する。
異なる視点に埋め込まれた相補的な情報をうまく活用するために、テンソルのSchatten p-norm正規化を利用する。
論文 参考訳(メタデータ) (2023-05-12T03:01:41Z) - A One-shot Framework for Distributed Clustered Learning in Heterogeneous
Environments [54.172993875654015]
異種環境における分散学習のためのコミュニケーション効率化手法のファミリーを提案する。
ユーザによるローカル計算に基づくワンショットアプローチと、サーバにおけるクラスタリングベースのアグリゲーションステップは、強力な学習保証を提供する。
厳密な凸問題に対しては,ユーザ毎のデータ点数がしきい値を超える限り,提案手法はサンプルサイズの観点から順序最適平均二乗誤差率を達成する。
論文 参考訳(メタデータ) (2022-09-22T09:04:10Z) - ck-means, a novel unsupervised learning method that combines fuzzy and
crispy clustering methods to extract intersecting data [1.827510863075184]
本稿では,2つの特徴以上の共通点を共有するデータをクラスタリングする手法を提案する。
この手法の主な考え方は、ファジィ C-Means (FCM) アルゴリズムを用いてファジィクラスタを生成することである。
このアルゴリズムはまた、シルエット指数(SI)によって与えられるクラスタの一貫性に従って、FCMとk平均アルゴリズムのための最適なクラスタ数を見つけることができる。
論文 参考訳(メタデータ) (2022-06-17T19:29:50Z) - Meta Clustering Learning for Large-scale Unsupervised Person
Re-identification [124.54749810371986]
メタクラスタリング学習(MCL)と呼ばれる「大規模タスクのための小さなデータ」パラダイムを提案する。
MCLは、第1フェーズのトレーニングのためにコンピューティングを節約するためにクラスタリングを介して、未ラベルデータのサブセットを擬似ラベル付けするのみである。
提案手法は計算コストを大幅に削減すると同時に,従来よりも優れた性能を実現している。
論文 参考訳(メタデータ) (2021-11-19T04:10:18Z) - Too Much Information Kills Information: A Clustering Perspective [6.375668163098171]
分散に基づくk-クラスタリングタスクに対して,k-平均クラスタリング(k-means clustering)が広く知られていることを含む,単純かつ斬新なアプローチを提案する。
提案手法は、与えられたデータセットからサンプリングサブセットを選択し、サブセット内のデータ情報のみに基づいて決定する。
ある仮定では、結果のクラスタリングは、高い確率で分散に基づく目的の最適度を推定するのに十分である。
論文 参考訳(メタデータ) (2020-09-16T01:54:26Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。