論文の概要: Clustering performance analysis using new correlation based cluster
validity indices
- arxiv url: http://arxiv.org/abs/2109.11172v1
- Date: Thu, 23 Sep 2021 06:59:41 GMT
- ステータス: 処理完了
- システム内更新日: 2021-09-24 15:17:09.228281
- Title: Clustering performance analysis using new correlation based cluster
validity indices
- Title(参考訳): 新しい相関型クラスタ妥当性指標を用いたクラスタリング性能解析
- Authors: Nathakhun Wiroonsri
- Abstract要約: 本研究では,2つのデータポイント間の実際の距離と,2つのポイントが位置するクラスタのセントロイド距離との相関に基づく2つの新しいクラスタ妥当性指標を開発した。
提案した指標は, 前述した弱点を克服する異なる数のクラスタにおいて, 常にいくつかのピークを発生させる。
- 参考スコア(独自算出の注目度): 0.0
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: There are various cluster validity measures used for evaluating clustering
results. One of the main objective of using these measures is to seek the
optimal unknown number of clusters. Some measures work well for clusters with
different densities, sizes and shapes. Yet, one of the weakness that those
validity measures share is that they sometimes provide only one clear optimal
number of clusters. That number is actually unknown and there might be more
than one potential sub-optimal options that a user may wish to choose based on
different applications. We develop two new cluster validity indices based on a
correlation between an actual distance between a pair of data points and a
centroid distance of clusters that the two points locate in. Our proposed
indices constantly yield several peaks at different numbers of clusters which
overcome the weakness previously stated. Furthermore, the introduced
correlation can also be used for evaluating the quality of a selected
clustering result. Several experiments in different scenarios including the
well-known iris data set and a real-world marketing application have been
conducted in order to compare the proposed validity indices with several
well-known ones.
- Abstract(参考訳): クラスタリング結果の評価には様々なクラスタ妥当性尺度が用いられる。
これらの測度を使用する主な目的の1つは、最適な未知数のクラスターを求めることである。
いくつかの測定は、密度、サイズ、形状の異なるクラスタでうまく機能する。
しかし、これらの妥当性尺度が共有する弱点の1つは、クラスタの最適な数を1つだけ提供することである。
この数字は実際には不明であり、ユーザが異なるアプリケーションに基づいて選択したいと思われる選択肢が1つ以上ある可能性がある。
本研究では,2つのデータポイント間の実際の距離と,2つのポイントが位置するクラスタのセントロイド距離との相関に基づく2つの新しいクラスタ妥当性指標を開発した。
提案した指標は, 前述した弱点を克服する異なる数のクラスタにおいて, 常にピークとなる。
さらに、導入した相関は、選択されたクラスタリング結果の品質を評価するためにも使用できる。
有名なアイリスデータセットや実世界のマーケティングアプリケーションなど、さまざまなシナリオにおけるいくつかの実験は、提案された妥当性指標とよく知られた指標を比較するために行われた。
関連論文リスト
- Dying Clusters Is All You Need -- Deep Clustering With an Unknown Number of Clusters [5.507296054825372]
高次元データで有意義なグループを見つけることは、データマイニングにおいて重要な課題である。
深層クラスタリング手法はこれらの課題において顕著な成果を上げている。
これらのメソッドの多くは、事前にクラスタの数を指定する必要がある。
これは、ラベル付きデータが利用できない場合、クラスタの数は通常不明であるため、大きな制限となる。
これらのアプローチのほとんどは、クラスタリングプロセスから分離されたクラスタの数を見積もっています。
論文 参考訳(メタデータ) (2024-10-12T11:04:10Z) - ABCDE: Application-Based Cluster Diff Evals [49.1574468325115]
それは実用性を目指しており、アイテムはアプリケーション固有の重要な値を持つことができ、クラスタリングがどちらが優れているかを判断するときに人間の判断を使うのは粗悪であり、アイテムの任意のスライスのためのメトリクスを報告できる。
クラスタリング品質の差分を測定するアプローチは、高価な地平を前もって構築し、それに関して各クラスタリングを評価する代わりに、ABCDEはクラスタリング間の実際の差分に基づいて、判定のための質問をサンプリングする。
論文 参考訳(メタデータ) (2024-07-31T08:29:35Z) - Instance-Optimal Cluster Recovery in the Labeled Stochastic Block Model [79.46465138631592]
観測されたラベルを用いてクラスタを復元する効率的なアルゴリズムを考案する。
本稿では,期待値と高い確率でこれらの下位境界との性能を一致させる最初のアルゴリズムであるIACを提案する。
論文 参考訳(メタデータ) (2023-06-18T08:46:06Z) - Rethinking k-means from manifold learning perspective [122.38667613245151]
平均推定なしで直接データのクラスタを検出する新しいクラスタリングアルゴリズムを提案する。
具体的には,バタワースフィルタを用いてデータ点間の距離行列を構成する。
異なる視点に埋め込まれた相補的な情報をうまく活用するために、テンソルのSchatten p-norm正規化を利用する。
論文 参考訳(メタデータ) (2023-05-12T03:01:41Z) - A novel cluster internal evaluation index based on hyper-balls [11.048887848164268]
クラスタ分析において、品質を評価し、最適なクラスタ数を決定することが重要である。
本稿では,データセットの多粒度特徴付けを行い,ハイパーボールを得る。
ハイパーボール(HCVI)に基づくクラスタ内部評価指標を定義する。
論文 参考訳(メタデータ) (2022-12-30T02:56:40Z) - A new nonparametric interpoint distance-based measure for assessment of
clustering [0.0]
データセットに存在するクラスタの最適な数を特定するために,新たなインターポイント距離に基づく測度を提案する。
提案する基準は任意のクラスタリングアルゴリズムと互換性があり,未知数のクラスタを決定するために使用できる。
論文 参考訳(メタデータ) (2022-10-01T04:27:54Z) - A One-shot Framework for Distributed Clustered Learning in Heterogeneous
Environments [54.172993875654015]
異種環境における分散学習のためのコミュニケーション効率化手法のファミリーを提案する。
ユーザによるローカル計算に基づくワンショットアプローチと、サーバにおけるクラスタリングベースのアグリゲーションステップは、強力な学習保証を提供する。
厳密な凸問題に対しては,ユーザ毎のデータ点数がしきい値を超える限り,提案手法はサンプルサイズの観点から順序最適平均二乗誤差率を達成する。
論文 参考訳(メタデータ) (2022-09-22T09:04:10Z) - Anomaly Clustering: Grouping Images into Coherent Clusters of Anomaly
Types [60.45942774425782]
我々は異常クラスタリングを導入し、その目標はデータを異常型の一貫性のあるクラスタにまとめることである。
これは異常検出とは違い、その目標は異常を通常のデータから分割することである。
パッチベースの事前訓練されたディープ埋め込みとオフザシェルフクラスタリング手法を用いた,単純で効果的なクラスタリングフレームワークを提案する。
論文 参考訳(メタデータ) (2021-12-21T23:11:33Z) - Selecting the number of clusters, clustering models, and algorithms. A
unifying approach based on the quadratic discriminant score [0.5330240017302619]
本稿では,多数のクラスタリングソリューションの中から選択可能な選択規則を提案する。
提案手法は,他の最先端手法と比較できない分割を比較できるという特徴的利点を有する。
論文 参考訳(メタデータ) (2021-11-03T15:38:58Z) - Scalable Hierarchical Agglomerative Clustering [65.66407726145619]
既存のスケーラブルな階層的クラスタリング手法は、スピードの質を犠牲にする。
我々は、品質を犠牲にせず、数十億のデータポイントまでスケールする、スケーラブルで集約的な階層的クラスタリング法を提案する。
論文 参考訳(メタデータ) (2020-10-22T15:58:35Z) - A New Validity Index for Fuzzy-Possibilistic C-Means Clustering [6.174448419090291]
Fuzzy-Possibilistic (FP)指数は、形状や密度の異なるクラスターの存在下でうまく機能する。
FPCMはファジィの度合いと典型性の度合いを事前選択する必要がある。
論文 参考訳(メタデータ) (2020-05-19T01:48:13Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。