論文の概要: Selecting the Number of Clusters $K$ with a Stability Trade-off: an
Internal Validation Criterion
- arxiv url: http://arxiv.org/abs/2006.08530v2
- Date: Thu, 16 Jul 2020 14:40:46 GMT
- ステータス: 処理完了
- システム内更新日: 2022-11-21 03:15:43.191422
- Title: Selecting the Number of Clusters $K$ with a Stability Trade-off: an
Internal Validation Criterion
- Title(参考訳): 安定性トレードオフによるクラスタ数の選択 $k$: 内部検証基準
- Authors: Alex Mourer, Florent Forest, Mustapha Lebbah, Hanane Azzag and
J\'er\^ome Lacaille
- Abstract要約: 優れたクラスタリングは安定していなければならないし、各クラスタには安定したパーティションが存在しなければならない。
サンプルベース摂動と比較して,付加雑音による構造発見の優れた性能を実証的に示す。
- 参考スコア(独自算出の注目度): 0.0
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Model selection is a major challenge in non-parametric clustering. There is
no universally admitted way to evaluate clustering results for the obvious
reason that there is no ground truth against which results could be tested, as
in supervised learning. The difficulty to find a universal evaluation criterion
is a direct consequence of the fundamentally ill-defined objective of
clustering. In this perspective, clustering stability has emerged as a natural
and model-agnostic principle: an algorithm should find stable structures in the
data. If data sets are repeatedly sampled from the same underlying
distribution, an algorithm should find similar partitions. However, it turns
out that stability alone is not a well-suited tool to determine the number of
clusters. For instance, it is unable to detect if the number of clusters is too
small. We propose a new principle for clustering validation: a good clustering
should be stable, and within each cluster, there should exist no stable
partition. This principle leads to a novel internal clustering validity
criterion based on between-cluster and within-cluster stability, overcoming
limitations of previous stability-based methods. We empirically show the
superior ability of additive noise to discover structures, compared with
sampling-based perturbation. We demonstrate the effectiveness of our method for
selecting the number of clusters through a large number of experiments and
compare it with existing evaluation methods.
- Abstract(参考訳): モデル選択は非パラメトリッククラスタリングにおいて大きな課題である。
教師付き学習のように、どの結果がテストできるのかという根拠のない明確な理由から、クラスタリング結果を評価する普遍的に認められた方法はない。
普遍的な評価基準を見つけることの難しさは、クラスタリングの根本的な不明確な目的の直接的な結果である。
この観点では、クラスタリングの安定性は自然およびモデルに依存しない原理として現れている。
データセットが同じ分布から繰り返しサンプリングされる場合、アルゴリズムは同様のパーティションを見つけるべきである。
しかし、安定性だけではクラスタ数を決定するのに十分なツールではないことが判明した。
例えば、クラスタの数が小さすぎるかどうかを検出することができない。
優れたクラスタリングは安定していなければならないし、各クラスタには安定したパーティションが存在しなければならない。
この原則は、クラスタ間およびクラスタ内安定性に基づく新しい内部クラスタリング妥当性基準を導き、以前の安定性ベースの方法の限界を克服する。
サンプルベース摂動と比較して,付加雑音による構造発見の優れた性能を実証的に示す。
本稿では,多数の実験を通してクラスタ数を選択する手法の有効性を実証し,既存の評価手法と比較する。
関連論文リスト
- Guaranteed Recovery of Unambiguous Clusters [7.011239860967789]
クラスタリングは、しばしば難しい問題である。なぜなら、それは、"正しい"クラスタリングがどうあるべきかに固有の曖昧さのためである。
本稿では,不明瞭な場合のクラスタリングを復元するアルゴリズムについて,情報理論による特徴付けと設計を提案する。
論文 参考訳(メタデータ) (2025-01-22T18:51:25Z) - ABCDE: Application-Based Cluster Diff Evals [49.1574468325115]
それは実用性を目指しており、アイテムはアプリケーション固有の重要な値を持つことができ、クラスタリングがどちらが優れているかを判断するときに人間の判断を使うのは粗悪であり、アイテムの任意のスライスのためのメトリクスを報告できる。
クラスタリング品質の差分を測定するアプローチは、高価な地平を前もって構築し、それに関して各クラスタリングを評価する代わりに、ABCDEはクラスタリング間の実際の差分に基づいて、判定のための質問をサンプリングする。
論文 参考訳(メタデータ) (2024-07-31T08:29:35Z) - Reinforcement Graph Clustering with Unknown Cluster Number [91.4861135742095]
本稿では,Reinforcement Graph Clusteringと呼ばれる新しいディープグラフクラスタリング手法を提案する。
提案手法では,クラスタ数決定と教師なし表現学習を統一的なフレームワークに統合する。
フィードバック動作を行うために、クラスタリング指向の報酬関数を提案し、同一クラスタの凝集を高め、異なるクラスタを分離する。
論文 参考訳(メタデータ) (2023-08-13T18:12:28Z) - Revisiting Instance-Optimal Cluster Recovery in the Labeled Stochastic Block Model [69.15976031704687]
IAC (Instance-Adaptive Clustering, インスタンス適応クラスタリング) を提案する。
IACは$ MathcalO(n, textpolylog(n) $の計算複雑性を維持しており、大規模問題に対してスケーラブルで実用的なものである。
論文 参考訳(メタデータ) (2023-06-18T08:46:06Z) - Normalised clustering accuracy: An asymmetric external cluster validity measure [2.900810893770134]
クラスタリングアルゴリズムは、伝統的に内部または外部の妥当性尺度を用いて評価される。
本稿では、一般的に使われている古典的分割類似度スコアは、いくつかの望ましい性質を欠いていると論じる。
我々は,最適セットマッチング精度のバージョンである新しい尺度を提案し,分析する。
論文 参考訳(メタデータ) (2022-09-07T05:08:34Z) - Distribution free optimality intervals for clustering [1.7513645771137178]
データ$mathcalD$と、これらのデータのパーティション$mathcalC$を$K$クラスタにすると、得られたクラスタがデータに対して正しい、あるいは有意義なものであると言えますか?
本稿では,K-means歪みなどの損失関数に関して,クラスタリング$mathcalC$が有意義であると考えられるパラダイムを紹介した。
論文 参考訳(メタデータ) (2021-07-30T06:13:56Z) - Sum-of-norms clustering does not separate nearby balls [49.1574468325115]
我々は,データセットを一般的な測度に置き換えた,和和クラスタリングの連続的なバージョンを示す。
我々は,離散データポイントの場合においても,新たなクラスタリングの局所的特徴を記述し,証明する。
論文 参考訳(メタデータ) (2021-04-28T13:35:17Z) - K-expectiles clustering [0.0]
本稿では,期待値に基づく分割クラスタリングアルゴリズムを提案する。
固定$tau$クラスタリングと適応$tau$クラスタリングの2つのスキームを提案します。
論文 参考訳(メタデータ) (2021-03-16T21:14:56Z) - Scalable Hierarchical Agglomerative Clustering [65.66407726145619]
既存のスケーラブルな階層的クラスタリング手法は、スピードの質を犠牲にする。
我々は、品質を犠牲にせず、数十億のデータポイントまでスケールする、スケーラブルで集約的な階層的クラスタリング法を提案する。
論文 参考訳(メタデータ) (2020-10-22T15:58:35Z) - reval: a Python package to determine best clustering solutions with
stability-based relative clustering validation [1.8129328638036126]
revalは、安定性ベースの相対クラスタリングバリデーションメソッドを活用して、最適なクラスタリングソリューションを決定するPythonパッケージである。
この研究は、教師付き学習を通じて、目に見えないデータのサブセットを複製するものとして、最高のクラスタリングソリューションを選択する安定性ベースの方法の開発を目的としている。
論文 参考訳(メタデータ) (2020-08-27T10:36:56Z) - Selective Inference for Latent Block Models [50.83356836818667]
本研究では,潜在ブロックモデルに対する選択的推論法を提案する。
我々は,潜在ブロックモデルの行と列クラスタのメンバシップの集合に対する統計的テストを構築した。
提案された正確で近似されたテストは、選択バイアスを考慮していない単純なテストと比較して効果的に機能する。
論文 参考訳(メタデータ) (2020-05-27T10:44:19Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。