論文の概要: Revisiting Silhouette Aggregation
- arxiv url: http://arxiv.org/abs/2401.05831v3
- Date: Sat, 22 Jun 2024 17:59:01 GMT
- ステータス: 処理完了
- システム内更新日: 2024-06-26 02:22:43.442022
- Title: Revisiting Silhouette Aggregation
- Title(参考訳): シルエット・アグリゲーションの再検討
- Authors: John Pavlopoulos, Georgios Vardakas, Aristidis Likas,
- Abstract要約: シルエット係数(Silhouette coefficient)は、クラスタリングの割り当ての品質を評価し、データポイント当たりのスコアを生成する評価尺度である。
滅多に採用されない代替のパスは、まずクラスタレベルで平均し、次に(マクロ)クラスタ全体で平均することです。
典型的なマイクロアグレージング戦略はクラスタ不均衡に敏感であり,見過ごされたマクロアベリング戦略ははるかに堅牢であることを示す。
- 参考スコア(独自算出の注目度): 2.56711111236449
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Silhouette coefficient is an established internal clustering evaluation measure that produces a score per data point, assessing the quality of its clustering assignment. To assess the quality of the clustering of the whole dataset, the scores of all the points in the dataset are typically (micro) averaged into a single value. An alternative path, however, that is rarely employed, is to average first at the cluster level and then (macro) average across clusters. As we illustrate in this work with a synthetic example, the typical micro-averaging strategy is sensitive to cluster imbalance while the overlooked macro-averaging strategy is far more robust. By investigating macro-Silhouette further, we find that uniform sub-sampling, the only available strategy in existing libraries, harms the measure's robustness against imbalance. We address this issue by proposing a per-cluster sampling method. An experimental study on eight real-world datasets is then used to analyse both coefficients in two clustering tasks.
- Abstract(参考訳): シルエット係数(Silhouette coefficient)は、クラスタリングの割り当ての品質を評価し、データポイント当たりのスコアを生成する確立された内部クラスタリング評価尺度である。
データセット全体のクラスタリングの品質を評価するために、データセットのすべてのポイントのスコアは通常、(マイクロ)1つの値に平均化されます。
しかし、滅多に採用されない代替のパスは、まずクラスタレベルで平均化し、次に(マクロ)クラスタ全体で平均となることである。
この研究を合成例で示すように、典型的なマイクロデバッグ戦略はクラスタ不均衡に敏感であり、見過ごされたマクロデバッグ戦略ははるかに堅牢である。
マクロシルエットをさらに調査することで、既存の図書館で唯一利用可能な戦略である統一サブサンプリングが、不均衡に対する尺度の頑健さを損なうことが判明した。
クラスタごとのサンプリング手法を提案することでこの問題に対処する。
8つの実世界のデータセットに関する実験的研究は、2つのクラスタリングタスクにおいて両方の係数を分析するために使用される。
関連論文リスト
- Interpretable Clustering with the Distinguishability Criterion [0.4419843514606336]
本稿では,特定クラスタの分離可能性の定量化と推定クラスタ構成の検証を行うために,分散可能性基準と呼ばれるグローバルな基準を提案する。
本稿では、分散可能性基準と多くの一般的なクラスタリング手順を統合した損失関数に基づく計算フレームワークを提案する。
シミュレーション研究および実データアプリケーションに基づく包括的データ解析の結果とともに,これらの新しいアルゴリズムを提案する。
論文 参考訳(メタデータ) (2024-04-24T16:38:15Z) - Quality check of a sample partition using multinomial distribution [0.0]
我々は、サンプルのクラスタパーティションの品質をいくつかの異なるクラスに分類する目的で、新しい尺度を提唱する。
我々は,各クラスタの代表者からグループにクラスタ化されたデータメンバーの距離に,多項分布を適用した。
論文 参考訳(メタデータ) (2024-04-11T14:14:58Z) - Instance-Optimal Cluster Recovery in the Labeled Stochastic Block Model [79.46465138631592]
観測されたラベルを用いてクラスタを復元する効率的なアルゴリズムを考案する。
本稿では,期待値と高い確率でこれらの下位境界との性能を一致させる最初のアルゴリズムであるIACを提案する。
論文 参考訳(メタデータ) (2023-06-18T08:46:06Z) - Cluster-level Group Representativity Fairness in $k$-means Clustering [3.420467786581458]
クラスタリングアルゴリズムは、異なるグループが異なるクラスタ内で不利になるようにクラスタを生成することができる。
我々は,古典的アルゴリズムに先駆けて,セントロイドクラスタリングパラダイムに基づくクラスタリングアルゴリズムを開発した。
本手法はクラスタレベルの表現性フェアネスを,クラスタのコヒーレンスに低い影響で向上させるのに有効であることを示す。
論文 参考訳(メタデータ) (2022-12-29T22:02:28Z) - Self-Evolutionary Clustering [1.662966122370634]
既存のディープクラスタリング手法の多くは、単純な距離比較に基づいており、手作り非線形マッピングによって生成されたターゲット分布に大きく依存している。
新たなモジュール型自己進化クラスタリング(Self-EvoC)フレームワークが構築され,自己管理的な分類によってクラスタリング性能が向上する。
このフレームワークは、サンプルアウトレイラを効率よく識別し、自己監督の助けを借りて、より良い目標分布を生成することができる。
論文 参考訳(メタデータ) (2022-02-21T19:38:18Z) - Differentially-Private Clustering of Easy Instances [67.04951703461657]
異なるプライベートクラスタリングでは、個々のデータポイントに関する情報を公開せずに、$k$のクラスタセンターを特定することが目標だ。
我々は、データが"簡単"である場合にユーティリティを提供する実装可能な差分プライベートクラスタリングアルゴリズムを提供する。
我々は、非プライベートクラスタリングアルゴリズムを簡単なインスタンスに適用し、結果をプライベートに組み合わせることのできるフレームワークを提案する。
論文 参考訳(メタデータ) (2021-12-29T08:13:56Z) - Anomaly Clustering: Grouping Images into Coherent Clusters of Anomaly
Types [60.45942774425782]
我々は異常クラスタリングを導入し、その目標はデータを異常型の一貫性のあるクラスタにまとめることである。
これは異常検出とは違い、その目標は異常を通常のデータから分割することである。
パッチベースの事前訓練されたディープ埋め込みとオフザシェルフクラスタリング手法を用いた,単純で効果的なクラスタリングフレームワークを提案する。
論文 参考訳(メタデータ) (2021-12-21T23:11:33Z) - You Never Cluster Alone [150.94921340034688]
我々は、主流のコントラスト学習パラダイムをクラスタレベルのスキームに拡張し、同じクラスタに属するすべてのデータが統一された表現に寄与する。
分類変数の集合をクラスタ化代入信頼度として定義し、インスタンスレベルの学習トラックとクラスタレベルの学習トラックを関連付ける。
代入変数を再パラメータ化することで、TCCはエンドツーエンドでトレーニングされる。
論文 参考訳(メタデータ) (2021-06-03T14:59:59Z) - Scalable Hierarchical Agglomerative Clustering [65.66407726145619]
既存のスケーラブルな階層的クラスタリング手法は、スピードの質を犠牲にする。
我々は、品質を犠牲にせず、数十億のデータポイントまでスケールする、スケーラブルで集約的な階層的クラスタリング法を提案する。
論文 参考訳(メタデータ) (2020-10-22T15:58:35Z) - LSD-C: Linearly Separable Deep Clusters [145.89790963544314]
ラベルなしデータセットのクラスタを識別する新しい手法であるLSD-Cを提案する。
本手法は,最近の半教師付き学習の実践からインスピレーションを得て,クラスタリングアルゴリズムと自己教師付き事前学習と強力なデータ拡張を組み合わせることを提案する。
CIFAR 10/100, STL 10, MNIST, および文書分類データセットReuters 10Kなど, 一般的な公開画像ベンチマークにおいて, 当社のアプローチが競合より大幅に優れていたことを示す。
論文 参考訳(メタデータ) (2020-06-17T17:58:10Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。