論文の概要: Silhouette Aggregation: From Micro to Macro
- arxiv url: http://arxiv.org/abs/2401.05831v2
- Date: Mon, 15 Jan 2024 10:16:12 GMT
- ステータス: 処理完了
- システム内更新日: 2024-01-17 23:25:46.296980
- Title: Silhouette Aggregation: From Micro to Macro
- Title(参考訳): シルエット集合体:マイクロからマクロへ
- Authors: Georgios Vardakas and John Pavlopoulos and Aristidis Likas
- Abstract要約: マイクロアベリング戦略はクラスタ不均衡とアウトレーヤ(バックグラウンドノイズ)の両方に敏感であり,マクロアベリングの方がより堅牢であることを示す。
8つの実世界のデータセットを実験的に検討することにより,マイクロ・マクロの両係数を考慮すべきであることを示す。
- 参考スコア(独自算出の注目度): 2.8851756275902476
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Silhouette coefficient is an established internal clustering evaluation
measure that produces a score per data point, assessing the quality of its
clustering assignment. To assess the quality of the clustering of the whole
dataset, the scores of all the points in the dataset are either (micro)
averaged into a single value or averaged at the cluster level and then (macro)
averaged. As we illustrate in this work, by using a synthetic example, the
micro-averaging strategy is sensitive both to cluster imbalance and outliers
(background noise) while macro-averaging is far more robust to both.
Furthermore, the latter allows cluster-balanced sampling which yields robust
computation of the silhouette score. By conducting an experimental study on
eight real-world datasets, estimating the ground truth number of clusters, we
show that both coefficients, micro and macro, should be considered.
- Abstract(参考訳): シルエット係数(Silhouette coefficient)は、クラスタリング割り当ての品質を評価し、データポイント当たりのスコアを生成する確立された内部クラスタリング評価尺度である。
データセット全体のクラスタリングの品質を評価するために、データセットのすべてのポイントのスコアは(マイクロ)1つの値に平均化され、クラスタレベルで平均化され、それから(マクロ)平均化されます。
本研究で示すように, マイクロアベリング戦略は, クラスタ不均衡とアウトレーラ(バックグラウンドノイズ)の両方に敏感であり, マクロアベリングの方がより堅牢である。
さらに、後者は、シルエットスコアの堅牢な計算をもたらすクラスタバランスサンプリングを可能にする。
実世界の8つのデータセットについて実験を行い、クラスターの真理数を推定することにより、マイクロおよびマクロの係数が考慮されるべきであることを示す。
関連論文リスト
- Interpretable Clustering with the Distinguishability Criterion [0.4419843514606336]
本稿では,特定クラスタの分離可能性の定量化と推定クラスタ構成の検証を行うために,分散可能性基準と呼ばれるグローバルな基準を提案する。
本稿では、分散可能性基準と多くの一般的なクラスタリング手順を統合した損失関数に基づく計算フレームワークを提案する。
シミュレーション研究および実データアプリケーションに基づく包括的データ解析の結果とともに,これらの新しいアルゴリズムを提案する。
論文 参考訳(メタデータ) (2024-04-24T16:38:15Z) - Fuzzy K-Means Clustering without Cluster Centroids [79.19713746387337]
ファジィK平均クラスタリングは教師なしデータ解析において重要な計算手法である。
本稿では,クラスタセントロイドへの依存を完全に排除する,ファジィK平均クラスタリングアルゴリズムを提案する。
論文 参考訳(メタデータ) (2024-04-07T12:25:03Z) - A structured regression approach for evaluating model performance across
intersectional subgroups [57.84444882410051]
分散評価は、AIフェアネスアセスメントにおける中心的なタスクであり、異なるサブグループ間でAIシステムのパフォーマンスを測定することを目的としている。
本稿では,システム性能評価の信頼性を実証する,非凝集評価のための構造化回帰手法を提案する。
我々は2つの公開データセットといくつかの半合成データの変種についてアプローチを評価した。
論文 参考訳(メタデータ) (2024-01-26T14:21:45Z) - Cluster-level Group Representativity Fairness in $k$-means Clustering [3.420467786581458]
クラスタリングアルゴリズムは、異なるグループが異なるクラスタ内で不利になるようにクラスタを生成することができる。
我々は,古典的アルゴリズムに先駆けて,セントロイドクラスタリングパラダイムに基づくクラスタリングアルゴリズムを開発した。
本手法はクラスタレベルの表現性フェアネスを,クラスタのコヒーレンスに低い影響で向上させるのに有効であることを示す。
論文 参考訳(メタデータ) (2022-12-29T22:02:28Z) - Anomaly Clustering: Grouping Images into Coherent Clusters of Anomaly
Types [60.45942774425782]
我々は異常クラスタリングを導入し、その目標はデータを異常型の一貫性のあるクラスタにまとめることである。
これは異常検出とは違い、その目標は異常を通常のデータから分割することである。
パッチベースの事前訓練されたディープ埋め込みとオフザシェルフクラスタリング手法を用いた,単純で効果的なクラスタリングフレームワークを提案する。
論文 参考訳(メタデータ) (2021-12-21T23:11:33Z) - You Never Cluster Alone [150.94921340034688]
我々は、主流のコントラスト学習パラダイムをクラスタレベルのスキームに拡張し、同じクラスタに属するすべてのデータが統一された表現に寄与する。
分類変数の集合をクラスタ化代入信頼度として定義し、インスタンスレベルの学習トラックとクラスタレベルの学習トラックを関連付ける。
代入変数を再パラメータ化することで、TCCはエンドツーエンドでトレーニングされる。
論文 参考訳(メタデータ) (2021-06-03T14:59:59Z) - Scalable Hierarchical Agglomerative Clustering [65.66407726145619]
既存のスケーラブルな階層的クラスタリング手法は、スピードの質を犠牲にする。
我々は、品質を犠牲にせず、数十億のデータポイントまでスケールする、スケーラブルで集約的な階層的クラスタリング法を提案する。
論文 参考訳(メタデータ) (2020-10-22T15:58:35Z) - Contrastive Clustering [57.71729650297379]
本稿では,インスタンスレベルのコントラスト学習を明示的に行うContrastive Clustering (CC)を提案する。
特にCCは、CIFAR-10(CIFAR-100)データセット上で0.705(0.431)のNMIを達成しており、最高のベースラインと比較して最大19%(39%)のパフォーマンス向上を実現している。
論文 参考訳(メタデータ) (2020-09-21T08:54:40Z) - Too Much Information Kills Information: A Clustering Perspective [6.375668163098171]
分散に基づくk-クラスタリングタスクに対して,k-平均クラスタリング(k-means clustering)が広く知られていることを含む,単純かつ斬新なアプローチを提案する。
提案手法は、与えられたデータセットからサンプリングサブセットを選択し、サブセット内のデータ情報のみに基づいて決定する。
ある仮定では、結果のクラスタリングは、高い確率で分散に基づく目的の最適度を推定するのに十分である。
論文 参考訳(メタデータ) (2020-09-16T01:54:26Z) - Improving k-Means Clustering Performance with Disentangled Internal
Representations [0.0]
本稿では,オートエンコーダの学習遅延符号表現の絡み合いを最適化する,シンプルなアプローチを提案する。
提案手法を用いて,MNISTデータセットでは96.2%,Fashion-MNISTデータセットでは85.6%,EMNIST Balancedデータセットでは79.2%,ベースラインモデルでは79.2%であった。
論文 参考訳(メタデータ) (2020-06-05T11:32:34Z) - Robust M-Estimation Based Bayesian Cluster Enumeration for Real
Elliptically Symmetric Distributions [5.137336092866906]
データセットにおける最適なクラスタ数のロバストな決定は、広範囲のアプリケーションにおいて必須の要素である。
本稿では任意のReally Symmetric(RES)分散混合モデルで使用できるように一般化する。
サンプルサイズが有限であるデータセットに対して,ロバストな基準を導出するとともに,大規模なサンプルサイズでの計算コスト削減のための近似を提供する。
論文 参考訳(メタデータ) (2020-05-04T11:44:49Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。