論文の概要: Composite Silhouette: A Subsampling-based Aggregation Strategy
- arxiv url: http://arxiv.org/abs/2604.13816v1
- Date: Wed, 15 Apr 2026 12:49:09 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-04-16 20:38:32.540488
- Title: Composite Silhouette: A Subsampling-based Aggregation Strategy
- Title(参考訳): 複合シルエット: サブサンプリングに基づくアグリゲーション戦略
- Authors: Aggelos Semoglou, Aristidis Likas, John Pavlopoulos,
- Abstract要約: 本稿では,クラスタ数選択のための内部基準であるComposite Silhouetteを紹介する。
単一のパーティションに頼るのではなく、繰り返しるサブサンプリングされたクラスタリングにまたがってエビデンスを集約する。
合成および実世界のデータセットの実験により、コンポジットシルエットはマイクロ・マクロ・アベリングの強度を効果的に再現することが示された。
- 参考スコア(独自算出の注目度): 5.70259485914933
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Determining the number of clusters is a central challenge in unsupervised learning, where ground-truth labels are unavailable. The Silhouette coefficient is a widely used internal validation metric for this task, yet its standard micro-averaged form tends to favor larger clusters under size imbalance. Macro-averaging mitigates this bias by weighting clusters equally, but may overemphasize noise from under-represented groups. We introduce Composite Silhouette, an internal criterion for cluster-count selection that aggregates evidence across repeated subsampled clusterings rather than relying on a single partition. For each subsample, micro- and macro-averaged Silhouette scores are combined through an adaptive convex weight determined by their normalized discrepancy and smoothed by a bounded nonlinearity; the final score is then obtained by averaging these subsample-level composites. We establish key properties of the criterion and derive finite-sample concentration guarantees for its subsampling estimate. Experiments on synthetic and real-world datasets show that Composite Silhouette effectively reconciles the strengths of micro- and macro-averaging, yielding more accurate recovery of the ground-truth number of clusters.
- Abstract(参考訳): クラスタ数を決定することは教師なし学習における中心的な課題である。
シルエット係数は、このタスクで広く用いられる内部検証指標であるが、その標準のマイクロ平均形は、サイズが不均衡なより大きなクラスターを好む傾向にある。
マクロアベリングは、クラスターを均等に重み付けすることでこのバイアスを緩和するが、低表現群からのノイズを過度に強調する可能性がある。
本稿では,クラスタ数選択のための内部基準であるComposite Silhouetteを紹介する。
各サブサンプルについて、マイクロおよびマクロ平均シルエットスコアは、それらの正規化不一致によって決定される適応凸重みによって結合された非線形性により滑らか化され、これらのサブサンプルレベルコンポジットを平均化して最終スコアを得る。
我々は,基準の鍵となる性質を確立し,そのサブサンプリング推定に対する有限サンプル濃度保証を導出する。
合成および実世界のデータセットの実験により、複合シルエットは、マイクロ・マクロ・アベリングの強度を効果的に調整し、より正確なクラスタ数の回復をもたらすことが示されている。
関連論文リスト
- Weight-Informed Self-Explaining Clustering for Mixed-Type Tabular Data [63.62853416081748]
WISEは表現、特徴重み付け、クラスタリング、解釈を統一するフレームワークである。
クラスタリングを駆動する同じプリミティブに根ざした、忠実で人間解釈可能な説明を生成する。
論文 参考訳(メタデータ) (2026-04-07T13:18:31Z) - Self-Supervised Graph Embedding Clustering [70.36328717683297]
K-means 1-step dimensionality reduction clustering method は,クラスタリングタスクにおける次元性の呪いに対処する上で,いくつかの進歩をもたらした。
本稿では,K-meansに多様体学習を統合する統一フレームワークを提案する。
論文 参考訳(メタデータ) (2024-09-24T08:59:51Z) - Interpretable Clustering with the Distinguishability Criterion [0.4419843514606336]
本稿では,特定クラスタの分離可能性の定量化と推定クラスタ構成の検証を行うために,分散可能性基準と呼ばれるグローバルな基準を提案する。
本稿では、分散可能性基準と多くの一般的なクラスタリング手順を統合した損失関数に基づく計算フレームワークを提案する。
シミュレーション研究および実データアプリケーションに基づく包括的データ解析の結果とともに,これらの新しいアルゴリズムを提案する。
論文 参考訳(メタデータ) (2024-04-24T16:38:15Z) - Revisiting Silhouette Aggregation [2.56711111236449]
シルエット係数(Silhouette coefficient)は、クラスタリングの割り当ての品質を評価し、データポイント当たりのスコアを生成する評価尺度である。
滅多に採用されない代替のパスは、まずクラスタレベルで平均し、次に(マクロ)クラスタ全体で平均することです。
典型的なマイクロアグレージング戦略はクラスタ不均衡に敏感であり,見過ごされたマクロアベリング戦略ははるかに堅牢であることを示す。
論文 参考訳(メタデータ) (2024-01-11T10:57:29Z) - Anomaly Clustering: Grouping Images into Coherent Clusters of Anomaly
Types [60.45942774425782]
我々は異常クラスタリングを導入し、その目標はデータを異常型の一貫性のあるクラスタにまとめることである。
これは異常検出とは違い、その目標は異常を通常のデータから分割することである。
パッチベースの事前訓練されたディープ埋め込みとオフザシェルフクラスタリング手法を用いた,単純で効果的なクラスタリングフレームワークを提案する。
論文 参考訳(メタデータ) (2021-12-21T23:11:33Z) - Scalable Hierarchical Agglomerative Clustering [65.66407726145619]
既存のスケーラブルな階層的クラスタリング手法は、スピードの質を犠牲にする。
我々は、品質を犠牲にせず、数十億のデータポイントまでスケールする、スケーラブルで集約的な階層的クラスタリング法を提案する。
論文 参考訳(メタデータ) (2020-10-22T15:58:35Z) - Progressive Cluster Purification for Unsupervised Feature Learning [48.87365358296371]
教師なしの特徴学習では、サンプル特異性に基づく手法はクラス間の情報を無視する。
本稿では,プログレッシブクラスタ形成時にクラス不整合サンプルを除外するクラスタリングに基づく新しい手法を提案する。
我々の手法は、プログレッシブ・クラスタ・パーフィケーション(PCP)と呼ばれ、訓練中に徐々にクラスタ数を減らし、プログレッシブ・クラスタリングを実装している。
論文 参考訳(メタデータ) (2020-07-06T08:11:03Z) - Robust M-Estimation Based Bayesian Cluster Enumeration for Real
Elliptically Symmetric Distributions [5.137336092866906]
データセットにおける最適なクラスタ数のロバストな決定は、広範囲のアプリケーションにおいて必須の要素である。
本稿では任意のReally Symmetric(RES)分散混合モデルで使用できるように一般化する。
サンプルサイズが有限であるデータセットに対して,ロバストな基準を導出するとともに,大規模なサンプルサイズでの計算コスト削減のための近似を提供する。
論文 参考訳(メタデータ) (2020-05-04T11:44:49Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。