論文の概要: An upper bound of the silhouette validation metric for clustering
- arxiv url: http://arxiv.org/abs/2509.08625v2
- Date: Sun, 09 Nov 2025 02:23:29 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-11-11 19:11:14.298747
- Title: An upper bound of the silhouette validation metric for clustering
- Title(参考訳): クラスタリングのためのシルエット検証指標の上界
- Authors: Hugo Sträng, Tai Dinh,
- Abstract要約: 平均シルエット幅(英: average silhouette width、ASW)は、クラスタリングの品質の尺度として広く使われている。
本研究では,各データポイントに対してシルエット幅の鋭い上界を導出し,これらを集約し,ASW上の標準上界を得る。
このバウンダリは、与えられたクラスタリング結果がデータセット上で最も可能な結果にどの程度近いかを示すことによって、経験的ASW値の解釈可能性を大幅に低下させる。
- 参考スコア(独自算出の注目度): 0.552480439325792
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: The silhouette coefficient quantifies, for each observation, the balance between within-cluster cohesion and between-cluster separation, taking values in [-1, 1]. The average silhouette width (ASW) is a widely used internal measure of clustering quality, with higher values indicating more cohesive and well-separated clusters. However, the dataset-specific maximum of ASW is typically unknown, and the standard upper limit of 1 is rarely attainable. In this work, we derive for each data point a sharp upper bound on its silhouette width and aggregate these to obtain a canonical upper bound on the ASW. This bound-often substantially below 1-enhances the interpretability of empirical ASW values by indicating how close a given clustering result is to the best possible outcome on that dataset. It can be used to confirm global optimality, guide the evaluation of clustering solutions, and be refined to incorporate minimum cluster-size constraints for greater practical relevance. Finally, we extend the framework to establish a corresponding bound for the macro-averaged silhouette.
- Abstract(参考訳): シルエット係数は、各観測毎に、[-1, 1]の値を取るクラスタ内凝集とクラスタ間分離のバランスを定量化する。
平均シルエット幅(英: average silhouette width、ASW)はクラスタリングの品質を測る内部尺度として広く用いられており、より密集性が高く、より分離されたクラスターを示す値が高い。
しかし、データセット固有の ASW の上限は通常不明であり、標準の 1 の上限は達成できない。
本研究では,各データポイントに対してシルエット幅の鋭い上界を導出し,これらを集約し,ASW上の標準上界を得る。
このバウンダリは、与えられたクラスタリング結果がデータセット上で最も可能な結果にどの程度近いかを示すことによって、経験的ASW値の解釈可能性を大幅に低下させる。
グローバルな最適性を確認し、クラスタリングソリューションの評価をガイドし、より実用的な妥当性を高めるために最小限のクラスタサイズ制約を組み込むように改良することができる。
最後に,フレームワークを拡張して,マクロ平均シルエットに対応するバウンダリを確立する。
関連論文リスト
- Towards Learnable Anchor for Deep Multi-View Clustering [49.767879678193005]
本稿では,線形時間でクラスタリングを行うDeep Multi-view Anchor Clustering (DMAC)モデルを提案する。
最適なアンカーを用いて、全サンプルグラフを計算し、クラスタリングのための識別的埋め込みを導出する。
いくつかのデータセットの実験では、最先端の競合に比べてDMACの性能と効率が優れていることが示されている。
論文 参考訳(メタデータ) (2025-03-16T09:38:11Z) - Village-Net Clustering: A Rapid approach to Non-linear Unsupervised Clustering of High-Dimensional Data [0.0]
教師なしクラスタリングアルゴリズム「Village-Net」を開発した。
まず、K-Meansクラスタリングを利用して、データセットを別個のサブセットに分割する。
我々は,既存の実世界のデータセットに対して,その競合性能を示すために,既知の地下構造ラベルを用いた広範なベンチマークを行う。
論文 参考訳(メタデータ) (2025-01-16T06:56:43Z) - A Framework for Fine-Tuning LLMs using Heterogeneous Feedback [69.51729152929413]
ヘテロジニアスフィードバックを用いた大規模言語モデル(LLM)の微調整フレームワークを提案する。
まず、不均一なフィードバックデータをSFTやRLHFなどの手法と互換性のある単一の監視形式にまとめる。
次に、この統合されたフィードバックデータセットから、性能向上を得るために高品質で多様なサブセットを抽出する。
論文 参考訳(メタデータ) (2024-08-05T23:20:32Z) - Rethinking k-means from manifold learning perspective [122.38667613245151]
平均推定なしで直接データのクラスタを検出する新しいクラスタリングアルゴリズムを提案する。
具体的には,バタワースフィルタを用いてデータ点間の距離行列を構成する。
異なる視点に埋め込まれた相補的な情報をうまく活用するために、テンソルのSchatten p-norm正規化を利用する。
論文 参考訳(メタデータ) (2023-05-12T03:01:41Z) - Shape complexity in cluster analysis [0.0]
クラスタ分析において、一般的な第一歩は、データをクラスタに分割することを目的として、データをスケールすることだ。
ここでは,クラスタリングに先立って使用するスケーリング係数の獲得を目的として,データの多次元形状の利用について検討する。
いくつかの象徴的なデータセットで、新しいアプローチの強みと潜在的な弱点を強調します。
論文 参考訳(メタデータ) (2022-05-17T01:33:15Z) - Anomaly Clustering: Grouping Images into Coherent Clusters of Anomaly
Types [60.45942774425782]
我々は異常クラスタリングを導入し、その目標はデータを異常型の一貫性のあるクラスタにまとめることである。
これは異常検出とは違い、その目標は異常を通常のデータから分割することである。
パッチベースの事前訓練されたディープ埋め込みとオフザシェルフクラスタリング手法を用いた,単純で効果的なクラスタリングフレームワークを提案する。
論文 参考訳(メタデータ) (2021-12-21T23:11:33Z) - Does the Data Induce Capacity Control in Deep Learning? [0.0]
本稿では,データセットがディープネットワークの異常一般化性能の原因である可能性について検討する。
典型的な分類データセットのデータ相関行列は、急激な初期降下の後、指数関数的に広い範囲で多数の小さな固有値が均一に分布する固有スペクトルを持つことを示す。
論文 参考訳(メタデータ) (2021-10-27T04:40:27Z) - Local versions of sum-of-norms clustering [77.34726150561087]
本手法はボールモデルにおいて任意に閉じた球を分離できることを示す。
我々は、不連結連結集合のクラスタリングで発生する誤差に定量的な有界性を証明した。
論文 参考訳(メタデータ) (2021-09-20T14:45:29Z) - Contrastive Clustering [57.71729650297379]
本稿では,インスタンスレベルのコントラスト学習を明示的に行うContrastive Clustering (CC)を提案する。
特にCCは、CIFAR-10(CIFAR-100)データセット上で0.705(0.431)のNMIを達成しており、最高のベースラインと比較して最大19%(39%)のパフォーマンス向上を実現している。
論文 参考訳(メタデータ) (2020-09-21T08:54:40Z) - Clustering small datasets in high-dimension by random projection [2.2940141855172027]
統計的に重要なクラスタリング構造を小さなデータセットで見つけるための低計算手法を提案する。
この手法は、ランダムな線上にデータを投影し、その結果の1次元データにバイナリクラスタリングを求める。
得られたクラスタリング構造の統計的妥当性を投影された一次元空間で検証する。
論文 参考訳(メタデータ) (2020-08-21T16:49:37Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。