論文の概要: An upper bound of the silhouette validation metric for clustering
- arxiv url: http://arxiv.org/abs/2509.08625v1
- Date: Wed, 10 Sep 2025 14:20:38 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-09-11 15:16:52.454304
- Title: An upper bound of the silhouette validation metric for clustering
- Title(参考訳): クラスタリングのためのシルエット検証指標の上界
- Authors: Hugo Sträng, Tai Dinh,
- Abstract要約: 平均シルエット幅(英: average silhouette width、ASW)は、より高い値がより粗い結果を示すクラスタリング品質の尺度である。
本研究では,与えられたデータセットの各データポイントに対して,そのシルエット幅にシャープな上界を導出する。
提示されたバウンダリは、個々のデータポイントが適切に配置できるかどうかを示し、シルエットベースの最適化ループの早期停止を可能にし、重要な質問に答えます。
- 参考スコア(独自算出の注目度): 0.552480439325792
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: The silhouette coefficient summarizes, per observation, cohesion versus separation in [-1, 1]; the average silhouette width (ASW) is a common internal measure of clustering quality where higher values indicate more coveted results. However, the dataset-specific maximum of ASW is typically unknown, and the standard upper limit 1 is often unattainable. In this work, we derive for each data point in a given dataset a sharp upper bound on its silhouette width. By aggregating these individual bounds, we present a canonical data-dependent upper bound on ASW that often assumes values well below 1. The presented bounds can indicate whether individual data points can ever be well placed, enable early stopping of silhouette-based optimization loops, and help answer a key question: How close is my clustering result to the best possible outcome on this specific data? Across synthetic and real datasets, the bounds are provably near-tight in many cases and offer significant enrichment of cluster quality evaluation.
- Abstract(参考訳): シルエット係数は、[-1, 1]における観測ごとの凝集対分離を要約し、平均シルエット幅(ASW)は、より高い値がより粗い結果を示すクラスタリング品質の一般的な内部尺度である。
しかし、データセット固有の ASW の最大値は通常不明であり、標準上限 1 はしばしば到達不可能である。
本研究では,与えられたデータセットの各データポイントに対して,そのシルエット幅にシャープな上界を導出する。
これらの個々の境界を集約することにより、標準データ依存上界を ASW 上に示し、しばしば 1 よりかなり低い値と仮定する。
提示されたバウンダリは、個々のデータポイントが適切に配置できるかどうかを示し、シルエットベースの最適化ループの早期停止を可能にし、重要な質問に答えます。
合成データセットと実データセットの合計で、境界は多くの場合、ほぼ八角であり、クラスタの品質評価を著しく強化する。
関連論文リスト
- Towards Learnable Anchor for Deep Multi-View Clustering [49.767879678193005]
本稿では,線形時間でクラスタリングを行うDeep Multi-view Anchor Clustering (DMAC)モデルを提案する。
最適なアンカーを用いて、全サンプルグラフを計算し、クラスタリングのための識別的埋め込みを導出する。
いくつかのデータセットの実験では、最先端の競合に比べてDMACの性能と効率が優れていることが示されている。
論文 参考訳(メタデータ) (2025-03-16T09:38:11Z) - Village-Net Clustering: A Rapid approach to Non-linear Unsupervised Clustering of High-Dimensional Data [0.0]
教師なしクラスタリングアルゴリズム「Village-Net」を開発した。
まず、K-Meansクラスタリングを利用して、データセットを別個のサブセットに分割する。
我々は,既存の実世界のデータセットに対して,その競合性能を示すために,既知の地下構造ラベルを用いた広範なベンチマークを行う。
論文 参考訳(メタデータ) (2025-01-16T06:56:43Z) - A Framework for Fine-Tuning LLMs using Heterogeneous Feedback [69.51729152929413]
ヘテロジニアスフィードバックを用いた大規模言語モデル(LLM)の微調整フレームワークを提案する。
まず、不均一なフィードバックデータをSFTやRLHFなどの手法と互換性のある単一の監視形式にまとめる。
次に、この統合されたフィードバックデータセットから、性能向上を得るために高品質で多様なサブセットを抽出する。
論文 参考訳(メタデータ) (2024-08-05T23:20:32Z) - Rethinking k-means from manifold learning perspective [122.38667613245151]
平均推定なしで直接データのクラスタを検出する新しいクラスタリングアルゴリズムを提案する。
具体的には,バタワースフィルタを用いてデータ点間の距離行列を構成する。
異なる視点に埋め込まれた相補的な情報をうまく活用するために、テンソルのSchatten p-norm正規化を利用する。
論文 参考訳(メタデータ) (2023-05-12T03:01:41Z) - Shape complexity in cluster analysis [0.0]
クラスタ分析において、一般的な第一歩は、データをクラスタに分割することを目的として、データをスケールすることだ。
ここでは,クラスタリングに先立って使用するスケーリング係数の獲得を目的として,データの多次元形状の利用について検討する。
いくつかの象徴的なデータセットで、新しいアプローチの強みと潜在的な弱点を強調します。
論文 参考訳(メタデータ) (2022-05-17T01:33:15Z) - Anomaly Clustering: Grouping Images into Coherent Clusters of Anomaly
Types [60.45942774425782]
我々は異常クラスタリングを導入し、その目標はデータを異常型の一貫性のあるクラスタにまとめることである。
これは異常検出とは違い、その目標は異常を通常のデータから分割することである。
パッチベースの事前訓練されたディープ埋め込みとオフザシェルフクラスタリング手法を用いた,単純で効果的なクラスタリングフレームワークを提案する。
論文 参考訳(メタデータ) (2021-12-21T23:11:33Z) - Does the Data Induce Capacity Control in Deep Learning? [0.0]
本稿では,データセットがディープネットワークの異常一般化性能の原因である可能性について検討する。
典型的な分類データセットのデータ相関行列は、急激な初期降下の後、指数関数的に広い範囲で多数の小さな固有値が均一に分布する固有スペクトルを持つことを示す。
論文 参考訳(メタデータ) (2021-10-27T04:40:27Z) - Local versions of sum-of-norms clustering [77.34726150561087]
本手法はボールモデルにおいて任意に閉じた球を分離できることを示す。
我々は、不連結連結集合のクラスタリングで発生する誤差に定量的な有界性を証明した。
論文 参考訳(メタデータ) (2021-09-20T14:45:29Z) - Contrastive Clustering [57.71729650297379]
本稿では,インスタンスレベルのコントラスト学習を明示的に行うContrastive Clustering (CC)を提案する。
特にCCは、CIFAR-10(CIFAR-100)データセット上で0.705(0.431)のNMIを達成しており、最高のベースラインと比較して最大19%(39%)のパフォーマンス向上を実現している。
論文 参考訳(メタデータ) (2020-09-21T08:54:40Z) - Clustering small datasets in high-dimension by random projection [2.2940141855172027]
統計的に重要なクラスタリング構造を小さなデータセットで見つけるための低計算手法を提案する。
この手法は、ランダムな線上にデータを投影し、その結果の1次元データにバイナリクラスタリングを求める。
得られたクラスタリング構造の統計的妥当性を投影された一次元空間で検証する。
論文 参考訳(メタデータ) (2020-08-21T16:49:37Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。