論文の概要: On the Use of Relative Validity Indices for Comparing Clustering Approaches
- arxiv url: http://arxiv.org/abs/2404.10351v2
- Date: Thu, 21 Nov 2024 00:57:22 GMT
- ステータス: 翻訳完了
- システム内更新日: 2024-11-22 15:17:02.111118
- Title: On the Use of Relative Validity Indices for Comparing Clustering Approaches
- Title(参考訳): クラスタリング手法の比較における相対的妥当性指標の利用について
- Authors: Luke W. Yerbury, Ricardo J. G. B. Campello, G. C. Livingston Jr, Mark Goldsworthy, Lachlan O'Neil,
- Abstract要約: 相対妥当性指標はクラスタリング結果の評価と最適化に広く用いられている。
クラスタリングのための類似パラダイム(SP)を選択する際に、RVIを使う文献が増えつつある。
本研究では,SP選択のためのRVIの信頼性に関する総合的研究を行った。
- 参考スコア(独自算出の注目度): 0.6990493129893111
- License:
- Abstract: Relative Validity Indices (RVIs) such as the Silhouette Width Criterion and Davies Bouldin indices are the most widely used tools for evaluating and optimising clustering outcomes. Traditionally, their ability to rank collections of candidate dataset partitions has been used to guide the selection of the number of clusters, and to compare partitions from different clustering algorithms. However, there is a growing trend in the literature to use RVIs when selecting a Similarity Paradigm (SP) for clustering - the combination of normalisation procedure, representation method, and distance measure which affects the computation of object dissimilarities used in clustering. Despite the growing prevalence of this practice, there has been no empirical or theoretical investigation into the suitability of RVIs for this purpose. Moreover, since RVIs are computed using object dissimilarities, it remains unclear how they would need to be implemented for fair comparisons of different SPs. This study presents the first comprehensive investigation into the reliability of RVIs for SP selection. We conducted extensive experiments with seven popular RVIs on over 2.7 million clustering partitions of synthetic and real-world datasets, encompassing feature-vector and time-series data. We identified fundamental conceptual limitations undermining the use of RVIs for SP selection, and our empirical findings confirmed this predicted unsuitability. Among our recommendations, we suggest instead that practitioners select SPs by using external validation on high quality labelled datasets or carefully designed outcome-oriented objective criteria, both of which should be informed by careful consideration of dataset characteristics, and domain requirements. Our findings have important implications for clustering methodology and evaluation, suggesting the need for more rigorous approaches to SP selection.
- Abstract(参考訳): Silhouette Width CriterionやDavies Bouldin Indicesのような相対的妥当性指標(RVI)はクラスタリングの結果を評価し最適化するための最も広く使われているツールである。
従来、候補データセットパーティションのコレクションをランク付けする機能は、クラスタ数の選択をガイドし、異なるクラスタリングアルゴリズムのパーティションを比較するために使用されてきた。
しかし、クラスタリングに使用するオブジェクトの相似性の計算に影響を及ぼす正規化手順、表現方法、距離測定の組み合わせである、類似性パラダイム(SP)を選択する際にRVIを使う傾向は、文献の中でますます高まっている。
この習慣の流行にもかかわらず、この目的のためにRVIの適合性に関する実証的、理論的研究は行われていない。
さらに、RVIはオブジェクトの相似性を用いて計算されるため、異なるSPの公正な比較のためにどのように実装する必要があるかは不明である。
本研究では,SP選択のためのRVIの信頼性に関する総合的研究を行った。
我々は、合成データセットと実世界のデータセットの270万以上のクラスタリングパーティションに対して、7つの人気のあるRVIを用いて、機能ベクターデータと時系列データを含む広範な実験を行った。
我々は,SP選択におけるRVIの使用を損なう基本的な概念的限界を同定し,その不適合性を実証した。
提案する推奨事項の中には,高品質なラベル付きデータセットの外部検証や,データセットの特徴やドメイン要件を慎重に考慮した結果指向の客観的基準を用いて,SPを選択することが提案されている。
本研究は,SP選択に対する厳密なアプローチの必要性を示唆し,クラスタリング手法と評価に重要な意味を持つ。
関連論文リスト
- A Bayesian cluster validity index [0.0]
クラスタ妥当性指標(CVI)は、データセット内のクラスタの最適な数を特定するように設計されている。
既存の指標に基づくベイズクラスタ妥当性指数(BCVI)を導入する。
私たちのBCVIは、ユーザの専門知識が価値のある状況において明確なアドバンテージを提供しています。
論文 参考訳(メタデータ) (2024-02-03T14:23:36Z) - Differentially Private Federated Clustering over Non-IID Data [59.611244450530315]
クラスタリングクラスタ(FedC)問題は、巨大なクライアント上に分散されたラベルなしデータサンプルを、サーバのオーケストレーションの下で有限のクライアントに正確に分割することを目的としている。
本稿では,DP-Fedと呼ばれる差分プライバシー収束手法を用いた新しいFedCアルゴリズムを提案する。
提案するDP-Fedの様々な属性は、プライバシー保護の理論的解析、特に非識別的かつ独立に分散された(非i.d.)データの場合において得られる。
論文 参考訳(メタデータ) (2023-01-03T05:38:43Z) - Robust Consensus Clustering and its Applications for Advertising
Forecasting [18.242055675730253]
我々は,専門家の意見に共通する根拠となる真実を見出すことのできる,ロバストなコンセンサスクラスタリングという新しいアルゴリズムを提案する。
提案手法を実世界の広告キャンペーンセグメンテーションと予測タスクに適用する。
論文 参考訳(メタデータ) (2022-12-27T21:49:04Z) - A One-shot Framework for Distributed Clustered Learning in Heterogeneous
Environments [54.172993875654015]
異種環境における分散学習のためのコミュニケーション効率化手法のファミリーを提案する。
ユーザによるローカル計算に基づくワンショットアプローチと、サーバにおけるクラスタリングベースのアグリゲーションステップは、強力な学習保証を提供する。
厳密な凸問題に対しては,ユーザ毎のデータ点数がしきい値を超える限り,提案手法はサンプルサイズの観点から順序最適平均二乗誤差率を達成する。
論文 参考訳(メタデータ) (2022-09-22T09:04:10Z) - Impact of Load Demand Dataset Characteristics on Clustering Validation
Indices [1.5749416770494706]
需要プロファイルに基づく家庭のクラスタ化は、このような分析の主要な要素でありながら、重要な要素である。
様々なクラスタ検証指標 (CVI) が文献で提案されている。
本稿では,検証指標の推薦が,異なるデータ特性にどのように影響されているかを示す。
論文 参考訳(メタデータ) (2021-08-03T12:22:34Z) - Doing Great at Estimating CATE? On the Neglected Assumptions in
Benchmark Comparisons of Treatment Effect Estimators [91.3755431537592]
もっとも単純な設定であっても、無知性仮定に基づく推定は誤解を招く可能性があることを示す。
異種処理効果評価のための機械学習ベンチマークデータセットを2つ検討した。
ベンチマークデータセットの固有の特性が、他のものよりもいくつかのアルゴリズムを好んでいる点を強調します。
論文 参考訳(メタデータ) (2021-07-28T13:21:27Z) - A Distance-based Separability Measure for Internal Cluster Validation [0.0]
内部クラスタ妥当性指標(CVI)は、教師なし学習におけるクラスタリング結果を評価するために用いられる。
データ分離可能性尺度に基づく距離ベース分離可能性指数(DSI)を提案する。
結果は、DSIが他の比較CVIと比較して効果的で、ユニークで、競争力のあるCVIであることを示している。
論文 参考訳(メタデータ) (2021-06-17T20:19:50Z) - Combining Task Predictors via Enhancing Joint Predictability [53.46348489300652]
そこで本研究では,目標予測能力に基づいて参照の関連性を測定し,その関連性を高めるための新しい予測器組合せアルゴリズムを提案する。
提案アルゴリズムはベイズフレームワークを用いて,すべての参照の関連性について共同で評価する。
視覚属性ランキングとマルチクラス分類シナリオから得られた実世界の7つのデータセットの実験に基づいて,本アルゴリズムが性能向上に寄与し,既存の予測器の組み合わせアプローチの適用範囲を広くすることを示した。
論文 参考訳(メタデータ) (2020-07-15T21:58:39Z) - Decorrelated Clustering with Data Selection Bias [55.91842043124102]
本稿では,データ選択バイアスを伴うクラスタリングのためのデコリレーション正規化K-Meansアルゴリズム(DCKM)を提案する。
DCKMアルゴリズムは,選択バイアスによって生じる予期せぬ特徴相関を除去する必要があることを示す。
論文 参考訳(メタデータ) (2020-06-29T08:55:50Z) - Clustering Binary Data by Application of Combinatorial Optimization
Heuristics [52.77024349608834]
本稿では,2値データのクラスタリング手法について検討し,まず,クラスタのコンパクトさを計測するアグリゲーション基準を定義した。
近隣地域と人口動態最適化メタヒューリスティックスを用いた5つの新しいオリジナル手法が導入された。
準モンテカルロ実験によって生成された16のデータテーブルから、L1の相似性と階層的クラスタリング、k-means(メドイドやPAM)の1つのアグリゲーションの比較を行う。
論文 参考訳(メタデータ) (2020-01-06T23:33:31Z) - On clustering uncertain and structured data with Wasserstein barycenters
and a geodesic criterion for the number of clusters [0.0]
この研究は、ワッサーシュタインのバリセンターの概念を考察し、クラスタリングタスクが実行されるワッサーシュタイン空間の内在幾何学に基づく適切なクラスタリング指標を伴って考える。
このようなクラスタリング手法は、観測/実験誤差が重要である多くの分野において高く評価されている。
この観点から、各観測は適切な確率尺度によって識別され、提案したクラスタリングスキームは識別基準に依存する。
論文 参考訳(メタデータ) (2019-12-26T08:46:00Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。