論文の概要: On the Use of Relative Validity Indices for Comparing Clustering Approaches
- arxiv url: http://arxiv.org/abs/2404.10351v1
- Date: Tue, 16 Apr 2024 07:39:54 GMT
- ステータス: 処理完了
- システム内更新日: 2024-04-17 17:43:04.045538
- Title: On the Use of Relative Validity Indices for Comparing Clustering Approaches
- Title(参考訳): クラスタリング手法の比較における相対的妥当性指標の利用について
- Authors: Luke W. Yerbury, Ricardo J. G. B. Campello, G. C. Livingston Jr, Mark Goldsworthy, Lachlan O'Neil,
- Abstract要約: RVI(Relative Validity Indices)は、クラスタリングのアプリケーションを評価し最適化するための一般的なツールである。
RVIがクラスタリングアプローチの他の側面の比較や選択に使われている文献には、多くの例がある。
本研究では,合成データセットと実世界のデータセットの両方に対して,270万以上のクラスタリングパーティション上で7つの共通RVIを用いて実験を行った。
- 参考スコア(独自算出の注目度): 0.6990493129893111
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Relative Validity Indices (RVIs) such as the Silhouette Width Criterion, Calinski-Harabasz and Davie's Bouldin indices are the most popular tools for evaluating and optimising applications of clustering. Their ability to rank collections of candidate partitions has been used to guide the selection of the number of clusters, and to compare partitions from different clustering algorithms. Beyond these more conventional tasks, many examples can be found in the literature where RVIs have been used to compare and select other aspects of clustering approaches such as data normalisation procedures, data representation methods, and distance measures. The authors are not aware of any studies that have attempted to establish the suitability of RVIs for such comparisons. Moreover, given the impact of these aspects on pairwise similarities, it is not even immediately obvious how RVIs should be implemented when comparing these aspects. In this study, we conducted experiments with seven common RVIs on over 2.7 million clustering partitions for both synthetic and real-world datasets, encompassing feature-vector and time-series data. Our findings suggest that RVIs are not well-suited to these unconventional tasks, and that conclusions drawn from such applications may be misleading. It is recommended that normalisation procedures, representation methods, and distance measures instead be selected using external validation on high quality labelled datasets or carefully designed outcome-oriented objective criteria, both of which should be informed by relevant domain knowledge and clustering aims.
- Abstract(参考訳): Silhouette Width Criterion、Calinski-Harabasz、Davie's Bouldin Indicesなどの相対的妥当性指標(RVI)はクラスタリングの応用を評価し最適化するための最も一般的なツールである。
候補パーティションのコレクションをランク付けする能力は、クラスタ数の選択をガイドし、異なるクラスタリングアルゴリズムのパーティションを比較するために使用されています。
これらの従来のタスク以外にも、データ正規化手順やデータ表現方法、距離測定など、クラスタリングアプローチの他の側面の比較や選択にRVIを使用した文献でも、多くの例が見られる。
著者らは、そのような比較のためにRVIの適合性を確立しようと試みたいかなる研究にも気づいていない。
さらに、これらの側面がペアの類似性に与える影響を考えると、これらの側面を比較する際にRVIをどのように実装すべきかはすぐには明らかではない。
本研究では,合成データセットと実世界のデータセットの合計270万以上のクラスタリングパーティションに対して,特徴ベクトルと時系列データを含む7つの共通RVIを用いて実験を行った。
以上の結果から,RVIはこれらの非従来的課題に適していないことが示唆され,そのようなアプリケーションから引き出された結論が誤解を招く可能性がある。
高品質なラベル付きデータセットの外部検証や、適切なドメイン知識とクラスタリングの目的によって通知されるべき結果指向の客観的基準を用いて、正規化手順、表現方法、距離測定を選択することを推奨する。
関連論文リスト
- A Bayesian cluster validity index [0.0]
クラスタ妥当性指標(CVI)は、データセット内のクラスタの最適な数を特定するように設計されている。
既存の指標に基づくベイズクラスタ妥当性指数(BCVI)を導入する。
私たちのBCVIは、ユーザの専門知識が価値のある状況において明確なアドバンテージを提供しています。
論文 参考訳(メタデータ) (2024-02-03T14:23:36Z) - Differentially Private Federated Clustering over Non-IID Data [59.611244450530315]
クラスタリングクラスタ(FedC)問題は、巨大なクライアント上に分散されたラベルなしデータサンプルを、サーバのオーケストレーションの下で有限のクライアントに正確に分割することを目的としている。
本稿では,DP-Fedと呼ばれる差分プライバシー収束手法を用いた新しいFedCアルゴリズムを提案する。
提案するDP-Fedの様々な属性は、プライバシー保護の理論的解析、特に非識別的かつ独立に分散された(非i.d.)データの場合において得られる。
論文 参考訳(メタデータ) (2023-01-03T05:38:43Z) - Robust Consensus Clustering and its Applications for Advertising
Forecasting [18.242055675730253]
我々は,専門家の意見に共通する根拠となる真実を見出すことのできる,ロバストなコンセンサスクラスタリングという新しいアルゴリズムを提案する。
提案手法を実世界の広告キャンペーンセグメンテーションと予測タスクに適用する。
論文 参考訳(メタデータ) (2022-12-27T21:49:04Z) - A One-shot Framework for Distributed Clustered Learning in Heterogeneous
Environments [54.172993875654015]
異種環境における分散学習のためのコミュニケーション効率化手法のファミリーを提案する。
ユーザによるローカル計算に基づくワンショットアプローチと、サーバにおけるクラスタリングベースのアグリゲーションステップは、強力な学習保証を提供する。
厳密な凸問題に対しては,ユーザ毎のデータ点数がしきい値を超える限り,提案手法はサンプルサイズの観点から順序最適平均二乗誤差率を達成する。
論文 参考訳(メタデータ) (2022-09-22T09:04:10Z) - Impact of Load Demand Dataset Characteristics on Clustering Validation
Indices [1.5749416770494706]
需要プロファイルに基づく家庭のクラスタ化は、このような分析の主要な要素でありながら、重要な要素である。
様々なクラスタ検証指標 (CVI) が文献で提案されている。
本稿では,検証指標の推薦が,異なるデータ特性にどのように影響されているかを示す。
論文 参考訳(メタデータ) (2021-08-03T12:22:34Z) - Doing Great at Estimating CATE? On the Neglected Assumptions in
Benchmark Comparisons of Treatment Effect Estimators [91.3755431537592]
もっとも単純な設定であっても、無知性仮定に基づく推定は誤解を招く可能性があることを示す。
異種処理効果評価のための機械学習ベンチマークデータセットを2つ検討した。
ベンチマークデータセットの固有の特性が、他のものよりもいくつかのアルゴリズムを好んでいる点を強調します。
論文 参考訳(メタデータ) (2021-07-28T13:21:27Z) - A Distance-based Separability Measure for Internal Cluster Validation [0.0]
内部クラスタ妥当性指標(CVI)は、教師なし学習におけるクラスタリング結果を評価するために用いられる。
データ分離可能性尺度に基づく距離ベース分離可能性指数(DSI)を提案する。
結果は、DSIが他の比較CVIと比較して効果的で、ユニークで、競争力のあるCVIであることを示している。
論文 参考訳(メタデータ) (2021-06-17T20:19:50Z) - Combining Task Predictors via Enhancing Joint Predictability [53.46348489300652]
そこで本研究では,目標予測能力に基づいて参照の関連性を測定し,その関連性を高めるための新しい予測器組合せアルゴリズムを提案する。
提案アルゴリズムはベイズフレームワークを用いて,すべての参照の関連性について共同で評価する。
視覚属性ランキングとマルチクラス分類シナリオから得られた実世界の7つのデータセットの実験に基づいて,本アルゴリズムが性能向上に寄与し,既存の予測器の組み合わせアプローチの適用範囲を広くすることを示した。
論文 参考訳(メタデータ) (2020-07-15T21:58:39Z) - Decorrelated Clustering with Data Selection Bias [55.91842043124102]
本稿では,データ選択バイアスを伴うクラスタリングのためのデコリレーション正規化K-Meansアルゴリズム(DCKM)を提案する。
DCKMアルゴリズムは,選択バイアスによって生じる予期せぬ特徴相関を除去する必要があることを示す。
論文 参考訳(メタデータ) (2020-06-29T08:55:50Z) - Clustering Binary Data by Application of Combinatorial Optimization
Heuristics [52.77024349608834]
本稿では,2値データのクラスタリング手法について検討し,まず,クラスタのコンパクトさを計測するアグリゲーション基準を定義した。
近隣地域と人口動態最適化メタヒューリスティックスを用いた5つの新しいオリジナル手法が導入された。
準モンテカルロ実験によって生成された16のデータテーブルから、L1の相似性と階層的クラスタリング、k-means(メドイドやPAM)の1つのアグリゲーションの比較を行う。
論文 参考訳(メタデータ) (2020-01-06T23:33:31Z) - On clustering uncertain and structured data with Wasserstein barycenters
and a geodesic criterion for the number of clusters [0.0]
この研究は、ワッサーシュタインのバリセンターの概念を考察し、クラスタリングタスクが実行されるワッサーシュタイン空間の内在幾何学に基づく適切なクラスタリング指標を伴って考える。
このようなクラスタリング手法は、観測/実験誤差が重要である多くの分野において高く評価されている。
この観点から、各観測は適切な確率尺度によって識別され、提案したクラスタリングスキームは識別基準に依存する。
論文 参考訳(メタデータ) (2019-12-26T08:46:00Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。