論文の概要: On the Use of Relative Validity Indices for Comparing Clustering Approaches
- arxiv url: http://arxiv.org/abs/2404.10351v1
- Date: Tue, 16 Apr 2024 07:39:54 GMT
- ステータス: 処理完了
- システム内更新日: 2024-04-17 17:43:04.045538
- Title: On the Use of Relative Validity Indices for Comparing Clustering Approaches
- Title(参考訳): クラスタリング手法の比較における相対的妥当性指標の利用について
- Authors: Luke W. Yerbury, Ricardo J. G. B. Campello, G. C. Livingston Jr, Mark Goldsworthy, Lachlan O'Neil,
- Abstract要約: RVI(Relative Validity Indices)は、クラスタリングのアプリケーションを評価し最適化するための一般的なツールである。
RVIがクラスタリングアプローチの他の側面の比較や選択に使われている文献には、多くの例がある。
本研究では,合成データセットと実世界のデータセットの両方に対して,270万以上のクラスタリングパーティション上で7つの共通RVIを用いて実験を行った。
- 参考スコア(独自算出の注目度): 0.6990493129893111
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Relative Validity Indices (RVIs) such as the Silhouette Width Criterion, Calinski-Harabasz and Davie's Bouldin indices are the most popular tools for evaluating and optimising applications of clustering. Their ability to rank collections of candidate partitions has been used to guide the selection of the number of clusters, and to compare partitions from different clustering algorithms. Beyond these more conventional tasks, many examples can be found in the literature where RVIs have been used to compare and select other aspects of clustering approaches such as data normalisation procedures, data representation methods, and distance measures. The authors are not aware of any studies that have attempted to establish the suitability of RVIs for such comparisons. Moreover, given the impact of these aspects on pairwise similarities, it is not even immediately obvious how RVIs should be implemented when comparing these aspects. In this study, we conducted experiments with seven common RVIs on over 2.7 million clustering partitions for both synthetic and real-world datasets, encompassing feature-vector and time-series data. Our findings suggest that RVIs are not well-suited to these unconventional tasks, and that conclusions drawn from such applications may be misleading. It is recommended that normalisation procedures, representation methods, and distance measures instead be selected using external validation on high quality labelled datasets or carefully designed outcome-oriented objective criteria, both of which should be informed by relevant domain knowledge and clustering aims.
- Abstract(参考訳): Silhouette Width Criterion、Calinski-Harabasz、Davie's Bouldin Indicesなどの相対的妥当性指標(RVI)はクラスタリングの応用を評価し最適化するための最も一般的なツールである。
候補パーティションのコレクションをランク付けする能力は、クラスタ数の選択をガイドし、異なるクラスタリングアルゴリズムのパーティションを比較するために使用されています。
これらの従来のタスク以外にも、データ正規化手順やデータ表現方法、距離測定など、クラスタリングアプローチの他の側面の比較や選択にRVIを使用した文献でも、多くの例が見られる。
著者らは、そのような比較のためにRVIの適合性を確立しようと試みたいかなる研究にも気づいていない。
さらに、これらの側面がペアの類似性に与える影響を考えると、これらの側面を比較する際にRVIをどのように実装すべきかはすぐには明らかではない。
本研究では,合成データセットと実世界のデータセットの合計270万以上のクラスタリングパーティションに対して,特徴ベクトルと時系列データを含む7つの共通RVIを用いて実験を行った。
以上の結果から,RVIはこれらの非従来的課題に適していないことが示唆され,そのようなアプリケーションから引き出された結論が誤解を招く可能性がある。
高品質なラベル付きデータセットの外部検証や、適切なドメイン知識とクラスタリングの目的によって通知されるべき結果指向の客観的基準を用いて、正規化手順、表現方法、距離測定を選択することを推奨する。
関連論文リスト
- A Bayesian cluster validity index [0.0]
クラスタ妥当性指標(CVI)は、データセット内のクラスタの最適な数を特定するように設計されている。
既存の指標に基づくベイズクラスタ妥当性指数(BCVI)を導入する。
私たちのBCVIは、ユーザの専門知識が価値のある状況において明確なアドバンテージを提供しています。
論文 参考訳(メタデータ) (2024-02-03T14:23:36Z) - In Search of Insights, Not Magic Bullets: Towards Demystification of the
Model Selection Dilemma in Heterogeneous Treatment Effect Estimation [92.51773744318119]
本稿では,異なるモデル選択基準の長所と短所を実験的に検討する。
選択戦略,候補推定器,比較に用いるデータの間には,複雑な相互作用があることを強調した。
論文 参考訳(メタデータ) (2023-02-06T16:55:37Z) - Robust Consensus Clustering and its Applications for Advertising
Forecasting [18.242055675730253]
我々は,専門家の意見に共通する根拠となる真実を見出すことのできる,ロバストなコンセンサスクラスタリングという新しいアルゴリズムを提案する。
提案手法を実世界の広告キャンペーンセグメンテーションと予測タスクに適用する。
論文 参考訳(メタデータ) (2022-12-27T21:49:04Z) - A One-shot Framework for Distributed Clustered Learning in Heterogeneous
Environments [54.172993875654015]
異種環境における分散学習のためのコミュニケーション効率化手法のファミリーを提案する。
ユーザによるローカル計算に基づくワンショットアプローチと、サーバにおけるクラスタリングベースのアグリゲーションステップは、強力な学習保証を提供する。
厳密な凸問題に対しては,ユーザ毎のデータ点数がしきい値を超える限り,提案手法はサンプルサイズの観点から順序最適平均二乗誤差率を達成する。
論文 参考訳(メタデータ) (2022-09-22T09:04:10Z) - Riemannian classification of EEG signals with missing values [67.90148548467762]
本稿では脳波の分類に欠落したデータを扱うための2つの方法を提案する。
第1のアプローチでは、インプットされたデータと$k$-nearestの隣人アルゴリズムとの共分散を推定し、第2のアプローチでは、期待最大化アルゴリズム内で観測データの可能性を活用することにより、観測データに依存する。
その結果, 提案手法は観測データに基づく分類よりも優れており, 欠落したデータ比が増大しても高い精度を維持することができることがわかった。
論文 参考訳(メタデータ) (2021-10-19T14:24:50Z) - Clustering performance analysis using new correlation based cluster
validity indices [0.0]
本研究では,2つのデータポイント間の実際の距離と,2つのポイントが位置するクラスタのセントロイド距離との相関に基づく2つの新しいクラスタ妥当性指標を開発した。
提案した指標は, 前述した弱点を克服する異なる数のクラスタにおいて, 常にいくつかのピークを発生させる。
論文 参考訳(メタデータ) (2021-09-23T06:59:41Z) - Doing Great at Estimating CATE? On the Neglected Assumptions in
Benchmark Comparisons of Treatment Effect Estimators [91.3755431537592]
もっとも単純な設定であっても、無知性仮定に基づく推定は誤解を招く可能性があることを示す。
異種処理効果評価のための機械学習ベンチマークデータセットを2つ検討した。
ベンチマークデータセットの固有の特性が、他のものよりもいくつかのアルゴリズムを好んでいる点を強調します。
論文 参考訳(メタデータ) (2021-07-28T13:21:27Z) - Graph Contrastive Clustering [131.67881457114316]
本稿では,クラスタリングタスクに適用可能な新しいグラフコントラスト学習フレームワークを提案し,gcc(graph constrastive clustering)法を考案した。
特に、グラフラプラシアンに基づくコントラスト損失は、より識別的かつクラスタリングフレンドリーな特徴を学ぶために提案されている。
一方で、よりコンパクトなクラスタリング割り当てを学ぶために、グラフベースのコントラスト学習戦略が提案されている。
論文 参考訳(メタデータ) (2021-04-03T15:32:49Z) - Near-Optimal Comparison Based Clustering [7.930242839366938]
提案手法は, ほぼ最適な比較数を用いて, 植え付けクラスタリングを復元できることを示す。
理論的知見を実証的に検証し,実データ上での手法の良好な振る舞いを実証する。
論文 参考訳(メタデータ) (2020-10-08T12:03:13Z) - Clustering Binary Data by Application of Combinatorial Optimization
Heuristics [52.77024349608834]
本稿では,2値データのクラスタリング手法について検討し,まず,クラスタのコンパクトさを計測するアグリゲーション基準を定義した。
近隣地域と人口動態最適化メタヒューリスティックスを用いた5つの新しいオリジナル手法が導入された。
準モンテカルロ実験によって生成された16のデータテーブルから、L1の相似性と階層的クラスタリング、k-means(メドイドやPAM)の1つのアグリゲーションの比較を行う。
論文 参考訳(メタデータ) (2020-01-06T23:33:31Z) - On clustering uncertain and structured data with Wasserstein barycenters
and a geodesic criterion for the number of clusters [0.0]
この研究は、ワッサーシュタインのバリセンターの概念を考察し、クラスタリングタスクが実行されるワッサーシュタイン空間の内在幾何学に基づく適切なクラスタリング指標を伴って考える。
このようなクラスタリング手法は、観測/実験誤差が重要である多くの分野において高く評価されている。
この観点から、各観測は適切な確率尺度によって識別され、提案したクラスタリングスキームは識別基準に依存する。
論文 参考訳(メタデータ) (2019-12-26T08:46:00Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。