論文の概要: Are Cluster Validity Measures (In)valid?
- arxiv url: http://arxiv.org/abs/2208.01261v1
- Date: Tue, 2 Aug 2022 06:08:48 GMT
- ステータス: 処理完了
- システム内更新日: 2022-08-03 12:58:01.136677
- Title: Are Cluster Validity Measures (In)valid?
- Title(参考訳): クラスタ検証は有効なのか?
- Authors: Marek Gagolewski and Maciej Bartoszuk and Anna Cena
- Abstract要約: 本稿では、教師なし学習活動において、このような指標を客観的機能として扱うとどうなるかを検討する。
多くのクラスタ(無効度指数)が、専門家の知識にマッチするクラスタリングを促進することが判明した。
我々は、OWA演算子と近辺グラフ上に構築されたダン指数の、より優れた新しい変種を導入する。
- 参考スコア(独自算出の注目度): 3.7491936479803054
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Internal cluster validity measures (such as the Calinski-Harabasz, Dunn, or
Davies-Bouldin indices) are frequently used for selecting the appropriate
number of partitions a dataset should be split into. In this paper we consider
what happens if we treat such indices as objective functions in unsupervised
learning activities. Is the optimal grouping with regards to, say, the
Silhouette index really meaningful? It turns out that many cluster (in)validity
indices promote clusterings that match expert knowledge quite poorly. We also
introduce a new, well-performing variant of the Dunn index that is built upon
OWA operators and the near-neighbour graph so that subspaces of higher density,
regardless of their shapes, can be separated from each other better.
- Abstract(参考訳): データセットを分割すべきパーティション数を選択するために、内部クラスタの有効性尺度(calinski-harabasz、dun、davies-bouldinインデックスなど)が頻繁に使用される。
本稿では,これらの指標を教師なし学習活動において客観的関数として扱うとどうなるかを検討する。
シルエット指数に関して最適なグループ化は本当に意味があるのだろうか?
多くの(in)validityインデックスは、専門家の知識と非常によくマッチするクラスタリングを促進することが分かりました。
また, OWA演算子と近辺グラフ上に構築されたダン指数の, 形状によらず高い密度の部分空間をよりよく分離できるように, 新たな, 良好な性能を持つ変種を導入する。
関連論文リスト
- Self-Supervised Graph Embedding Clustering [70.36328717683297]
K-means 1-step dimensionality reduction clustering method は,クラスタリングタスクにおける次元性の呪いに対処する上で,いくつかの進歩をもたらした。
本稿では,K-meansに多様体学習を統合する統一フレームワークを提案する。
論文 参考訳(メタデータ) (2024-09-24T08:59:51Z) - ABCDE: Application-Based Cluster Diff Evals [49.1574468325115]
それは実用性を目指しており、アイテムはアプリケーション固有の重要な値を持つことができ、クラスタリングがどちらが優れているかを判断するときに人間の判断を使うのは粗悪であり、アイテムの任意のスライスのためのメトリクスを報告できる。
クラスタリング品質の差分を測定するアプローチは、高価な地平を前もって構築し、それに関して各クラスタリングを評価する代わりに、ABCDEはクラスタリング間の実際の差分に基づいて、判定のための質問をサンプリングする。
論文 参考訳(メタデータ) (2024-07-31T08:29:35Z) - A Bayesian cluster validity index [0.0]
クラスタ妥当性指標(CVI)は、データセット内のクラスタの最適な数を特定するように設計されている。
既存の指標に基づくベイズクラスタ妥当性指数(BCVI)を導入する。
私たちのBCVIは、ユーザの専門知識が価値のある状況において明確なアドバンテージを提供しています。
論文 参考訳(メタデータ) (2024-02-03T14:23:36Z) - A correlation-based fuzzy cluster validity index with secondary options
detector [0.0]
本稿では,Wiroonsri-Preedasawakul(WP)インデックスとして知られる相関に基づくファジィクラスタの妥当性指標を提案する。
我々は,Xie-Beni,Pakhira-Bandyopadhyay-Maulik,Tang,Wu-Li,Generalized C,Kwon2などの既存指標と比較した。
論文 参考訳(メタデータ) (2023-08-28T16:40:34Z) - Reinforcement Graph Clustering with Unknown Cluster Number [91.4861135742095]
本稿では,Reinforcement Graph Clusteringと呼ばれる新しいディープグラフクラスタリング手法を提案する。
提案手法では,クラスタ数決定と教師なし表現学習を統一的なフレームワークに統合する。
フィードバック動作を行うために、クラスタリング指向の報酬関数を提案し、同一クラスタの凝集を高め、異なるクラスタを分離する。
論文 参考訳(メタデータ) (2023-08-13T18:12:28Z) - Instance-Optimal Cluster Recovery in the Labeled Stochastic Block Model [79.46465138631592]
観測されたラベルを用いてクラスタを復元する効率的なアルゴリズムを考案する。
本稿では,期待値と高い確率でこれらの下位境界との性能を一致させる最初のアルゴリズムであるIACを提案する。
論文 参考訳(メタデータ) (2023-06-18T08:46:06Z) - Dink-Net: Neural Clustering on Large Graphs [59.10189693120368]
ディープグラフクラスタリング法 (Dink-Net) は, 拡張と縮小という概念を用いて提案される。
ノードを識別することにより、拡張によって劣化しても、表現は自己教師された方法で学習される。
クラスタリング分布は、提案したクラスタ拡張損失とクラスタ縮小損失を最小化することにより最適化される。
ランナアップと比較して、Dink-Net 9.62%は1100万ノードと16億エッジを持つogbn-papers100MデータセットでNMIの改善を実現している。
論文 参考訳(メタデータ) (2023-05-28T15:33:24Z) - Oracle-guided Contrastive Clustering [28.066047266687058]
Oracle-Guided Contrastive Clustering(OCC)は,ユニークな要求を持ったオーラクルに対して,ペアワイズで同クラスタ"クエリを対話的に作成することで,クラスタリングを実現する。
私たちの知る限りでは、パーソナライズされたクラスタリングを実行する最初のディープフレームワークです。
論文 参考訳(メタデータ) (2022-11-01T12:05:12Z) - Clustering performance analysis using new correlation based cluster
validity indices [0.0]
本研究では,2つのデータポイント間の実際の距離と,2つのポイントが位置するクラスタのセントロイド距離との相関に基づく2つの新しいクラスタ妥当性指標を開発した。
提案した指標は, 前述した弱点を克服する異なる数のクラスタにおいて, 常にいくつかのピークを発生させる。
論文 参考訳(メタデータ) (2021-09-23T06:59:41Z) - Selective Pseudo-label Clustering [42.19193184852487]
ディープニューラルネットワーク(DNN)は、高次元データをクラスタリングする困難なタスクに対処する手段を提供する。
DNNのトレーニングに最も自信のある擬似ラベルのみを用いる選択的擬似ラベルクラスタリングを提案する。
新しいアプローチは、3つの人気のある画像データセット上で最先端のパフォーマンスを達成する。
論文 参考訳(メタデータ) (2021-07-22T13:56:53Z) - Learning to Cluster Faces via Confidence and Connectivity Estimation [136.5291151775236]
重複する部分グラフを多数必要とせず,完全に学習可能なクラスタリングフレームワークを提案する。
提案手法はクラスタリングの精度を大幅に向上させ,その上で訓練した認識モデルの性能を向上させるが,既存の教師付き手法に比べて桁違いに効率的である。
論文 参考訳(メタデータ) (2020-04-01T13:39:37Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。