論文の概要: Deep Clustering Evaluation: How to Validate Internal Clustering Validation Measures
- arxiv url: http://arxiv.org/abs/2403.14830v1
- Date: Thu, 21 Mar 2024 20:43:44 GMT
- ステータス: 処理完了
- システム内更新日: 2024-03-25 19:06:46.549562
- Title: Deep Clustering Evaluation: How to Validate Internal Clustering Validation Measures
- Title(参考訳): ディープクラスタリング評価 - 内部クラスタリング検証の検証方法
- Authors: Zeya Wang, Chenglong Ye,
- Abstract要約: ディープクラスタリング(Deep Clustering)は、ディープニューラルネットワークを用いて複雑な高次元データを分割する手法である。
低次元空間用に設計された従来のクラスタリング検証は、ディープクラスタリングにおいて問題となる。
本稿では、ディープラーニングにおけるクラスタリング品質の評価におけるこれらの課題に対処する。
- 参考スコア(独自算出の注目度): 2.2252684361733284
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Deep clustering, a method for partitioning complex, high-dimensional data using deep neural networks, presents unique evaluation challenges. Traditional clustering validation measures, designed for low-dimensional spaces, are problematic for deep clustering, which involves projecting data into lower-dimensional embeddings before partitioning. Two key issues are identified: 1) the curse of dimensionality when applying these measures to raw data, and 2) the unreliable comparison of clustering results across different embedding spaces stemming from variations in training procedures and parameter settings in different clustering models. This paper addresses these challenges in evaluating clustering quality in deep learning. We present a theoretical framework to highlight ineffectiveness arising from using internal validation measures on raw and embedded data and propose a systematic approach to applying clustering validity indices in deep clustering contexts. Experiments show that this framework aligns better with external validation measures, effectively reducing the misguidance from the improper use of clustering validity indices in deep learning.
- Abstract(参考訳): ディープ・クラスタリング(Deep Clustering)は、ディープ・ニューラルネットワークを用いて複雑な高次元データを分割する手法であり、ユニークな評価課題を提示している。
低次元空間用に設計された従来のクラスタリング検証は、分割前の低次元埋め込みにデータを投影するディープクラスタリングに問題がある。
主な問題は2つある。
1)これらの措置を生データに適用する際の次元の呪い
2) 異なる埋め込み空間におけるクラスタリング結果の信頼性の低い比較は, 異なるクラスタリングモデルにおけるトレーニング手順やパラメータ設定の違いに起因する。
本稿では、ディープラーニングにおけるクラスタリング品質の評価におけるこれらの課題に対処する。
本稿では,生データおよび組込みデータに対する内部検証尺度を用いた結果から生じる非効率性を明らかにするための理論的枠組みを提案し,クラスタリングの妥当性指標を深層クラスタリングの文脈に適用するための体系的アプローチを提案する。
実験により、このフレームワークは外部の検証指標と整合し、ディープラーニングにおけるクラスタリング妥当性指標の不正使用による誤用を効果的に軽減することが示された。
関連論文リスト
- GCC: Generative Calibration Clustering [55.44944397168619]
本稿では,特徴学習と拡張をクラスタリングに組み込む新しいGCC法を提案する。
まず,実検体と実検体間の固有関係を識別する識別的特徴アライメント機構を開発する。
第二に、より信頼性の高いクラスタ割り当てを生成するための自己教師付きメトリック学習を設計する。
論文 参考訳(メタデータ) (2024-04-14T01:51:11Z) - Fuzzy K-Means Clustering without Cluster Centroids [79.19713746387337]
ファジィK平均クラスタリングは教師なしデータ解析において重要な計算手法である。
本稿では,クラスタセントロイドへの依存を完全に排除する,ファジィK平均クラスタリングアルゴリズムを提案する。
論文 参考訳(メタデータ) (2024-04-07T12:25:03Z) - Robust and Automatic Data Clustering: Dirichlet Process meets
Median-of-Means [18.3248037914529]
本稿では,モデルに基づく手法とセントロイド方式の原理を統合することにより,効率的かつ自動的なクラスタリング手法を提案する。
クラスタリング誤差の上限に関する統計的保証は,既存のクラスタリングアルゴリズムよりも提案手法の利点を示唆している。
論文 参考訳(メタデータ) (2023-11-26T19:01:15Z) - Stable Cluster Discrimination for Deep Clustering [7.175082696240088]
ディープクラスタリングは、インスタンスの表現(つまり、表現学習)を最適化し、固有のデータ分散を探索することができる。
結合された目的は、すべてのインスタンスが一様機能に崩壊する、自明な解決策を意味する。
本研究では,1段階クラスタリングにおいて,教師あり学習における一般的な識別タスクが不安定であることを示す。
新規な安定クラスタ識別(SeCu)タスクを提案し、それに応じて新しいハードネス対応クラスタリング基準を得ることができる。
論文 参考訳(メタデータ) (2023-11-24T06:43:26Z) - Deep Clustering of Tabular Data by Weighted Gaussian Distribution Learning [0.0]
本稿では,自動エンコーダ遅延空間(G-CEALS)におけるガウスクラスタ埋め込みという,表型データのための最初のディープクラスタリング手法の1つを開発する。
G-CEALS法は、クラスタリング精度に基づいて平均ランク順を2.9(1.7)と2.8(1.7)とし、16のデータセット上で調整されたRand index(ARI)スコアをそれぞれ示し、9つの最先端クラスタリング法より優れている。
論文 参考訳(メタデータ) (2023-01-02T18:45:53Z) - Deep Clustering: A Comprehensive Survey [53.387957674512585]
クラスタリング分析は、機械学習とデータマイニングにおいて必須の役割を果たす。
ディープ・クラスタリングは、ディープ・ニューラルネットワークを使ってクラスタリングフレンドリーな表現を学習することができるが、幅広いクラスタリングタスクに広く適用されている。
ディープクラスタリングに関する既存の調査は、主にシングルビューフィールドとネットワークアーキテクチャに焦点を当てており、クラスタリングの複雑なアプリケーションシナリオを無視している。
論文 参考訳(メタデータ) (2022-10-09T02:31:32Z) - A One-shot Framework for Distributed Clustered Learning in Heterogeneous
Environments [54.172993875654015]
異種環境における分散学習のためのコミュニケーション効率化手法のファミリーを提案する。
ユーザによるローカル計算に基づくワンショットアプローチと、サーバにおけるクラスタリングベースのアグリゲーションステップは、強力な学習保証を提供する。
厳密な凸問題に対しては,ユーザ毎のデータ点数がしきい値を超える限り,提案手法はサンプルサイズの観点から順序最適平均二乗誤差率を達成する。
論文 参考訳(メタデータ) (2022-09-22T09:04:10Z) - Deep Conditional Gaussian Mixture Model for Constrained Clustering [7.070883800886882]
制約付きクラスタリングは、部分的にラベル付けされたデータの増加量に関する事前情報を利用することができる。
本稿では、直感的で解釈可能で、勾配変動推論の枠組みで効率的に訓練できる制約付きクラスタリングのための新しいフレームワークを提案する。
論文 参考訳(メタデータ) (2021-06-11T13:38:09Z) - Learning Robust Representation for Clustering through Locality
Preserving Variational Discriminative Network [16.259673823482665]
Variational Deep Embeddingは、さまざまなクラスタリングタスクで大きな成功を収めます。
VaDEは,1)入力ノイズに弱い,2)隣接するデータポイント間の局所性情報を無視する,という2つの問題に悩まされている。
強固な埋め込み判別器と局所構造制約によりvadeを改善する共同学習フレームワークを提案する。
論文 参考訳(メタデータ) (2020-12-25T02:31:55Z) - Towards Uncovering the Intrinsic Data Structures for Unsupervised Domain
Adaptation using Structurally Regularized Deep Clustering [119.88565565454378]
Unsupervised Domain Adapt (UDA) は、ターゲットドメイン上のラベルなしデータの予測を行う分類モデルを学ぶことである。
本稿では,対象データの正規化判別クラスタリングと生成クラスタリングを統合する構造的正規化深層クラスタリングのハイブリッドモデルを提案する。
提案するH-SRDCは, インダクティブ設定とトランスダクティブ設定の両方において, 既存の手法よりも優れている。
論文 参考訳(メタデータ) (2020-12-08T08:52:00Z) - Scalable Hierarchical Agglomerative Clustering [65.66407726145619]
既存のスケーラブルな階層的クラスタリング手法は、スピードの質を犠牲にする。
我々は、品質を犠牲にせず、数十億のデータポイントまでスケールする、スケーラブルで集約的な階層的クラスタリング法を提案する。
論文 参考訳(メタデータ) (2020-10-22T15:58:35Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。