論文の概要: Unsupervised Learning: Comparative Analysis of Clustering Techniques on High-Dimensional Data
- arxiv url: http://arxiv.org/abs/2503.23215v1
- Date: Sat, 29 Mar 2025 20:38:04 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-04-01 14:38:52.025080
- Title: Unsupervised Learning: Comparative Analysis of Clustering Techniques on High-Dimensional Data
- Title(参考訳): 教師なし学習:高次元データを用いたクラスタリング手法の比較分析
- Authors: Vishnu Vardhan Baligodugula, Fathi Amsaad,
- Abstract要約: 本稿では,高次元データセット上でのK平均,DBSCAN,スペクトルクラスタリングを包括的に解析する。
本稿では,複数次元削減技術を用いたクラスタリング性能の評価を行う新しい評価フレームワークを提案する。
- 参考スコア(独自算出の注目度): 0.29465623430708915
- License:
- Abstract: This paper presents a comprehensive comparative analysis of prominent clustering algorithms K-means, DBSCAN, and Spectral Clustering on high-dimensional datasets. We introduce a novel evaluation framework that assesses clustering performance across multiple dimensionality reduction techniques (PCA, t-SNE, and UMAP) using diverse quantitative metrics. Experiments conducted on MNIST, Fashion-MNIST, and UCI HAR datasets reveal that preprocessing with UMAP consistently improves clustering quality across all algorithms, with Spectral Clustering demonstrating superior performance on complex manifold structures. Our findings show that algorithm selection should be guided by data characteristics, with Kmeans excelling in computational efficiency, DBSCAN in handling irregular clusters, and Spectral Clustering in capturing complex relationships. This research contributes a systematic approach for evaluating and selecting clustering techniques for high dimensional data applications.
- Abstract(参考訳): 本稿では,K-means,DBSCAN,Spectral Clusteringを高次元データセット上で比較した。
本稿では,多次元化技術(PCA, t-SNE, UMAP)におけるクラスタリング性能を定量的に評価する新しい評価フレームワークを提案する。
MNIST, Fashion-MNIST, UCI HARデータセットを用いて行った実験により、UMAPによる前処理は全てのアルゴリズムにおけるクラスタリング品質を一貫して改善し、スペクトルクラスタリングは複雑な多様体構造に対して優れた性能を示した。
Kmeansは計算効率に優れ、DBSCANは不規則クラスタの処理に優れ、Spectral Clusteringは複雑な関係を捉える。
本研究は,高次元データアプリケーションにおけるクラスタリング手法の評価と選択のための体系的なアプローチに寄与する。
関連論文リスト
- Estimating the Optimal Number of Clusters in Categorical Data Clustering by Silhouette Coefficient [0.5939858158928473]
本稿では,分類データクラスタリングにおける最適kを推定するアルゴリズムk-SCCを提案する。
k-SCCの性能を比較するために, 合成データセットと実データセットの比較実験を行った。
論文 参考訳(メタデータ) (2025-01-26T14:29:11Z) - Autoencoded UMAP-Enhanced Clustering for Unsupervised Learning [49.1574468325115]
本稿では,低次元空間にデータを非線形に埋め込み,次に従来のクラスタリングアルゴリズムを用いて非教師なし学習を行う手法を提案する。
この埋め込みはデータのクラスタビリティを促進し、オートエンコーダニューラルネットワークのエンコーダとUMAPアルゴリズムの出力の2つのマッピングで構成されている。
MNISTデータに適用した場合、AUECはクラスタリング精度において最先端技術よりも大幅に優れている。
論文 参考訳(メタデータ) (2025-01-13T22:30:38Z) - Self-Supervised Graph Embedding Clustering [70.36328717683297]
K-means 1-step dimensionality reduction clustering method は,クラスタリングタスクにおける次元性の呪いに対処する上で,いくつかの進歩をもたらした。
本稿では,K-meansに多様体学習を統合する統一フレームワークを提案する。
論文 参考訳(メタデータ) (2024-09-24T08:59:51Z) - A3S: A General Active Clustering Method with Pairwise Constraints [66.74627463101837]
A3Sは、適応クラスタリングアルゴリズムによって得られる初期クラスタ結果に対して、戦略的にアクティブクラスタリングを調整する。
さまざまな実世界のデータセットにわたる広範な実験において、A3Sは、人間のクエリを著しく少なくして、望ましい結果を達成する。
論文 参考訳(メタデータ) (2024-07-14T13:37:03Z) - Toward Efficient and Incremental Spectral Clustering via Parametric
Spectral Clustering [2.44755919161855]
スペクトルクラスタリングは、非線形分離可能なデータを効果的にクラスタリングするための一般的な方法である。
本稿では、パラメトリックスペクトルクラスタリング(PSC)と呼ばれる新しい手法を提案する。
PSCは、ビッグデータとリアルタイムシナリオに関連する課題に対処する。
論文 参考訳(メタデータ) (2023-11-14T01:26:20Z) - Unified Multi-View Orthonormal Non-Negative Graph Based Clustering
Framework [74.25493157757943]
我々は,非負の特徴特性を活用し,多視点情報を統合された共同学習フレームワークに組み込む,新しいクラスタリングモデルを定式化する。
また、深層機能に基づいたクラスタリングデータに対するマルチモデル非負グラフベースのアプローチを初めて検討する。
論文 参考訳(メタデータ) (2022-11-03T08:18:27Z) - Detection and Evaluation of Clusters within Sequential Data [58.720142291102135]
Block Markov Chainsのクラスタリングアルゴリズムは理論的最適性を保証する。
特に、私たちのシーケンシャルデータは、ヒトのDNA、テキスト、動物運動データ、金融市場から派生しています。
ブロックマルコフ連鎖モデルの仮定は、実際に探索データ解析において有意義な洞察を得られることが判明した。
論文 参考訳(メタデータ) (2022-10-04T15:22:39Z) - Enhancing cluster analysis via topological manifold learning [0.3823356975862006]
クラスタ化前にデータセットのトポロジ構造を推定することで,クラスタ検出を大幅に向上させることができることを示す。
位相構造を推定するための多様体学習法UMAPと密度に基づくクラスタリング法DBSCANを組み合わせた。
論文 参考訳(メタデータ) (2022-07-01T15:53:39Z) - CCP: Correlated Clustering and Projection for Dimensionality Reduction [5.992724190105578]
Correlated Clustering and Projectionは、マトリックスを解決する必要のない、新しいデータドメイン戦略を提供する。
CCPは、高次元の機能を相関クラスタに分割し、各クラスタの相関した機能を1次元の表現に分割する。
提案手法は、さまざまな機械学習アルゴリズムに関連するベンチマークデータセットを用いて検証される。
論文 参考訳(メタデータ) (2022-06-08T23:14:44Z) - A Multi-disciplinary Ensemble Algorithm for Clustering Heterogeneous
Datasets [0.76146285961466]
本稿では,社会階級ランキングとメタヒューリスティックアルゴリズムに基づく進化的クラスタリングアルゴリズム(ECAStar)を提案する。
ECAStarは、再共生進化演算子、レヴィ飛行最適化、いくつかの統計技術と統合されている。
従来の5つのアプローチに対してECAStarを評価する実験を行った。
論文 参考訳(メタデータ) (2021-01-01T07:20:50Z) - Scalable Hierarchical Agglomerative Clustering [65.66407726145619]
既存のスケーラブルな階層的クラスタリング手法は、スピードの質を犠牲にする。
我々は、品質を犠牲にせず、数十億のデータポイントまでスケールする、スケーラブルで集約的な階層的クラスタリング法を提案する。
論文 参考訳(メタデータ) (2020-10-22T15:58:35Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。