論文の概要: Assessing the impact of dimensionality reduction on clustering performance -- a systematic study
- arxiv url: http://arxiv.org/abs/2604.22099v1
- Date: Thu, 23 Apr 2026 22:13:07 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-04-27 15:36:26.282214
- Title: Assessing the impact of dimensionality reduction on clustering performance -- a systematic study
- Title(参考訳): クラスタリング性能に及ぼす次元減少の影響評価 -系統的研究-
- Authors: Ousmane Assani Amate, Mohammadreza Bakhtyari, Émilie Roy, Vladimir Makarenkov,
- Abstract要約: 次元の減少は、高次元データをクラスタリングするための重要な前処理ステップである。
5次元縮小手法が4つのクラスタリングアルゴリズムの性能に与える影響を系統的に評価する。
- 参考スコア(独自算出の注目度): 0.5833117322405447
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Dimensionality reduction is a critical preprocessing step for clustering high-dimensional data, yet comprehensive evaluation of its impact across diverse methods and data types remains limited. In this study, we systematically assess the influence of five dimensionality reduction techniques - Principal Component Analysis (PCA), Kernel Principal Component Analysis (Kernel PCA), Variational Autoencoder (VAE), Isometric Mapping (Isomap), and Multidimensional Scaling (MDS) - on the performance of four popular clustering algorithms - k-means, Agglomerative Hierarchical Clustering (AHC), Gaussian Mixture Models (GMM), and Ordering Points to Identify the Clustering Structure (OPTICS). We evaluate clustering quality using the Adjusted Rand Index (ARI), comparing results without and with dimensionality reduction at different reduction levels recommended in the literature (i.e., k-1, where k is the number of clusters, and 25% and 50% of the original number of dimensions). Our findings underscore the importance of a careful selection of the dimensionality reduction technique and the dimensionality reduction level that should be tailored to intrinsic data geometry and clustering algorithms under consideration.
- Abstract(参考訳): 次元の縮小は高次元データをクラスタリングするための重要な前処理ステップであるが、様々な方法やデータタイプに対する影響の包括的評価は依然として限られている。
本研究では,主成分分析 (PCA), カーネル主成分分析 (Kernel PCA), 変分オートエンコーダ (VAE), 等角写像 (Isomap), および多次元スケーリング (MDS) の5つの次元削減手法が,k-means, 集約階層クラスタリング (AHC), ガウス混合モデル (GMM), クラスタリング構造 (OPTICS) を同定するための順序付け点 (Ordering Points to Identification) の4つの一般的なクラスタリングアルゴリズムの性能に与える影響を系統的に評価する。
適応ランダム指数 (ARI) を用いてクラスタリング品質を評価し, 文献で推奨される異なる還元レベル(kがクラスタ数である場合, kがクラスタ数である場合, 元の次元数の25%と50%) において, 寸法の減少を伴わない結果と比較した。
本研究は,本質的なデータ幾何やクラスタリングアルゴリズムに適合する次元化技術と次元化レベルを慎重に選択することの重要性を強調した。
関連論文リスト
- Joint Representation Learning and Clustering via Gradient-Based Manifold Optimization [1.7484661165784237]
次元の縮小とクラスタリングを同時に学習するマニフォールド学習フレームワークを提案する。
提案フレームワークは,次元削減手法のパラメータを共同で学習し,データをクラスタリングすることができる。
我々のアルゴリズムは文献の一般的なクラスタリングアルゴリズムよりも優れた性能を持つ。
論文 参考訳(メタデータ) (2026-04-15T05:18:27Z) - Orthogonal Subspace Clustering: Enhancing High-Dimensional Data Analysis through Adaptive Dimensionality Reduction and Efficient Clustering [1.6936594801109557]
我々は,高次元データクラスタリングの革新的な手法であるOrthogonal Subspace Clustering (OSC)を提案する。
OSCは直交部分空間構築と古典的なクラスタリング技術を統合している。
クラスタリングの効率、堅牢性、正確性を大幅に改善します。
論文 参考訳(メタデータ) (2026-03-16T03:30:18Z) - Unsupervised Learning: Comparative Analysis of Clustering Techniques on High-Dimensional Data [0.29465623430708915]
本稿では,高次元データセット上でのK平均,DBSCAN,スペクトルクラスタリングを包括的に解析する。
本稿では,複数次元削減技術を用いたクラスタリング性能の評価を行う新しい評価フレームワークを提案する。
論文 参考訳(メタデータ) (2025-03-29T20:38:04Z) - Self-Supervised Graph Embedding Clustering [70.36328717683297]
K-means 1-step dimensionality reduction clustering method は,クラスタリングタスクにおける次元性の呪いに対処する上で,いくつかの進歩をもたらした。
本稿では,K-meansに多様体学習を統合する統一フレームワークを提案する。
論文 参考訳(メタデータ) (2024-09-24T08:59:51Z) - Fuzzy K-Means Clustering without Cluster Centroids [21.256564324236333]
ファジィK平均クラスタリングは教師なしデータ分析において重要な手法である。
本稿では,クラスタセントロイドへの依存を完全に排除する,ファジィテクストK-Meansクラスタリングアルゴリズムを提案する。
論文 参考訳(メタデータ) (2024-04-07T12:25:03Z) - Distributional Reduction: Unifying Dimensionality Reduction and Clustering with Gromov-Wasserstein [56.62376364594194]
教師なし学習は、潜在的に大きな高次元データセットの基盤構造を捉えることを目的としている。
本研究では、最適輸送のレンズの下でこれらのアプローチを再検討し、Gromov-Wasserstein問題と関係を示す。
これにより、分散還元と呼ばれる新しい一般的なフレームワークが公開され、DRとクラスタリングを特別なケースとして回復し、単一の最適化問題内でそれらに共同で対処することができる。
論文 参考訳(メタデータ) (2024-02-03T19:00:19Z) - CCP: Correlated Clustering and Projection for Dimensionality Reduction [5.992724190105578]
Correlated Clustering and Projectionは、マトリックスを解決する必要のない、新しいデータドメイン戦略を提供する。
CCPは、高次元の機能を相関クラスタに分割し、各クラスタの相関した機能を1次元の表現に分割する。
提案手法は、さまざまな機械学習アルゴリズムに関連するベンチマークデータセットを用いて検証される。
論文 参考訳(メタデータ) (2022-06-08T23:14:44Z) - Scalable Hierarchical Agglomerative Clustering [65.66407726145619]
既存のスケーラブルな階層的クラスタリング手法は、スピードの質を犠牲にする。
我々は、品質を犠牲にせず、数十億のデータポイントまでスケールする、スケーラブルで集約的な階層的クラスタリング法を提案する。
論文 参考訳(メタデータ) (2020-10-22T15:58:35Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。