論文の概要: High-Dimensional BWDM: A Robust Nonparametric Clustering Validation Index for Large-Scale Data
- arxiv url: http://arxiv.org/abs/2510.14145v1
- Date: Wed, 15 Oct 2025 22:25:25 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-10-17 21:15:14.644224
- Title: High-Dimensional BWDM: A Robust Nonparametric Clustering Validation Index for Large-Scale Data
- Title(参考訳): 高次元BWDM:大規模データのロバスト非パラメトリッククラスタリング検証指標
- Authors: Mohammed Baragilly, Hend Gabr,
- Abstract要約: Calinski-Harabasz、Silhouette、Davies-Bouldinといった伝統的な妥当性指標は、高次元または汚染されたデータで劣化する。
本稿では,HD-BWDM (High-dimensional Between-Within Distance Median) という,ロバストで非パラメトリックなクラスタリング検証フレームワークを提案する。
ジョンソン-リンデンシュトラウス埋め込みの下での一貫性と収束を示す理論的結果を得る。
- 参考スコア(独自算出の注目度): 0.0
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Determining the appropriate number of clusters in unsupervised learning is a central problem in statistics and data science. Traditional validity indices such as Calinski-Harabasz, Silhouette, and Davies-Bouldin-depend on centroid-based distances and therefore degrade in high-dimensional or contaminated data. This paper proposes a new robust, nonparametric clustering validation framework, the High-Dimensional Between-Within Distance Median (HD-BWDM), which extends the recently introduced BWDM criterion to high-dimensional spaces. HD-BWDM integrates random projection and principal component analysis to mitigate the curse of dimensionality and applies trimmed clustering and medoid-based distances to ensure robustness against outliers. We derive theoretical results showing consistency and convergence under Johnson-Lindenstrauss embeddings. Extensive simulations demonstrate that HD-BWDM remains stable and interpretable under high-dimensional projections and contamination, providing a robust alternative to traditional centroid-based validation criteria. The proposed method provides a theoretically grounded, computationally efficient stopping rule for nonparametric clustering in modern high-dimensional applications.
- Abstract(参考訳): 教師なし学習におけるクラスタ数の適切な決定は、統計学とデータ科学における中心的な問題である。
Calinski-Harabasz、Silhouette、Davies-Bouldin-dependといった従来の妥当性指標は、遠心点からの距離を測ることができ、したがって高次元または汚染されたデータでは劣化する。
本稿では,最近導入されたBWDM基準を高次元空間に拡張した,新しいロバストで非パラメトリックなクラスタリング検証フレームワークであるHigh-dimensional Between-Within Distance Median (HD-BWDM)を提案する。
HD-BWDMは、ランダムプロジェクションと主成分分析を統合して、次元の呪いを軽減し、トリミングクラスタリングとメドイドベースの距離を適用して、外れ値に対する堅牢性を確保する。
ジョンソン-リンデンシュトラウス埋め込みの下での一貫性と収束を示す理論的結果を得る。
大規模なシミュレーションにより、HD-BWDMは高次元の投影と汚染の下で安定かつ解釈可能であることが示され、従来のセントロイドベースの検証基準に頑健な代替となる。
提案手法は,最近の高次元応用における非パラメトリッククラスタリングの理論的基礎と計算効率のよい停止則を提供する。
関連論文リスト
- Hyperbolic Fuzzy C-Means with Adaptive Weight-based Filtering for Efficient Clustering [14.904264782690639]
Fuzzy $C$-Means (FCM) アルゴリズムは、非ユークリッド空間において顕著な制限を示す。
HypeFCMはファジィクラスタリングの原理と双曲幾何学を統合する。
HypeFCMは、非ユークリッド環境で従来のファジィクラスタリング法よりも大幅に優れている。
論文 参考訳(メタデータ) (2025-05-07T11:32:53Z) - Geometric Median Matching for Robust k-Subset Selection from Noisy Data [75.86423267723728]
最適分解点1/2のロバストな推定器であるGeometric Medianを利用する新しいk-subset選択法を提案する。
提案手法は, k-subset を反復的に選択し,部分集合の平均が(潜在的に)ノイズデータセットの GM に近似し,任意の汚損の下でもロバスト性を確保する。
論文 参考訳(メタデータ) (2025-04-01T09:22:05Z) - Self-Supervised Graph Embedding Clustering [70.36328717683297]
K-means 1-step dimensionality reduction clustering method は,クラスタリングタスクにおける次元性の呪いに対処する上で,いくつかの進歩をもたらした。
本稿では,K-meansに多様体学習を統合する統一フレームワークを提案する。
論文 参考訳(メタデータ) (2024-09-24T08:59:51Z) - Decentralized Smoothing ADMM for Quantile Regression with Non-Convex Sparse Penalties [3.269165283595478]
急速に進化するIoT(Internet-of-Things)エコシステムでは、センサによって生成された分散データを扱う上で、効果的なデータ分析技術が不可欠である。
下位段階のコンセンサスアプローチのような既存の手法の限界に対処することは、アクティブ係数と非アクティブ係数の区別に失敗する。
論文 参考訳(メタデータ) (2024-08-02T15:00:04Z) - Fuzzy K-Means Clustering without Cluster Centroids [21.256564324236333]
ファジィK平均クラスタリングは教師なしデータ分析において重要な手法である。
本稿では,クラスタセントロイドへの依存を完全に排除する,ファジィテクストK-Meansクラスタリングアルゴリズムを提案する。
論文 参考訳(メタデータ) (2024-04-07T12:25:03Z) - How I learned to stop worrying and love the curse of dimensionality: an
appraisal of cluster validation in high-dimensional spaces [0.0]
本研究では,一般的なユークリッドノルムに基づくクラスタ指標の感度が,様々な合成データスキームの次元でどのようにスケールするかを検討する。
その結果、指数の圧倒的多数は高次元での感度を改善したり安定させたりしていることがわかった。
論文 参考訳(メタデータ) (2022-01-13T21:17:10Z) - Statistical control for spatio-temporal MEG/EEG source imaging with
desparsified multi-task Lasso [102.84915019938413]
脳磁図(MEG)や脳電図(EEG)のような非侵襲的手法は、非侵襲的手法を約束する。
ソースローカライゼーション(ソースイメージング)の問題は、しかしながら、高次元の統計的推測問題を引き起こす。
この問題に対処するために,分離されたマルチタスクラッソ(ecd-MTLasso)のアンサンブルを提案する。
論文 参考訳(メタデータ) (2020-09-29T21:17:16Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。