論文の概要: How I learned to stop worrying and love the curse of dimensionality: an
appraisal of cluster validation in high-dimensional spaces
- arxiv url: http://arxiv.org/abs/2201.05214v1
- Date: Thu, 13 Jan 2022 21:17:10 GMT
- ステータス: 処理完了
- システム内更新日: 2022-01-17 14:57:26.908604
- Title: How I learned to stop worrying and love the curse of dimensionality: an
appraisal of cluster validation in high-dimensional spaces
- Title(参考訳): 次元の呪いを心配し、愛することを止めるために学んだこと--高次元空間におけるクラスタ検証の評価
- Authors: Brian A. Powell
- Abstract要約: 本研究では,一般的なユークリッドノルムに基づくクラスタ指標の感度が,様々な合成データスキームの次元でどのようにスケールするかを検討する。
その結果、指数の圧倒的多数は高次元での感度を改善したり安定させたりしていることがわかった。
- 参考スコア(独自算出の注目度): 0.0
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: The failure of the Euclidean norm to reliably distinguish between nearby and
distant points in high dimensional space is well-known. This phenomenon of
distance concentration manifests in a variety of data distributions, with iid
or correlated features, including centrally-distributed and clustered data.
Unsupervised learning based on Euclidean nearest-neighbors and more general
proximity-oriented data mining tasks like clustering, might therefore be
adversely affected by distance concentration for high-dimensional applications.
While considerable work has been done developing clustering algorithms with
reliable high-dimensional performance, the problem of cluster validation--of
determining the natural number of clusters in a dataset--has not been carefully
examined in high-dimensional problems. In this work we investigate how the
sensitivities of common Euclidean norm-based cluster validity indices scale
with dimension for a variety of synthetic data schemes, including
well-separated and noisy clusters, and find that the overwhelming majority of
indices have improved or stable sensitivity in high dimensions. The curse of
dimensionality is therefore dispelled for this class of fairly generic data
schemes.
- Abstract(参考訳): ユークリッドノルムの高次元空間における近点と遠点を確実に区別する失敗はよく知られている。
この距離集中現象は、中央分布とクラスターデータを含む、iidまたは相関した特徴を持つ様々なデータ分布に現れる。
ユークリッド近辺およびクラスタリングのようなより一般的な近接指向データマイニングタスクに基づく教師なし学習は、高次元アプリケーションにおける距離集中に悪影響を及ぼす可能性がある。
信頼性の高い高次元性能のクラスタリングアルゴリズムの開発には多くの研究がなされているが、クラスタ検証の問題は、データセット内のクラスタの自然数を決定することである。
本研究では, 一般的なユークリッドノルムに基づくクラスタ妥当性指標の感度が, 十分に分離された, ノイズの多いクラスタを含む, 様々な合成データスキームの次元とどのようにスケールするかを検討する。
したがって、次元性の呪いは、このかなり一般的なデータスキームのクラスには取り除かれる。
関連論文リスト
- Fuzzy K-Means Clustering without Cluster Centroids [79.19713746387337]
ファジィK平均クラスタリングは教師なしデータ解析において重要な計算手法である。
本稿では,クラスタセントロイドへの依存を完全に排除する,ファジィK平均クラスタリングアルゴリズムを提案する。
論文 参考訳(メタデータ) (2024-04-07T12:25:03Z) - Deep Clustering Evaluation: How to Validate Internal Clustering Validation Measures [2.2252684361733284]
ディープクラスタリング(Deep Clustering)は、ディープニューラルネットワークを用いて複雑な高次元データを分割する手法である。
低次元空間用に設計された従来のクラスタリング検証は、ディープクラスタリングにおいて問題となる。
本稿では、ディープラーニングにおけるクラスタリング品質の評価におけるこれらの課題に対処する。
論文 参考訳(メタデータ) (2024-03-21T20:43:44Z) - A general theory for robust clustering via trimmed mean [7.650319416775203]
提案手法は,新しいトリミング平均型セントロイド推定器を用いたハイブリッドクラスタリング手法を導入し,誤ラベル保証を実現する。
その結果, 誤差がガウス以下の分布に従えば, ガウス以下のケースに還元されることがわかった。
これらの初期セントロイド推定値は,その後のクラスタリングアルゴリズムにおいて,最適な誤ラベル率を達成するのに十分であることを示す。
論文 参考訳(メタデータ) (2024-01-10T22:56:44Z) - Beyond Labels: Advancing Cluster Analysis with the Entropy of Distance
Distribution (EDD) [0.0]
距離分布のエントロピー(Entropy of Distance Distribution、EDD)は、ラベルフリークラスタリング分析におけるパラダイムシフトである。
本手法ではシャノン情報エントロピーを用いて,データセット内の距離分布の「ピーク性」や「平坦性」を定量化する。
EDDのポテンシャルは、従来のクラスタリング分析を超えて、複雑なデータ構造を解き放つための堅牢でスケーラブルなツールを提供する。
論文 参考訳(メタデータ) (2023-11-28T09:22:17Z) - Sanitized Clustering against Confounding Bias [38.928080236294775]
本稿では,共起バイアスに対する衛生クラスタリング(SCAB)という新しいクラスタリングフレームワークを提案する。
SCABは、非線型依存尺度を通じて、複素データのセマンティック潜在空間における境界要素を除去する。
複雑なデータセットの実験は、SCABがクラスタリングのパフォーマンスにおいて大きな向上を達成していることを示している。
論文 参考訳(メタデータ) (2023-11-02T14:10:14Z) - Rethinking k-means from manifold learning perspective [122.38667613245151]
平均推定なしで直接データのクラスタを検出する新しいクラスタリングアルゴリズムを提案する。
具体的には,バタワースフィルタを用いてデータ点間の距離行列を構成する。
異なる視点に埋め込まれた相補的な情報をうまく活用するために、テンソルのSchatten p-norm正規化を利用する。
論文 参考訳(メタデータ) (2023-05-12T03:01:41Z) - Intrinsic dimension estimation for discrete metrics [65.5438227932088]
本稿では,離散空間に埋め込まれたデータセットの内在次元(ID)を推定するアルゴリズムを提案する。
我々は,その精度をベンチマークデータセットで示すとともに,種鑑定のためのメダゲノミクスデータセットの分析に応用する。
このことは、列の空間の高次元性にもかかわらず、蒸発圧が低次元多様体に作用することを示唆している。
論文 参考訳(メタデータ) (2022-07-20T06:38:36Z) - Anomaly Clustering: Grouping Images into Coherent Clusters of Anomaly
Types [60.45942774425782]
我々は異常クラスタリングを導入し、その目標はデータを異常型の一貫性のあるクラスタにまとめることである。
これは異常検出とは違い、その目標は異常を通常のデータから分割することである。
パッチベースの事前訓練されたディープ埋め込みとオフザシェルフクラスタリング手法を用いた,単純で効果的なクラスタリングフレームワークを提案する。
論文 参考訳(メタデータ) (2021-12-21T23:11:33Z) - Density-Based Clustering with Kernel Diffusion [59.4179549482505]
単位$d$次元ユークリッド球のインジケータ関数に対応するナイーブ密度は、密度に基づくクラスタリングアルゴリズムで一般的に使用される。
局所分布特性と滑らかさの異なるデータに適応する新しいカーネル拡散密度関数を提案する。
論文 参考訳(メタデータ) (2021-10-11T09:00:33Z) - Deep Semi-Supervised Embedded Clustering (DSEC) for Stratification of
Heart Failure Patients [50.48904066814385]
本研究では、深層半教師付き組込みクラスタリングを用いて、心不全のデータ駆動型患者サブグループを決定する。
ヘテロジニアスデータから得られた組込み空間から臨床関連クラスタを見出した。
提案アルゴリズムは、異なる結果を持つ患者の新たな未診断サブグループを見つけることができる。
論文 参考訳(メタデータ) (2020-12-24T12:56:46Z) - On clustering uncertain and structured data with Wasserstein barycenters
and a geodesic criterion for the number of clusters [0.0]
この研究は、ワッサーシュタインのバリセンターの概念を考察し、クラスタリングタスクが実行されるワッサーシュタイン空間の内在幾何学に基づく適切なクラスタリング指標を伴って考える。
このようなクラスタリング手法は、観測/実験誤差が重要である多くの分野において高く評価されている。
この観点から、各観測は適切な確率尺度によって識別され、提案したクラスタリングスキームは識別基準に依存する。
論文 参考訳(メタデータ) (2019-12-26T08:46:00Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。