論文の概要: Beyond Labels: Advancing Cluster Analysis with the Entropy of Distance
Distribution (EDD)
- arxiv url: http://arxiv.org/abs/2311.16621v1
- Date: Tue, 28 Nov 2023 09:22:17 GMT
- ステータス: 処理完了
- システム内更新日: 2023-11-29 19:09:01.125783
- Title: Beyond Labels: Advancing Cluster Analysis with the Entropy of Distance
Distribution (EDD)
- Title(参考訳): Beyond Labels: 距離分布(EDD)のエントロピーによるクラスタ分析の促進
- Authors: Claus Metzner, Achim Schilling and Patrick Krauss
- Abstract要約: 距離分布のエントロピー(Entropy of Distance Distribution、EDD)は、ラベルフリークラスタリング分析におけるパラダイムシフトである。
本手法ではシャノン情報エントロピーを用いて,データセット内の距離分布の「ピーク性」や「平坦性」を定量化する。
EDDのポテンシャルは、従来のクラスタリング分析を超えて、複雑なデータ構造を解き放つための堅牢でスケーラブルなツールを提供する。
- 参考スコア(独自算出の注目度): 0.0
- License: http://creativecommons.org/licenses/by-nc-nd/4.0/
- Abstract: In the evolving landscape of data science, the accurate quantification of
clustering in high-dimensional data sets remains a significant challenge,
especially in the absence of predefined labels. This paper introduces a novel
approach, the Entropy of Distance Distribution (EDD), which represents a
paradigm shift in label-free clustering analysis. Traditional methods, reliant
on discrete labels, often struggle to discern intricate cluster patterns in
unlabeled data. EDD, however, leverages the characteristic differences in
pairwise point-to-point distances to discern clustering tendencies, independent
of data labeling.
Our method employs the Shannon information entropy to quantify the
'peakedness' or 'flatness' of distance distributions in a data set. This
entropy measure, normalized against its maximum value, effectively
distinguishes between strongly clustered data (indicated by pronounced peaks in
distance distribution) and more homogeneous, non-clustered data sets. This
label-free quantification is resilient against global translations and
permutations of data points, and with an additional dimension-wise z-scoring,
it becomes invariant to data set scaling.
We demonstrate the efficacy of EDD through a series of experiments involving
two-dimensional data spaces with Gaussian cluster centers. Our findings reveal
a monotonic increase in the EDD value with the widening of cluster widths,
moving from well-separated to overlapping clusters. This behavior underscores
the method's sensitivity and accuracy in detecting varying degrees of
clustering. EDD's potential extends beyond conventional clustering analysis,
offering a robust, scalable tool for unraveling complex data structures without
reliance on pre-assigned labels.
- Abstract(参考訳): 進化するデータサイエンスのランドスケープにおいて、高次元データセットにおけるクラスタリングの正確な定量化は、特に予め定義されたラベルがない場合において、重要な課題である。
本稿では,ラベルフリークラスタリング解析におけるパラダイムシフトを表す新しい手法であるEntropy of Distance Distribution (EDD)を紹介する。
離散ラベルに依存した従来の手法は、ラベルのないデータの複雑なクラスタパターンの識別に苦慮することが多い。
しかし、eddは、データラベリングに依存しないクラスタリング傾向を識別するために、対方向のポイントツーポイント距離の特性的差異を利用する。
本手法はシャノン情報エントロピーを用いて,データセット内の距離分布の「ピーク性」または「平坦性」を定量化する。
このエントロピー測度は、その最大値に対して正規化され、(距離分布の発音ピークによって示される)強クラスターデータと、より均質な非クラスタデータセットとを効果的に区別する。
このラベルのない量子化は、大域的なデータポイントの変換や置換に対して弾力性があり、追加の次元のz-スコーリングにより、データセットのスケーリングに不変となる。
ガウスクラスタセンターを用いた2次元データ空間に関する一連の実験を通して,EDDの有効性を示す。
以上の結果から,クラスタ幅の拡大に伴ってedd値が単調に上昇することが明らかとなった。
この動作は、クラスタリングのさまざまな程度を検出する際の感度と精度を強調する。
eddのポテンシャルは、従来のクラスタリング分析を超えて拡張され、事前に割り当てられたラベルに依存することなく複雑なデータ構造を解き放つための堅牢でスケーラブルなツールを提供する。
関連論文リスト
- Distributional Reduction: Unifying Dimensionality Reduction and Clustering with Gromov-Wasserstein [56.62376364594194]
教師なし学習は、潜在的に大きな高次元データセットの基盤構造を捉えることを目的としている。
本研究では、最適輸送のレンズの下でこれらのアプローチを再検討し、Gromov-Wasserstein問題と関係を示す。
これにより、分散還元と呼ばれる新しい一般的なフレームワークが公開され、DRとクラスタリングを特別なケースとして回復し、単一の最適化問題内でそれらに共同で対処することができる。
論文 参考訳(メタデータ) (2024-02-03T19:00:19Z) - Sanitized Clustering against Confounding Bias [38.928080236294775]
本稿では,共起バイアスに対する衛生クラスタリング(SCAB)という新しいクラスタリングフレームワークを提案する。
SCABは、非線型依存尺度を通じて、複素データのセマンティック潜在空間における境界要素を除去する。
複雑なデータセットの実験は、SCABがクラスタリングのパフォーマンスにおいて大きな向上を達成していることを示している。
論文 参考訳(メタデータ) (2023-11-02T14:10:14Z) - Rethinking k-means from manifold learning perspective [122.38667613245151]
平均推定なしで直接データのクラスタを検出する新しいクラスタリングアルゴリズムを提案する。
具体的には,バタワースフィルタを用いてデータ点間の距離行列を構成する。
異なる視点に埋め込まれた相補的な情報をうまく活用するために、テンソルのSchatten p-norm正規化を利用する。
論文 参考訳(メタデータ) (2023-05-12T03:01:41Z) - Likelihood Adjusted Semidefinite Programs for Clustering Heterogeneous
Data [16.153709556346417]
クラスタリングは広くデプロイされた学習ツールである。
iLA-SDPはEMよりも感度が低く、高次元データでは安定である。
論文 参考訳(メタデータ) (2022-09-29T21:03:13Z) - Intrinsic dimension estimation for discrete metrics [65.5438227932088]
本稿では,離散空間に埋め込まれたデータセットの内在次元(ID)を推定するアルゴリズムを提案する。
我々は,その精度をベンチマークデータセットで示すとともに,種鑑定のためのメダゲノミクスデータセットの分析に応用する。
このことは、列の空間の高次元性にもかかわらず、蒸発圧が低次元多様体に作用することを示唆している。
論文 参考訳(メタデータ) (2022-07-20T06:38:36Z) - Enhancing cluster analysis via topological manifold learning [0.3823356975862006]
クラスタ化前にデータセットのトポロジ構造を推定することで,クラスタ検出を大幅に向上させることができることを示す。
位相構造を推定するための多様体学習法UMAPと密度に基づくクラスタリング法DBSCANを組み合わせた。
論文 参考訳(メタデータ) (2022-07-01T15:53:39Z) - How I learned to stop worrying and love the curse of dimensionality: an
appraisal of cluster validation in high-dimensional spaces [0.0]
本研究では,一般的なユークリッドノルムに基づくクラスタ指標の感度が,様々な合成データスキームの次元でどのようにスケールするかを検討する。
その結果、指数の圧倒的多数は高次元での感度を改善したり安定させたりしていることがわかった。
論文 参考訳(メタデータ) (2022-01-13T21:17:10Z) - Anomaly Clustering: Grouping Images into Coherent Clusters of Anomaly
Types [60.45942774425782]
我々は異常クラスタリングを導入し、その目標はデータを異常型の一貫性のあるクラスタにまとめることである。
これは異常検出とは違い、その目標は異常を通常のデータから分割することである。
パッチベースの事前訓練されたディープ埋め込みとオフザシェルフクラスタリング手法を用いた,単純で効果的なクラスタリングフレームワークを提案する。
論文 参考訳(メタデータ) (2021-12-21T23:11:33Z) - Tensor Laplacian Regularized Low-Rank Representation for Non-uniformly
Distributed Data Subspace Clustering [2.578242050187029]
低ランク表現(LRR)は、サブスペースクラスタリングにおけるデータポイントの局所性情報を破棄する。
本稿では,隣接ノードの変動数を容易にし,データの局所性情報を組み込むハイパーグラフモデルを提案する。
人工および実データを用いた実験により,提案手法の精度と精度が向上した。
論文 参考訳(メタデータ) (2021-03-06T08:22:24Z) - Decorrelated Clustering with Data Selection Bias [55.91842043124102]
本稿では,データ選択バイアスを伴うクラスタリングのためのデコリレーション正規化K-Meansアルゴリズム(DCKM)を提案する。
DCKMアルゴリズムは,選択バイアスによって生じる予期せぬ特徴相関を除去する必要があることを示す。
論文 参考訳(メタデータ) (2020-06-29T08:55:50Z) - Heteroskedastic and Imbalanced Deep Learning with Adaptive
Regularization [55.278153228758434]
実世界のデータセットはヘテロスケダティックで不均衡である。
ヘテロスケダスティック性と不均衡を同時に扱うことは、未発見である。
本稿ではヘテロスケダスティックデータセットに対するデータ依存正規化手法を提案する。
論文 参考訳(メタデータ) (2020-06-29T01:09:50Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。