論文の概要: Automated Clustering of High-dimensional Data with a Feature Weighted
Mean Shift Algorithm
- arxiv url: http://arxiv.org/abs/2012.10929v1
- Date: Sun, 20 Dec 2020 14:00:40 GMT
- ステータス: 処理完了
- システム内更新日: 2021-05-01 04:46:10.477901
- Title: Automated Clustering of High-dimensional Data with a Feature Weighted
Mean Shift Algorithm
- Title(参考訳): 特徴量平均シフトアルゴリズムによる高次元データの自動クラスタリング
- Authors: Saptarshi Chakraborty, Debolina Paul and Swagatam Das
- Abstract要約: 平均シフトは、データポイントを領域内のデータポイントの最高密度を表すモードにシフトする単純なインタラクティブな手順です。
特徴の重要性を効率的に学ぶために、シンプルでエレガントな特徴重み付き平均シフト型を提案します。
その結果得られたアルゴリズムは、従来の平均シフトクラスタリング手順を上回るだけでなく、計算の単純さを保っている。
- 参考スコア(独自算出の注目度): 16.0817847880416
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Mean shift is a simple interactive procedure that gradually shifts data
points towards the mode which denotes the highest density of data points in the
region. Mean shift algorithms have been effectively used for data denoising,
mode seeking, and finding the number of clusters in a dataset in an automated
fashion. However, the merits of mean shift quickly fade away as the data
dimensions increase and only a handful of features contain useful information
about the cluster structure of the data. We propose a simple yet elegant
feature-weighted variant of mean shift to efficiently learn the feature
importance and thus, extending the merits of mean shift to high-dimensional
data. The resulting algorithm not only outperforms the conventional mean shift
clustering procedure but also preserves its computational simplicity. In
addition, the proposed method comes with rigorous theoretical convergence
guarantees and a convergence rate of at least a cubic order. The efficacy of
our proposal is thoroughly assessed through experimental comparison against
baseline and state-of-the-art clustering methods on synthetic as well as
real-world datasets.
- Abstract(参考訳): 平均シフト(Mean shift)は、データポイントを領域内のデータポイントの最も高い密度を示すモードへと徐々にシフトする単純な対話的な手順である。
平均シフトアルゴリズムは、データデノイジング、モード探索、データセット内のクラスタ数の自動検出に効果的に使用されている。
しかし、データ次元が大きくなるにつれて平均シフトの利点は急速に消え、データのクラスタ構造に関する有用な情報を含む特徴はごくわずかである。
本研究では,特徴量の重要性を効率的に学習するために,単純かつエレガントな特徴量シフトの変種を提案し,そのメリットを高次元データに拡張する。
その結果得られたアルゴリズムは、従来の平均シフトクラスタリング手順を上回るだけでなく、計算の単純さを保っている。
さらに,提案手法は,厳密な理論収束保証と少なくとも1立方次収束率を伴っている。
提案手法の有効性は,合成および実世界のデータセットに対するベースライン法と最先端クラスタリング法とを実験的に比較し,徹底的に評価する。
関連論文リスト
- Large-scale Fully-Unsupervised Re-Identification [78.47108158030213]
大規模未ラベルデータから学ぶための2つの戦略を提案する。
第1の戦略は、近傍関係に違反することなく、それぞれのデータセットサイズを減らすために、局所的な近傍サンプリングを行う。
第2の戦略は、低時間上限の複雑さを持ち、メモリの複雑さを O(n2) から O(kn) に k n で還元する新しい再帰的手法を利用する。
論文 参考訳(メタデータ) (2023-07-26T16:19:19Z) - Improved Distribution Matching for Dataset Condensation [91.55972945798531]
本稿では,分布マッチングに基づく新しいデータセット凝縮法を提案する。
提案手法は,計算資源の少ない従来の最適化指向手法よりも優れている。
論文 参考訳(メタデータ) (2023-07-19T04:07:33Z) - Rethinking k-means from manifold learning perspective [122.38667613245151]
平均推定なしで直接データのクラスタを検出する新しいクラスタリングアルゴリズムを提案する。
具体的には,バタワースフィルタを用いてデータ点間の距離行列を構成する。
異なる視点に埋め込まれた相補的な情報をうまく活用するために、テンソルのSchatten p-norm正規化を利用する。
論文 参考訳(メタデータ) (2023-05-12T03:01:41Z) - Influence of Swarm Intelligence in Data Clustering Mechanisms [0.0]
自然にインスパイアされたSwarmベースのアルゴリズムは、データの欠如と一貫性のない大規模なデータセットに対処するために、データクラスタリングに使用される。
本稿では、これらの新しいアプローチの性能を概観し、問題のある状況に最適な方法の比較を行う。
論文 参考訳(メタデータ) (2023-05-07T08:40:50Z) - ExClus: Explainable Clustering on Low-dimensional Data Representations [9.496898312608307]
次元の減少とクラスタリング技術は複雑なデータセットの分析に頻繁に使用されるが、それらの結果は容易には解釈できないことが多い。
本研究では, 直接解釈できない散乱プロット上で, クラスタ構造を解釈する際のユーザ支援について検討する。
本稿では,解釈可能なクラスタリングを自動的に計算する新しい手法を提案し,その説明は元の高次元空間にあり,クラスタリングは低次元射影においてコヒーレントである。
論文 参考訳(メタデータ) (2021-11-04T21:24:01Z) - Riemannian classification of EEG signals with missing values [67.90148548467762]
本稿では脳波の分類に欠落したデータを扱うための2つの方法を提案する。
第1のアプローチでは、インプットされたデータと$k$-nearestの隣人アルゴリズムとの共分散を推定し、第2のアプローチでは、期待最大化アルゴリズム内で観測データの可能性を活用することにより、観測データに依存する。
その結果, 提案手法は観測データに基づく分類よりも優れており, 欠落したデータ比が増大しても高い精度を維持することができることがわかった。
論文 参考訳(メタデータ) (2021-10-19T14:24:50Z) - Sparse PCA via $l_{2,p}$-Norm Regularization for Unsupervised Feature
Selection [138.97647716793333]
再構成誤差を$l_2,p$ノルム正規化と組み合わせることで,単純かつ効率的な特徴選択手法を提案する。
提案する非教師付きモデルを解くための効率的な最適化アルゴリズムを提案し,アルゴリズムの収束と計算の複雑さを理論的に解析する。
論文 参考訳(メタデータ) (2020-12-29T04:08:38Z) - Too Much Information Kills Information: A Clustering Perspective [6.375668163098171]
分散に基づくk-クラスタリングタスクに対して,k-平均クラスタリング(k-means clustering)が広く知られていることを含む,単純かつ斬新なアプローチを提案する。
提案手法は、与えられたデータセットからサンプリングサブセットを選択し、サブセット内のデータ情報のみに基づいて決定する。
ある仮定では、結果のクラスタリングは、高い確率で分散に基づく目的の最適度を推定するのに十分である。
論文 参考訳(メタデータ) (2020-09-16T01:54:26Z) - SDCOR: Scalable Density-based Clustering for Local Outlier Detection in
Massive-Scale Datasets [0.0]
本稿では,大規模データセットにおける局所外乱検出のためのバッチワイド密度に基づくクラスタリング手法を提案する。
実生活および合成データセットの評価は,提案手法の線形時間複雑性が低いことを示す。
論文 参考訳(メタデータ) (2020-06-13T11:07:37Z) - New advances in enumerative biclustering algorithms with online
partitioning [80.22629846165306]
さらに、数値データセットの列に定数値を持つ最大二クラスタの効率的で完全で正しい非冗長列挙を実現できる二クラスタリングアルゴリズムであるRIn-Close_CVCを拡張した。
改良されたアルゴリズムはRIn-Close_CVC3と呼ばれ、RIn-Close_CVCの魅力的な特性を保ちます。
論文 参考訳(メタデータ) (2020-03-07T14:54:26Z) - Autoencoder-based time series clustering with energy applications [0.0]
時系列クラスタリングは、データの特定の性質のため、難しい作業である。
本稿では,畳み込み型オートエンコーダとk-メノイドアルゴリズムの組み合わせによる時系列クラスタリングについて検討する。
論文 参考訳(メタデータ) (2020-02-10T10:04:29Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。