論文の概要: Hierarchical Sparse Representation Clustering for High-Dimensional Data Streams
- arxiv url: http://arxiv.org/abs/2409.04698v1
- Date: Sat, 7 Sep 2024 03:40:55 GMT
- ステータス: 処理完了
- システム内更新日: 2024-09-10 21:14:48.233228
- Title: Hierarchical Sparse Representation Clustering for High-Dimensional Data Streams
- Title(参考訳): 高次元データストリームのための階層的スパース表現クラスタリング
- Authors: Jie Chen, Hua Mao, Yuanbiao Gou, Xi Peng,
- Abstract要約: 本稿では,高次元データストリームをクラスタリングするための階層的スパース表現クラスタリング法を提案する。
いくつかのベンチマークデータセットで得られた実験結果は、HSRCの有効性とロバスト性を示している。
- 参考スコア(独自算出の注目度): 16.228652652243888
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Data stream clustering reveals patterns within continuously arriving, potentially unbounded data sequences. Numerous data stream algorithms have been proposed to cluster data streams. The existing data stream clustering algorithms still face significant challenges when addressing high-dimensional data streams. First, it is intractable to measure the similarities among high-dimensional data objects via Euclidean distances when constructing and merging microclusters. Second, these algorithms are highly sensitive to the noise contained in high-dimensional data streams. In this paper, we propose a hierarchical sparse representation clustering (HSRC) method for clustering high-dimensional data streams. HSRC first employs an $l_1$-minimization technique to learn an affinity matrix for data objects in individual landmark windows with fixed sizes, where the number of neighboring data objects is automatically selected. This approach ensures that highly correlated data samples within clusters are grouped together. Then, HSRC applies a spectral clustering technique to the affinity matrix to generate microclusters. These microclusters are subsequently merged into macroclusters based on their sparse similarity degrees (SSDs). Additionally, HSRC introduces sparsity residual values (SRVs) to adaptively select representative data objects from the current landmark window. These representatives serve as dictionary samples for the next landmark window. Finally, HSRC refines each macrocluster through fine-tuning. In particular, HSRC enables the detection of outliers in high-dimensional data streams via the associated SRVs. The experimental results obtained on several benchmark datasets demonstrate the effectiveness and robustness of HSRC.
- Abstract(参考訳): データストリームクラスタリングは、継続的に到着し、潜在的に非バウンドなデータシーケンス内のパターンを明らかにする。
データストリームのクラスタ化には,多数のデータストリームアルゴリズムが提案されている。
既存のデータストリームクラスタリングアルゴリズムは、高次元のデータストリームに対処する上で、依然として重大な課題に直面している。
まず、マイクロクラスタの構築とマージにおいて、ユークリッド距離を介して高次元データオブジェクト間の類似性を計測することは困難である。
第二に、これらのアルゴリズムは高次元データストリームに含まれるノイズに非常に敏感である。
本稿では,高次元データストリームをクラスタリングするための階層的スパース表現クラスタリング法を提案する。
HSRCはまず$l_1$-minimization技術を用いて、個々のランドマークウィンドウ内のデータオブジェクトに対する親和性行列を固定サイズで学習する。
このアプローチにより、クラスタ内の高相関データサンプルがグループ化されることが保証される。
その後、HSRCはアフィニティマトリックスにスペクトルクラスタリング技術を適用し、マイクロクラスタを生成する。
これらのマイクロクラスタはその後、疎類似度(SSD)に基づいてマクロクラスタにマージされる。
さらにHSRCは、現在のランドマークウィンドウから代表データオブジェクトを適応的に選択するために、スパーシティ残差値(SRV)を導入している。
これらの代表者は次のランドマークウィンドウの辞書サンプルとして機能する。
最後に、HSRCは微調整により各マクロクラスタを洗練する。
特に、HSRCは、関連するSRVを介して高次元データストリームの外れ値を検出することができる。
いくつかのベンチマークデータセットで得られた実験結果は、HSRCの有効性とロバスト性を示している。
関連論文リスト
- DREW : Towards Robust Data Provenance by Leveraging Error-Controlled Watermarking [58.37644304554906]
誤り訂正符号と透かしを用いたデータ検索法(DREW)を提案する。
DREWはランダムに参照データセットをクラスタ化し、各クラスタに独自のエラー制御された透かしキーを注入する。
関連するクラスタを特定した後、最も正確な一致を見つけるために、クラスタ内に埋め込みベクトル類似性検索を行う。
論文 参考訳(メタデータ) (2024-06-05T01:19:44Z) - FLASC: A Flare-Sensitive Clustering Algorithm [0.0]
本稿では,クラスタ内の分岐を検知してサブポピュレーションを同定するアルゴリズムFLASCを提案する。
アルゴリズムの2つの変種が提示され、ノイズの堅牢性に対する計算コストが取引される。
両変種は計算コストの観点からHDBSCAN*と類似してスケールし,安定した出力を提供することを示す。
論文 参考訳(メタデータ) (2023-11-27T14:55:16Z) - Spatio-Temporal Surrogates for Interaction of a Jet with High
Explosives: Part II -- Clustering Extremely High-Dimensional Grid-Based Data [0.0]
本稿では,高爆薬と相互作用するジェット機のシミュレーションから得られた出力データについて考察する。
ランダムなプロジェクションのランダム性と,k平均クラスタリングにおける初期セントロイドの選択を併用して,データセット内のクラスタ数を決定する方法を示す。
論文 参考訳(メタデータ) (2023-07-03T23:36:43Z) - Rethinking k-means from manifold learning perspective [122.38667613245151]
平均推定なしで直接データのクラスタを検出する新しいクラスタリングアルゴリズムを提案する。
具体的には,バタワースフィルタを用いてデータ点間の距離行列を構成する。
異なる視点に埋め込まれた相補的な情報をうまく活用するために、テンソルのSchatten p-norm正規化を利用する。
論文 参考訳(メタデータ) (2023-05-12T03:01:41Z) - DRBM-ClustNet: A Deep Restricted Boltzmann-Kohonen Architecture for Data
Clustering [0.0]
DRBM-ClustNetと呼ばれるデータクラスタリングのためのベイジアンDeep Restricted Boltzmann-Kohonenアーキテクチャを提案する。
ラベルなしデータの処理は、非線形分離可能なデータセットの効率的なクラスタリングのために、3段階に分けて行われる。
このフレームワークはクラスタリングの精度に基づいて評価され、他の最先端クラスタリング手法と比較してランク付けされる。
論文 参考訳(メタデータ) (2022-05-13T15:12:18Z) - Measuring inter-cluster similarities with Alpha Shape TRIangulation in
loCal Subspaces (ASTRICS) facilitates visualization and clustering of
high-dimensional data [0.0]
高次元(HD)データのクラスタリングと可視化は、様々な分野において重要なタスクである。
HDデータをクラスタリングする最も効果的なアルゴリズムは、グラフ内のノードによってデータを表現することに基づいている。
本稿では,HDデータポイントのクラスタ間の類似性を計測するASTRICSという手法を提案する。
論文 参考訳(メタデータ) (2021-07-15T20:51:06Z) - Spatial-Spectral Clustering with Anchor Graph for Hyperspectral Image [88.60285937702304]
本稿では、HSIデータクラスタリングのための空間スペクトルクラスタリングとアンカーグラフ(SSCAG)という新しい非監視アプローチを提案する。
提案されたSSCAGは最先端のアプローチと競合する。
論文 参考訳(メタデータ) (2021-04-24T08:09:27Z) - Determinantal consensus clustering [77.34726150561087]
本稿では,クラスタリングアルゴリズムのランダム再起動における決定点プロセス (DPP) の利用を提案する。
DPPは部分集合内の中心点の多様性を好んでいる。
DPPとは対照的に、この手法は多様性の確保と、すべてのデータフェースについて良好なカバレッジを得るために失敗することを示す。
論文 参考訳(メタデータ) (2021-02-07T23:48:24Z) - SDCOR: Scalable Density-based Clustering for Local Outlier Detection in
Massive-Scale Datasets [0.0]
本稿では,大規模データセットにおける局所外乱検出のためのバッチワイド密度に基づくクラスタリング手法を提案する。
実生活および合成データセットの評価は,提案手法の線形時間複雑性が低いことを示す。
論文 参考訳(メタデータ) (2020-06-13T11:07:37Z) - Stable and consistent density-based clustering via multiparameter
persistence [77.34726150561087]
トポロジカルデータ解析による次数-リップス構成について考察する。
我々は,入力データの摂動に対する安定性を,通信間距離を用いて解析する。
私たちはこれらのメソッドを、Persistableと呼ばれる密度ベースのクラスタリングのためのパイプラインに統合します。
論文 参考訳(メタデータ) (2020-05-18T19:45:04Z) - New advances in enumerative biclustering algorithms with online
partitioning [80.22629846165306]
さらに、数値データセットの列に定数値を持つ最大二クラスタの効率的で完全で正しい非冗長列挙を実現できる二クラスタリングアルゴリズムであるRIn-Close_CVCを拡張した。
改良されたアルゴリズムはRIn-Close_CVC3と呼ばれ、RIn-Close_CVCの魅力的な特性を保ちます。
論文 参考訳(メタデータ) (2020-03-07T14:54:26Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。