論文の概要: TNStream: Applying Tightest Neighbors to Micro-Clusters to Define Multi-Density Clusters in Streaming Data
- arxiv url: http://arxiv.org/abs/2505.00359v1
- Date: Thu, 01 May 2025 07:15:20 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-05-02 19:15:55.255426
- Title: TNStream: Applying Tightest Neighbors to Micro-Clusters to Define Multi-Density Clusters in Streaming Data
- Title(参考訳): TNStream: マルチ密度クラスタをストリームデータで定義するために、最も近い隣人をマイクロクラスタに適用する
- Authors: Qifen Zeng, Haomin Bao, Yuanzhuo Hu, Zirui Zhang, Yuheng Zheng, Luosheng Wen,
- Abstract要約: 本稿では,Tightest Neighbors の概念に基づくクラスタリングアルゴリズムを提案し,Skeleton Set に基づくデータストリームクラスタリング理論を提案する。
これらの理論に基づいて,完全オンラインアルゴリズムであるTNStreamを開発した。
実験により,マルチ密度データのクラスタリング品質向上効果と,提案したデータストリームクラスタリング理論の有効性が示された。
- 参考スコア(独自算出の注目度): 1.2016321065590192
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: In data stream clustering, systematic theory of stream clustering algorithms remains relatively scarce. Recently, density-based methods have gained attention. However, existing algorithms struggle to simultaneously handle arbitrarily shaped, multi-density, high-dimensional data while maintaining strong outlier resistance. Clustering quality significantly deteriorates when data density varies complexly. This paper proposes a clustering algorithm based on the novel concept of Tightest Neighbors and introduces a data stream clustering theory based on the Skeleton Set. Based on these theories, this paper develops a new method, TNStream, a fully online algorithm. The algorithm adaptively determines the clustering radius based on local similarity, summarizing the evolution of multi-density data streams in micro-clusters. It then applies a Tightest Neighbors-based clustering algorithm to form final clusters. To improve efficiency in high-dimensional cases, Locality-Sensitive Hashing (LSH) is employed to structure micro-clusters, addressing the challenge of storing k-nearest neighbors. TNStream is evaluated on various synthetic and real-world datasets using different clustering metrics. Experimental results demonstrate its effectiveness in improving clustering quality for multi-density data and validate the proposed data stream clustering theory.
- Abstract(参考訳): データストリームクラスタリングでは、ストリームクラスタリングアルゴリズムの体系的理論は比較的少ないままである。
近年,密度に基づく手法が注目されている。
しかし、既存のアルゴリズムは、強い外れ値抵抗を維持しながら、任意の形状、多密度、高次元データを同時に扱うのに苦労している。
データ密度が複雑に変化すると、クラスタリングの品質は著しく低下する。
本稿では,Tightest Neighbors の概念に基づくクラスタリングアルゴリズムを提案し,Skeleton Set に基づくデータストリームクラスタリング理論を提案する。
これらの理論に基づいて,完全オンラインアルゴリズムであるTNStreamを開発した。
アルゴリズムは局所的な類似性に基づいてクラスタリング半径を適応的に決定し、マイクロクラスタ内のマルチ密度データストリームの進化を要約する。
次に、Tightest Neighborsベースのクラスタリングアルゴリズムを適用して、最終的なクラスタを形成する。
高次元の場合の効率向上のために、局所性感性ハッシュ(LSH)がマイクロクラスタの構築に使われ、k-アネレスト近傍の保存の課題に対処している。
TNStreamは、さまざまなクラスタリングメトリクスを使用して、さまざまな合成および実世界のデータセットで評価される。
実験により,マルチ密度データのクラスタリング品質向上効果と,提案したデータストリームクラスタリング理論の有効性が示された。
関連論文リスト
- Village-Net Clustering: A Rapid approach to Non-linear Unsupervised Clustering of High-Dimensional Data [0.0]
教師なしクラスタリングアルゴリズム「Village-Net」を開発した。
まず、K-Meansクラスタリングを利用して、データセットを別個のサブセットに分割する。
我々は,既存の実世界のデータセットに対して,その競合性能を示すために,既知の地下構造ラベルを用いた広範なベンチマークを行う。
論文 参考訳(メタデータ) (2025-01-16T06:56:43Z) - Self-Supervised Graph Embedding Clustering [70.36328717683297]
K-means 1-step dimensionality reduction clustering method は,クラスタリングタスクにおける次元性の呪いに対処する上で,いくつかの進歩をもたらした。
本稿では,K-meansに多様体学習を統合する統一フレームワークを提案する。
論文 参考訳(メタデータ) (2024-09-24T08:59:51Z) - Fuzzy K-Means Clustering without Cluster Centroids [21.256564324236333]
ファジィK平均クラスタリングは教師なしデータ分析において重要な手法である。
本稿では,クラスタセントロイドへの依存を完全に排除する,ファジィテクストK-Meansクラスタリングアルゴリズムを提案する。
論文 参考訳(メタデータ) (2024-04-07T12:25:03Z) - SDC-HSDD-NDSA: Structure Detecting Cluster by Hierarchical Secondary Directed Differential with Normalized Density and Self-Adaption [0.0]
密度ベースのクラスタリングは最も人気のあるクラスタリングアルゴリズムである。
低密度領域で分離される限り、任意の形状のクラスターを識別することができる。
しかし、低密度領域で分離されていない高密度領域は、複数のクラスタに属する異なる構造を持つ可能性がある。
本稿では,この問題に対処する新しい密度クラスタリング手法を提案する。
論文 参考訳(メタデータ) (2023-07-02T22:30:08Z) - Rethinking k-means from manifold learning perspective [122.38667613245151]
平均推定なしで直接データのクラスタを検出する新しいクラスタリングアルゴリズムを提案する。
具体的には,バタワースフィルタを用いてデータ点間の距離行列を構成する。
異なる視点に埋め込まれた相補的な情報をうまく活用するために、テンソルのSchatten p-norm正規化を利用する。
論文 参考訳(メタデータ) (2023-05-12T03:01:41Z) - Hard Regularization to Prevent Deep Online Clustering Collapse without
Data Augmentation [65.268245109828]
オンラインディープクラスタリング(オンラインディープクラスタリング)とは、機能抽出ネットワークとクラスタリングモデルを組み合わせて、クラスタラベルを処理された各新しいデータポイントまたはバッチに割り当てることである。
オフラインメソッドよりも高速で汎用性が高いが、オンラインクラスタリングは、エンコーダがすべての入力を同じポイントにマッピングし、すべてを単一のクラスタに配置する、崩壊したソリューションに容易に到達することができる。
本稿では,データ拡張を必要としない手法を提案する。
論文 参考訳(メタデータ) (2023-03-29T08:23:26Z) - Local Sample-weighted Multiple Kernel Clustering with Consensus
Discriminative Graph [73.68184322526338]
マルチカーネルクラスタリング(MKC)は、ベースカーネルの集合から最適な情報融合を実現するためにコミットされる。
本稿では,新しい局所サンプル重み付きマルチカーネルクラスタリングモデルを提案する。
実験により, LSWMKCはより優れた局所多様体表現を有し, 既存のカーネルやグラフベースのクラスタリングアルゴリズムよりも優れていた。
論文 参考訳(メタデータ) (2022-07-05T05:00:38Z) - Very Compact Clusters with Structural Regularization via Similarity and
Connectivity [3.779514860341336]
本稿では,汎用データセットのためのエンドツーエンドのディープクラスタリングアルゴリズムであるVery Compact Clusters (VCC)を提案する。
提案手法は,最先端のクラスタリング手法よりも優れたクラスタリング性能を実現する。
論文 参考訳(メタデータ) (2021-06-09T23:22:03Z) - Unsupervised Clustered Federated Learning in Complex Multi-source
Acoustic Environments [75.8001929811943]
現実的で挑戦的なマルチソース・マルチルーム音響環境を導入する。
本稿では,音響シーンの変動を考慮したクラスタリング制御手法を提案する。
提案手法はクラスタリングに基づく測度を用いて最適化され,ネットワークワイド分類タスクによって検証される。
論文 参考訳(メタデータ) (2021-06-07T14:51:39Z) - Scalable Hierarchical Agglomerative Clustering [65.66407726145619]
既存のスケーラブルな階層的クラスタリング手法は、スピードの質を犠牲にする。
我々は、品質を犠牲にせず、数十億のデータポイントまでスケールする、スケーラブルで集約的な階層的クラスタリング法を提案する。
論文 参考訳(メタデータ) (2020-10-22T15:58:35Z) - Improving k-Means Clustering Performance with Disentangled Internal
Representations [0.0]
本稿では,オートエンコーダの学習遅延符号表現の絡み合いを最適化する,シンプルなアプローチを提案する。
提案手法を用いて,MNISTデータセットでは96.2%,Fashion-MNISTデータセットでは85.6%,EMNIST Balancedデータセットでは79.2%,ベースラインモデルでは79.2%であった。
論文 参考訳(メタデータ) (2020-06-05T11:32:34Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。