論文の概要: LSROM: Learning Self-Refined Organizing Map for Fast Imbalanced Streaming Data Clustering
- arxiv url: http://arxiv.org/abs/2404.09243v1
- Date: Sun, 14 Apr 2024 13:08:21 GMT
- ステータス: 処理完了
- システム内更新日: 2024-04-16 14:58:08.896354
- Title: LSROM: Learning Self-Refined Organizing Map for Fast Imbalanced Streaming Data Clustering
- Title(参考訳): LSROM: 高速不均衡ストリーミングデータクラスタリングのための自己組織化マップ学習
- Authors: Yongqi Xu, Yujian Lee, Rong Zou, Yiqun Zhang, Yiu-Ming Cheung,
- Abstract要約: 本研究では、不均衡なストリーミングデータクラスタリング問題に対処するため、LSROM(Learning Self-Refined Organizing Map)と呼ばれる効率的な手法を提案する。
既存の不均衡なデータクラスタリングアプローチと比較して、LSROMは、非常に競争力のあるクラスタリング精度を達成しつつ、より低い時間複雑性の$O(nlog n)$を持つ。
- 参考スコア(独自算出の注目度): 26.893092831949264
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Streaming data clustering is a popular research topic in the fields of data mining and machine learning. Compared to static data, streaming data, which is usually analyzed in data chunks, is more susceptible to encountering the dynamic cluster imbalanced issue. That is, the imbalanced degree of clusters varies in different streaming data chunks, leading to corruption in either the accuracy or the efficiency of streaming data analysis based on existing clustering methods. Therefore, we propose an efficient approach called Learning Self-Refined Organizing Map (LSROM) to handle the imbalanced streaming data clustering problem, where we propose an advanced SOM for representing the global data distribution. The constructed SOM is first refined for guiding the partition of the dataset to form many micro-clusters to avoid the missing small clusters in imbalanced data. Then an efficient merging of the micro-clusters is conducted through quick retrieval based on the SOM, which can automatically yield a true number of imbalanced clusters. In comparison to existing imbalanced data clustering approaches, LSROM is with a lower time complexity $O(n\log n)$, while achieving very competitive clustering accuracy. Moreover, LSROM is interpretable and insensitive to hyper-parameters. Extensive experiments have verified its efficacy.
- Abstract(参考訳): データクラスタリングは、データマイニングと機械学習の分野で人気のある研究トピックである。
静的データと比較すると、通常データチャンクで分析されるストリーミングデータは、動的クラスタの不均衡問題に遭遇する可能性が高い。
すなわち、クラスタの不均衡度は、異なるストリーミングデータチャンクによって異なり、既存のクラスタリング手法に基づいたストリーミングデータ解析の正確さと効率のどちらかが劣化する。
そこで我々は,不均衡なストリーミングデータクラスタリング問題に対処するため,LSROM(Learning Self-Refined Organizing Map)と呼ばれる効率的な手法を提案する。
構築されたSOMは、データセットの分割を誘導して多数のマイクロクラスタを形成し、不均衡なデータの小さなクラスタの欠落を避けるために、最初に洗練されている。
次に、SOMに基づく高速検索により、マイクロクラスタの効率的なマージを行い、真の数の不均衡クラスタを自動生成する。
既存の不均衡なデータクラスタリングアプローチと比較して、LSROMは、非常に競争力のあるクラスタリング精度を達成しつつ、より低い時間複雑性の$O(n\log n)$を持つ。
さらに、LSROMは解釈可能で、ハイパーパラメータには感受性がない。
大規模な実験でその効果が確認された。
関連論文リスト
- Self-Supervised Graph Embedding Clustering [70.36328717683297]
K-means 1-step dimensionality reduction clustering method は,クラスタリングタスクにおける次元性の呪いに対処する上で,いくつかの進歩をもたらした。
本稿では,K-meansに多様体学習を統合する統一フレームワークを提案する。
論文 参考訳(メタデータ) (2024-09-24T08:59:51Z) - Large Language Models Enable Few-Shot Clustering [88.06276828752553]
大規模言語モデルは、クエリ効率が良く、数発のセミ教師付きテキストクラスタリングを可能にするために、専門家のガイダンスを増幅できることを示す。
最初の2つのステージにLSMを組み込むことで、クラスタの品質が大幅に向上することがわかった。
論文 参考訳(メタデータ) (2023-07-02T09:17:11Z) - Hard Regularization to Prevent Deep Online Clustering Collapse without
Data Augmentation [65.268245109828]
オンラインディープクラスタリング(オンラインディープクラスタリング)とは、機能抽出ネットワークとクラスタリングモデルを組み合わせて、クラスタラベルを処理された各新しいデータポイントまたはバッチに割り当てることである。
オフラインメソッドよりも高速で汎用性が高いが、オンラインクラスタリングは、エンコーダがすべての入力を同じポイントにマッピングし、すべてを単一のクラスタに配置する、崩壊したソリューションに容易に到達することができる。
本稿では,データ拡張を必要としない手法を提案する。
論文 参考訳(メタデータ) (2023-03-29T08:23:26Z) - Differentially-Private Clustering of Easy Instances [67.04951703461657]
異なるプライベートクラスタリングでは、個々のデータポイントに関する情報を公開せずに、$k$のクラスタセンターを特定することが目標だ。
我々は、データが"簡単"である場合にユーティリティを提供する実装可能な差分プライベートクラスタリングアルゴリズムを提供する。
我々は、非プライベートクラスタリングアルゴリズムを簡単なインスタンスに適用し、結果をプライベートに組み合わせることのできるフレームワークを提案する。
論文 参考訳(メタデータ) (2021-12-29T08:13:56Z) - Meta Clustering Learning for Large-scale Unsupervised Person
Re-identification [124.54749810371986]
メタクラスタリング学習(MCL)と呼ばれる「大規模タスクのための小さなデータ」パラダイムを提案する。
MCLは、第1フェーズのトレーニングのためにコンピューティングを節約するためにクラスタリングを介して、未ラベルデータのサブセットを擬似ラベル付けするのみである。
提案手法は計算コストを大幅に削減すると同時に,従来よりも優れた性能を実現している。
論文 参考訳(メタデータ) (2021-11-19T04:10:18Z) - Learning Statistical Representation with Joint Deep Embedded Clustering [2.1267423178232407]
StatDECは、共同統計表現学習とクラスタリングのための教師なしのフレームワークである。
実験により,これらの表現を用いることで,様々な画像データセットにまたがる不均衡な画像クラスタリングの結果を大幅に改善できることが示された。
論文 参考訳(メタデータ) (2021-09-11T09:26:52Z) - Neural Mixture Models with Expectation-Maximization for End-to-end Deep
Clustering [0.8543753708890495]
本稿では,ニューラルネットワークを用いた混合モデルに基づくクラスタリングを実現する。
我々は,Eステップとして前方パス,Mステップとして後方パスを動作させるバッチワイズEMイテレーションにより,ネットワークのエンドツーエンドをトレーニングする。
トレーニングされたネットワークは、k-meansに依存した単一ステージのディープクラスタリング手法よりも優れています。
論文 参考訳(メタデータ) (2021-07-06T08:00:58Z) - Swarm Intelligence for Self-Organized Clustering [6.85316573653194]
Databionic Swarm(DBS)と呼ばれるSwarmシステムが導入された。
スウォームインテリジェンス、自己組織化、出現の相互関係を利用して、DBSはクラスタリングのタスクにおけるグローバルな目的関数の最適化に対する代替アプローチとして機能する。
論文 参考訳(メタデータ) (2021-06-10T06:21:48Z) - Very Compact Clusters with Structural Regularization via Similarity and
Connectivity [3.779514860341336]
本稿では,汎用データセットのためのエンドツーエンドのディープクラスタリングアルゴリズムであるVery Compact Clusters (VCC)を提案する。
提案手法は,最先端のクラスタリング手法よりも優れたクラスタリング性能を実現する。
論文 参考訳(メタデータ) (2021-06-09T23:22:03Z) - A Multiscale Environment for Learning by Diffusion [9.619814126465206]
本稿では,Multiscale Environment for Learning by Diffusion (MELD)データモデルを提案する。
本稿では,MELDデータモデルがデータ中の潜在的マルチスケール構造を正確に把握し,解析を容易にすることを示す。
多くの実データセットで観測されるマルチスケール構造を効率的に学習するために,教師なし拡散(M-LUND)クラスタリングアルゴリズムを導入する。
論文 参考訳(メタデータ) (2021-01-31T17:46:19Z) - Decorrelated Clustering with Data Selection Bias [55.91842043124102]
本稿では,データ選択バイアスを伴うクラスタリングのためのデコリレーション正規化K-Meansアルゴリズム(DCKM)を提案する。
DCKMアルゴリズムは,選択バイアスによって生じる予期せぬ特徴相関を除去する必要があることを示す。
論文 参考訳(メタデータ) (2020-06-29T08:55:50Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。