論文の概要: Learning Self-Growth Maps for Fast and Accurate Imbalanced Streaming Data Clustering
- arxiv url: http://arxiv.org/abs/2404.09243v2
- Date: Mon, 21 Apr 2025 08:07:50 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-04-30 16:02:17.471552
- Title: Learning Self-Growth Maps for Fast and Accurate Imbalanced Streaming Data Clustering
- Title(参考訳): 高速かつ高精度なストリーミングデータクラスタリングのための自己成長マップの学習
- Authors: Yiqun Zhang, Sen Feng, Pengkai Wang, Zexi Tan, Xiaopeng Luo, Yuzhu Ji, Rong Zou, Yiu-ming Cheung,
- Abstract要約: 自己成長マップ(SGM)は、局所分布に応じてニューロンを必要に応じて自動的に配置することができる。
比較的大きなクラスターを分解するニューロンを結合するために、高速な階層的なマージ戦略。
自己グラフマップ誘導型非平衡データクラスタリング(SOHI)アプローチのための階層的マージは、真の数の不均衡クラスタを迅速に探索することができる。
- 参考スコア(独自算出の注目度): 24.457034584923854
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Streaming data clustering is a popular research topic in data mining and machine learning. Since streaming data is usually analyzed in data chunks, it is more susceptible to encounter the dynamic cluster imbalance issue. That is, the imbalance ratio of clusters changes over time, which can easily lead to fluctuations in either the accuracy or the efficiency of streaming data clustering. Therefore, we propose an accurate and efficient streaming data clustering approach to adapt the drifting and imbalanced cluster distributions. We first design a Self-Growth Map (SGM) that can automatically arrange neurons on demand according to local distribution, and thus achieve fast and incremental adaptation to the streaming distributions. Since SGM allocates an excess number of density-sensitive neurons to describe the global distribution, it can avoid missing small clusters among imbalanced distributions. We also propose a fast hierarchical merging strategy to combine the neurons that break up the relatively large clusters. It exploits the maintained SGM to quickly retrieve the intra-cluster distribution pairs for merging, which circumvents the most laborious global searching. It turns out that the proposed SGM can incrementally adapt to the distributions of new chunks, and the Self-grOwth map-guided Hierarchical merging for Imbalanced data clustering (SOHI) approach can quickly explore a true number of imbalanced clusters. Extensive experiments demonstrate that SOHI can efficiently and accurately explore cluster distributions for streaming data.
- Abstract(参考訳): データクラスタリングは、データマイニングと機械学習において人気のある研究トピックである。
ストリーミングデータは、通常、データチャンクで分析されるため、動的クラスタの不均衡問題に遭遇する可能性がより高い。
すなわち、クラスタの不均衡比は時間とともに変化し、ストリーミングデータクラスタリングの正確さと効率のどちらにおいても容易に変動する。
そこで本研究では,ドリフトと不均衡クラスタ分布に適応するための,高精度かつ効率的なストリーミングデータクラスタリング手法を提案する。
まず、ローカル分布に応じてニューロンをオンデマンドで自動的に配置し、ストリーミング分布への高速かつ漸進的な適応を実現するセルフグロースマップ(SGM)を設計する。
SGMは、大域分布を記述するために過剰な密度感受性ニューロンを割り当てているため、不均衡分布の小さなクラスターが欠落することを避けることができる。
また、比較的大きなクラスターを分解するニューロンを結合する高速な階層的なマージ戦略を提案する。
維持されたSGMを利用して、クラスタ内の分配ペアを迅速に回収し、マージし、最も退屈なグローバルサーチを回避します。
提案したSGMは,新たなチャンクの分布に漸進的に適応できることが判明した。
大規模な実験により、SOHIはストリーミングデータのクラスタ分布を効率的かつ正確に探索できることが示された。
関連論文リスト
- Towards Learnable Anchor for Deep Multi-View Clustering [49.767879678193005]
本稿では,線形時間でクラスタリングを行うDeep Multi-view Anchor Clustering (DMAC)モデルを提案する。
最適なアンカーを用いて、全サンプルグラフを計算し、クラスタリングのための識別的埋め込みを導出する。
いくつかのデータセットの実験では、最先端の競合に比べてDMACの性能と効率が優れていることが示されている。
論文 参考訳(メタデータ) (2025-03-16T09:38:11Z) - Graph Probability Aggregation Clustering [5.377020739388736]
本稿では,グローバルクラスタリング対象関数と局所クラスタリング制約を統一するグラフベースのファジィクラスタリングアルゴリズムを提案する。
GPACフレームワーク全体は多制約最適化問題として定式化され、ラグランジアン法を用いて解くことができる。
合成,実世界,ディープラーニングのデータセットを用いて行った実験は,GPACがクラスタリング性能において既存の最先端手法を超えるだけでなく,計算効率も優れていることを示した。
論文 参考訳(メタデータ) (2025-02-27T09:11:32Z) - Self-Supervised Graph Embedding Clustering [70.36328717683297]
K-means 1-step dimensionality reduction clustering method は,クラスタリングタスクにおける次元性の呪いに対処する上で,いくつかの進歩をもたらした。
本稿では,K-meansに多様体学習を統合する統一フレームワークを提案する。
論文 参考訳(メタデータ) (2024-09-24T08:59:51Z) - Federated Clustering: An Unsupervised Cluster-Wise Training for Decentralized Data Distributions [1.6385815610837167]
Federated Cluster-Wise Refinement(FedCRef)には、同様のデータ分散を備えたクラスタ上でモデルを協調的にトレーニングするクライアントが含まれている。
これらのグループでは、クライアントは、各データ分布を表す共有モデルを共同でトレーニングし、データの関連性を高めるために、ローカルクラスタを継続的に精錬する。
この反復的処理により,ネットワーク全体にわたる潜在的なデータ分布を同定し,それぞれにロバストな表現モデルを構築することができる。
論文 参考訳(メタデータ) (2024-08-20T09:05:44Z) - Reinforcement Graph Clustering with Unknown Cluster Number [91.4861135742095]
本稿では,Reinforcement Graph Clusteringと呼ばれる新しいディープグラフクラスタリング手法を提案する。
提案手法では,クラスタ数決定と教師なし表現学習を統一的なフレームワークに統合する。
フィードバック動作を行うために、クラスタリング指向の報酬関数を提案し、同一クラスタの凝集を高め、異なるクラスタを分離する。
論文 参考訳(メタデータ) (2023-08-13T18:12:28Z) - Large Language Models Enable Few-Shot Clustering [88.06276828752553]
大規模言語モデルは、クエリ効率が良く、数発のセミ教師付きテキストクラスタリングを可能にするために、専門家のガイダンスを増幅できることを示す。
最初の2つのステージにLSMを組み込むことで、クラスタの品質が大幅に向上することがわかった。
論文 参考訳(メタデータ) (2023-07-02T09:17:11Z) - Dink-Net: Neural Clustering on Large Graphs [59.10189693120368]
ディープグラフクラスタリング法 (Dink-Net) は, 拡張と縮小という概念を用いて提案される。
ノードを識別することにより、拡張によって劣化しても、表現は自己教師された方法で学習される。
クラスタリング分布は、提案したクラスタ拡張損失とクラスタ縮小損失を最小化することにより最適化される。
ランナアップと比較して、Dink-Net 9.62%は1100万ノードと16億エッジを持つogbn-papers100MデータセットでNMIの改善を実現している。
論文 参考訳(メタデータ) (2023-05-28T15:33:24Z) - Hard Regularization to Prevent Deep Online Clustering Collapse without
Data Augmentation [65.268245109828]
オンラインディープクラスタリング(オンラインディープクラスタリング)とは、機能抽出ネットワークとクラスタリングモデルを組み合わせて、クラスタラベルを処理された各新しいデータポイントまたはバッチに割り当てることである。
オフラインメソッドよりも高速で汎用性が高いが、オンラインクラスタリングは、エンコーダがすべての入力を同じポイントにマッピングし、すべてを単一のクラスタに配置する、崩壊したソリューションに容易に到達することができる。
本稿では,データ拡張を必要としない手法を提案する。
論文 参考訳(メタデータ) (2023-03-29T08:23:26Z) - Differentially-Private Clustering of Easy Instances [67.04951703461657]
異なるプライベートクラスタリングでは、個々のデータポイントに関する情報を公開せずに、$k$のクラスタセンターを特定することが目標だ。
我々は、データが"簡単"である場合にユーティリティを提供する実装可能な差分プライベートクラスタリングアルゴリズムを提供する。
我々は、非プライベートクラスタリングアルゴリズムを簡単なインスタンスに適用し、結果をプライベートに組み合わせることのできるフレームワークを提案する。
論文 参考訳(メタデータ) (2021-12-29T08:13:56Z) - Meta Clustering Learning for Large-scale Unsupervised Person
Re-identification [124.54749810371986]
メタクラスタリング学習(MCL)と呼ばれる「大規模タスクのための小さなデータ」パラダイムを提案する。
MCLは、第1フェーズのトレーニングのためにコンピューティングを節約するためにクラスタリングを介して、未ラベルデータのサブセットを擬似ラベル付けするのみである。
提案手法は計算コストを大幅に削減すると同時に,従来よりも優れた性能を実現している。
論文 参考訳(メタデータ) (2021-11-19T04:10:18Z) - Learning Statistical Representation with Joint Deep Embedded Clustering [2.1267423178232407]
StatDECは、共同統計表現学習とクラスタリングのための教師なしのフレームワークである。
実験により,これらの表現を用いることで,様々な画像データセットにまたがる不均衡な画像クラスタリングの結果を大幅に改善できることが示された。
論文 参考訳(メタデータ) (2021-09-11T09:26:52Z) - Neural Mixture Models with Expectation-Maximization for End-to-end Deep
Clustering [0.8543753708890495]
本稿では,ニューラルネットワークを用いた混合モデルに基づくクラスタリングを実現する。
我々は,Eステップとして前方パス,Mステップとして後方パスを動作させるバッチワイズEMイテレーションにより,ネットワークのエンドツーエンドをトレーニングする。
トレーニングされたネットワークは、k-meansに依存した単一ステージのディープクラスタリング手法よりも優れています。
論文 参考訳(メタデータ) (2021-07-06T08:00:58Z) - Swarm Intelligence for Self-Organized Clustering [6.85316573653194]
Databionic Swarm(DBS)と呼ばれるSwarmシステムが導入された。
スウォームインテリジェンス、自己組織化、出現の相互関係を利用して、DBSはクラスタリングのタスクにおけるグローバルな目的関数の最適化に対する代替アプローチとして機能する。
論文 参考訳(メタデータ) (2021-06-10T06:21:48Z) - Very Compact Clusters with Structural Regularization via Similarity and
Connectivity [3.779514860341336]
本稿では,汎用データセットのためのエンドツーエンドのディープクラスタリングアルゴリズムであるVery Compact Clusters (VCC)を提案する。
提案手法は,最先端のクラスタリング手法よりも優れたクラスタリング性能を実現する。
論文 参考訳(メタデータ) (2021-06-09T23:22:03Z) - Efficient Large-Scale Face Clustering Using an Online Mixture of
Gaussians [1.3101369903953806]
大規模オンライン顔クラスタリングのためのオンラインガウス混合クラスタリング法(OGMC)を提案する。
受信面から抽出された特徴ベクトル(fベクトル)を使用して、OGMCは、その近接性と堅牢性に応じて、他の人と接続できるクラスタを生成します。
実験の結果,提案手法は大規模フェースクラスタリングベンチマークにおける最先端のクラスタリング手法を上回っていることがわかった。
論文 参考訳(メタデータ) (2021-03-31T17:59:38Z) - A Multiscale Environment for Learning by Diffusion [9.619814126465206]
本稿では,Multiscale Environment for Learning by Diffusion (MELD)データモデルを提案する。
本稿では,MELDデータモデルがデータ中の潜在的マルチスケール構造を正確に把握し,解析を容易にすることを示す。
多くの実データセットで観測されるマルチスケール構造を効率的に学習するために,教師なし拡散(M-LUND)クラスタリングアルゴリズムを導入する。
論文 参考訳(メタデータ) (2021-01-31T17:46:19Z) - Decorrelated Clustering with Data Selection Bias [55.91842043124102]
本稿では,データ選択バイアスを伴うクラスタリングのためのデコリレーション正規化K-Meansアルゴリズム(DCKM)を提案する。
DCKMアルゴリズムは,選択バイアスによって生じる予期せぬ特徴相関を除去する必要があることを示す。
論文 参考訳(メタデータ) (2020-06-29T08:55:50Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。