Fugu-MT 論文翻訳(概要): LSROM: Learning Self-Refined Organizing Map for Fast Imbalanced Streaming Data Clustering

論文の概要: LSROM: Learning Self-Refined Organizing Map for Fast Imbalanced Streaming Data Clustering

arxiv url: http://arxiv.org/abs/2404.09243v1
Date: Sun, 14 Apr 2024 13:08:21 GMT
ステータス: 翻訳完了
システム内更新日: 2024-04-16 14:58:08.896354
Title: LSROM: Learning Self-Refined Organizing Map for Fast Imbalanced Streaming Data Clustering
Title（参考訳）: LSROM: 高速不均衡ストリーミングデータクラスタリングのための自己組織化マップ学習
Authors: Yongqi Xu, Yujian Lee, Rong Zou, Yiqun Zhang, Yiu-Ming Cheung,
Abstract要約: 本研究では、不均衡なストリーミングデータクラスタリング問題に対処するため、LSROM(Learning Self-Refined Organizing Map)と呼ばれる効率的な手法を提案する。既存の不均衡なデータクラスタリングアプローチと比較して、LSROMは、非常に競争力のあるクラスタリング精度を達成しつつ、より低い時間複雑性の$O(nlog n)$を持つ。
参考スコア（独自算出の注目度）: 26.893092831949264
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: Streaming data clustering is a popular research topic in the fields of data mining and machine learning. Compared to static data, streaming data, which is usually analyzed in data chunks, is more susceptible to encountering the dynamic cluster imbalanced issue. That is, the imbalanced degree of clusters varies in different streaming data chunks, leading to corruption in either the accuracy or the efficiency of streaming data analysis based on existing clustering methods. Therefore, we propose an efficient approach called Learning Self-Refined Organizing Map (LSROM) to handle the imbalanced streaming data clustering problem, where we propose an advanced SOM for representing the global data distribution. The constructed SOM is first refined for guiding the partition of the dataset to form many micro-clusters to avoid the missing small clusters in imbalanced data. Then an efficient merging of the micro-clusters is conducted through quick retrieval based on the SOM, which can automatically yield a true number of imbalanced clusters. In comparison to existing imbalanced data clustering approaches, LSROM is with a lower time complexity $O(n\log n)$, while achieving very competitive clustering accuracy. Moreover, LSROM is interpretable and insensitive to hyper-parameters. Extensive experiments have verified its efficacy.
Abstract（参考訳）: データクラスタリングは、データマイニングと機械学習の分野で人気のある研究トピックである。静的データと比較すると、通常データチャンクで分析されるストリーミングデータは、動的クラスタの不均衡問題に遭遇する可能性が高い。すなわち、クラスタの不均衡度は、異なるストリーミングデータチャンクによって異なり、既存のクラスタリング手法に基づいたストリーミングデータ解析の正確さと効率のどちらかが劣化する。そこで我々は,不均衡なストリーミングデータクラスタリング問題に対処するため,LSROM(Learning Self-Refined Organizing Map)と呼ばれる効率的な手法を提案する。構築されたSOMは、データセットの分割を誘導して多数のマイクロクラスタを形成し、不均衡なデータの小さなクラスタの欠落を避けるために、最初に洗練されている。次に、SOMに基づく高速検索により、マイクロクラスタの効率的なマージを行い、真の数の不均衡クラスタを自動生成する。既存の不均衡なデータクラスタリングアプローチと比較して、LSROMは、非常に競争力のあるクラスタリング精度を達成しつつ、より低い時間複雑性の$O(n\log n)$を持つ。さらに、LSROMは解釈可能で、ハイパーパラメータには感受性がない。大規模な実験でその効果が確認された。

関連論文リスト

Adaptive and Robust DBSCAN with Multi-agent Reinforcement Learning [53.527506374566485]
本稿では,多エージェント強化学習クラスタフレームワーク,すなわちAR-DBSCANを用いた新しいAdaptive and Robust DBSCANを提案する。我々は、AR-DBSCANが、NMIおよびARIメトリクスの最大144.1%と175.3%のクラスタリング精度を向上するだけでなく、支配的なパラメータを確実に見つけることができることを示した。
論文参考訳（メタデータ） (2025-05-07T11:37:23Z)
Towards Learnable Anchor for Deep Multi-View Clustering [49.767879678193005]
本稿では,線形時間でクラスタリングを行うDeep Multi-view Anchor Clustering (DMAC)モデルを提案する。最適なアンカーを用いて、全サンプルグラフを計算し、クラスタリングのための識別的埋め込みを導出する。いくつかのデータセットの実験では、最先端の競合に比べてDMACの性能と効率が優れていることが示されている。
論文参考訳（メタデータ） (2025-03-16T09:38:11Z)
Graph Probability Aggregation Clustering [5.377020739388736]
本稿では,グローバルクラスタリング対象関数と局所クラスタリング制約を統一するグラフベースのファジィクラスタリングアルゴリズムを提案する。 GPACフレームワーク全体は多制約最適化問題として定式化され、ラグランジアン法を用いて解くことができる。合成,実世界,ディープラーニングのデータセットを用いて行った実験は,GPACがクラスタリング性能において既存の最先端手法を超えるだけでなく,計算効率も優れていることを示した。
論文参考訳（メタデータ） (2025-02-27T09:11:32Z)
Self-Supervised Graph Embedding Clustering [70.36328717683297]
K-means 1-step dimensionality reduction clustering method は,クラスタリングタスクにおける次元性の呪いに対処する上で,いくつかの進歩をもたらした。本稿では,K-meansに多様体学習を統合する統一フレームワークを提案する。
論文参考訳（メタデータ） (2024-09-24T08:59:51Z)
Federated Clustering: An Unsupervised Cluster-Wise Training for Decentralized Data Distributions [1.6385815610837167]
Federated Cluster-Wise Refinement(FedCRef)には、同様のデータ分散を備えたクラスタ上でモデルを協調的にトレーニングするクライアントが含まれている。これらのグループでは、クライアントは、各データ分布を表す共有モデルを共同でトレーニングし、データの関連性を高めるために、ローカルクラスタを継続的に精錬する。この反復的処理により,ネットワーク全体にわたる潜在的なデータ分布を同定し,それぞれにロバストな表現モデルを構築することができる。
論文参考訳（メタデータ） (2024-08-20T09:05:44Z)
Reinforcement Graph Clustering with Unknown Cluster Number [91.4861135742095]
本稿では,Reinforcement Graph Clusteringと呼ばれる新しいディープグラフクラスタリング手法を提案する。提案手法では,クラスタ数決定と教師なし表現学習を統一的なフレームワークに統合する。フィードバック動作を行うために、クラスタリング指向の報酬関数を提案し、同一クラスタの凝集を高め、異なるクラスタを分離する。
論文参考訳（メタデータ） (2023-08-13T18:12:28Z)
Large Language Models Enable Few-Shot Clustering [88.06276828752553]
大規模言語モデルは、クエリ効率が良く、数発のセミ教師付きテキストクラスタリングを可能にするために、専門家のガイダンスを増幅できることを示す。最初の2つのステージにLSMを組み込むことで、クラスタの品質が大幅に向上することがわかった。
論文参考訳（メタデータ） (2023-07-02T09:17:11Z)
Dink-Net: Neural Clustering on Large Graphs [59.10189693120368]
ディープグラフクラスタリング法 (Dink-Net) は, 拡張と縮小という概念を用いて提案される。ノードを識別することにより、拡張によって劣化しても、表現は自己教師された方法で学習される。クラスタリング分布は、提案したクラスタ拡張損失とクラスタ縮小損失を最小化することにより最適化される。ランナアップと比較して、Dink-Net 9.62%は1100万ノードと16億エッジを持つogbn-papers100MデータセットでNMIの改善を実現している。
論文参考訳（メタデータ） (2023-05-28T15:33:24Z)
Hard Regularization to Prevent Deep Online Clustering Collapse without Data Augmentation [65.268245109828]
オンラインディープクラスタリング(オンラインディープクラスタリング)とは、機能抽出ネットワークとクラスタリングモデルを組み合わせて、クラスタラベルを処理された各新しいデータポイントまたはバッチに割り当てることである。オフラインメソッドよりも高速で汎用性が高いが、オンラインクラスタリングは、エンコーダがすべての入力を同じポイントにマッピングし、すべてを単一のクラスタに配置する、崩壊したソリューションに容易に到達することができる。本稿では,データ拡張を必要としない手法を提案する。
論文参考訳（メタデータ） (2023-03-29T08:23:26Z)
Differentially-Private Clustering of Easy Instances [67.04951703461657]
異なるプライベートクラスタリングでは、個々のデータポイントに関する情報を公開せずに、$k$のクラスタセンターを特定することが目標だ。我々は、データが"簡単"である場合にユーティリティを提供する実装可能な差分プライベートクラスタリングアルゴリズムを提供する。我々は、非プライベートクラスタリングアルゴリズムを簡単なインスタンスに適用し、結果をプライベートに組み合わせることのできるフレームワークを提案する。
論文参考訳（メタデータ） (2021-12-29T08:13:56Z)
Meta Clustering Learning for Large-scale Unsupervised Person Re-identification [124.54749810371986]
メタクラスタリング学習(MCL)と呼ばれる「大規模タスクのための小さなデータ」パラダイムを提案する。 MCLは、第1フェーズのトレーニングのためにコンピューティングを節約するためにクラスタリングを介して、未ラベルデータのサブセットを擬似ラベル付けするのみである。提案手法は計算コストを大幅に削減すると同時に,従来よりも優れた性能を実現している。
論文参考訳（メタデータ） (2021-11-19T04:10:18Z)
Learning Statistical Representation with Joint Deep Embedded Clustering [2.1267423178232407]
StatDECは、共同統計表現学習とクラスタリングのための教師なしのフレームワークである。実験により,これらの表現を用いることで,様々な画像データセットにまたがる不均衡な画像クラスタリングの結果を大幅に改善できることが示された。
論文参考訳（メタデータ） (2021-09-11T09:26:52Z)
Neural Mixture Models with Expectation-Maximization for End-to-end Deep Clustering [0.8543753708890495]
本稿では,ニューラルネットワークを用いた混合モデルに基づくクラスタリングを実現する。我々は,Eステップとして前方パス,Mステップとして後方パスを動作させるバッチワイズEMイテレーションにより,ネットワークのエンドツーエンドをトレーニングする。トレーニングされたネットワークは、k-meansに依存した単一ステージのディープクラスタリング手法よりも優れています。
論文参考訳（メタデータ） (2021-07-06T08:00:58Z)
Swarm Intelligence for Self-Organized Clustering [6.85316573653194]
Databionic Swarm(DBS)と呼ばれるSwarmシステムが導入された。スウォームインテリジェンス、自己組織化、出現の相互関係を利用して、DBSはクラスタリングのタスクにおけるグローバルな目的関数の最適化に対する代替アプローチとして機能する。
論文参考訳（メタデータ） (2021-06-10T06:21:48Z)
Very Compact Clusters with Structural Regularization via Similarity and Connectivity [3.779514860341336]
本稿では,汎用データセットのためのエンドツーエンドのディープクラスタリングアルゴリズムであるVery Compact Clusters (VCC)を提案する。提案手法は,最先端のクラスタリング手法よりも優れたクラスタリング性能を実現する。
論文参考訳（メタデータ） (2021-06-09T23:22:03Z)
Efficient Large-Scale Face Clustering Using an Online Mixture of Gaussians [1.3101369903953806]
大規模オンライン顔クラスタリングのためのオンラインガウス混合クラスタリング法(OGMC)を提案する。受信面から抽出された特徴ベクトル(fベクトル)を使用して、OGMCは、その近接性と堅牢性に応じて、他の人と接続できるクラスタを生成します。実験の結果,提案手法は大規模フェースクラスタリングベンチマークにおける最先端のクラスタリング手法を上回っていることがわかった。
論文参考訳（メタデータ） (2021-03-31T17:59:38Z)
A Multiscale Environment for Learning by Diffusion [9.619814126465206]
本稿では,Multiscale Environment for Learning by Diffusion (MELD)データモデルを提案する。本稿では,MELDデータモデルがデータ中の潜在的マルチスケール構造を正確に把握し,解析を容易にすることを示す。多くの実データセットで観測されるマルチスケール構造を効率的に学習するために,教師なし拡散(M-LUND)クラスタリングアルゴリズムを導入する。
論文参考訳（メタデータ） (2021-01-31T17:46:19Z)
Decorrelated Clustering with Data Selection Bias [55.91842043124102]
本稿では,データ選択バイアスを伴うクラスタリングのためのデコリレーション正規化K-Meansアルゴリズム(DCKM)を提案する。 DCKMアルゴリズムは,選択バイアスによって生じる予期せぬ特徴相関を除去する必要があることを示す。
論文参考訳（メタデータ） (2020-06-29T08:55:50Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。