論文の概要: A Novel Incremental Clustering Technique with Concept Drift Detection
- arxiv url: http://arxiv.org/abs/2003.13225v1
- Date: Mon, 30 Mar 2020 05:20:35 GMT
- ステータス: 処理完了
- システム内更新日: 2022-12-18 06:42:25.441782
- Title: A Novel Incremental Clustering Technique with Concept Drift Detection
- Title(参考訳): 概念ドリフト検出を用いた新しいインクリメンタルクラスタリング手法
- Authors: Mitchell D. Woodbright, Md Anisur Rahman, Md Zahidul Islam
- Abstract要約: 従来の静的クラスタリングアルゴリズムは動的データセットには適していない。
UIClustと呼ばれる効率的なインクリメンタルクラスタリングアルゴリズムを提案する。
我々は、UIClustの性能を、最近発表された高品質なインクリメンタルクラスタリングアルゴリズムと比較することで評価する。
- 参考スコア(独自算出の注目度): 2.790947019327459
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Data are being collected from various aspects of life. These data can often
arrive in chunks/batches. Traditional static clustering algorithms are not
suitable for dynamic datasets, i.e., when data arrive in streams of
chunks/batches. If we apply a conventional clustering technique over the
combined dataset, then every time a new batch of data comes, the process can be
slow and wasteful. Moreover, it can be challenging to store the combined
dataset in memory due to its ever-increasing size. As a result, various
incremental clustering techniques have been proposed. These techniques need to
efficiently update the current clustering result whenever a new batch arrives,
to adapt the current clustering result/solution with the latest data. These
techniques also need the ability to detect concept drifts when the clustering
pattern of a new batch is significantly different from older batches.
Sometimes, clustering patterns may drift temporarily in a single batch while
the next batches do not exhibit the drift. Therefore, incremental clustering
techniques need the ability to detect a temporary drift and sustained drift. In
this paper, we propose an efficient incremental clustering algorithm called
UIClust. It is designed to cluster streams of data chunks, even when there are
temporary or sustained concept drifts. We evaluate the performance of UIClust
by comparing it with a recently published, high-quality incremental clustering
algorithm. We use real and synthetic datasets. We compare the results by using
well-known clustering evaluation criteria: entropy, sum of squared errors
(SSE), and execution time. Our results show that UIClust outperforms the
existing technique in all our experiments.
- Abstract(参考訳): データは生命の様々な側面から収集されている。
これらのデータは、しばしばチャンク/バッチで届きます。
従来の静的クラスタリングアルゴリズムは、データがチャンク/バッチストリームに到達したときの動的データセットには適していない。
組み合わせたデータセットに従来のクラスタリング技術を適用すると、新しいデータのバッチが来るたびに、プロセスは遅く、無駄になる可能性がある。
さらに、結合データセットをメモリに格納するのは、そのサイズが増大しているため困難である。
その結果,様々な段階的クラスタリング手法が提案されている。
これらのテクニックは、新しいバッチが到着するたびに現在のクラスタリング結果を効率的に更新し、最新のデータに現在のクラスタリング結果/ソリューションを適用する必要があります。
これらのテクニックには、新しいバッチのクラスタリングパターンが古いバッチと大きく異なる場合に、概念ドリフトを検出する機能も必要となる。
時には、クラスタリングパターンは1回のバッチで一時的にドリフトし、次のバッチはドリフトを見せない。
したがって、漸進的なクラスタリング技術は一時的なドリフトと持続的なドリフトを検出する能力を必要とする。
本稿では,UIClustと呼ばれる効率的なインクリメンタルクラスタリングアルゴリズムを提案する。
一時的なあるいは持続的なコンセプトドリフトがあっても、データチャンクのストリームをクラスタ化するように設計されている。
本稿では,最近公開されたハイクオリティなインクリメンタルクラスタリングアルゴリズムと比較し,uiclustの性能評価を行った。
実際のデータセットと合成データセットを使用します。
本研究では,よく知られたクラスタリング評価基準であるエントロピー,2乗誤差の和(SSE),実行時間を用いて結果を比較する。
以上の結果から,UIClustはすべての実験において既存の技術よりも優れていることがわかった。
関連論文リスト
- GBCT: An Efficient and Adaptive Granular-Ball Clustering Algorithm for Complex Data [49.56145012222276]
粒状球クラスタリング(GBCT)と呼ばれる新しいクラスタリングアルゴリズムを提案する。
GBCTは、従来の点関係ではなく、グラニュラーボールの関係に従ってクラスタを形成する。
グラニュラーボールは様々な複雑なデータに適合するので、GBCTは従来のクラスタリング法よりも非球面データセットにおいてはるかに優れている。
論文 参考訳(メタデータ) (2024-10-17T07:32:05Z) - Dying Clusters Is All You Need -- Deep Clustering With an Unknown Number of Clusters [5.507296054825372]
高次元データで有意義なグループを見つけることは、データマイニングにおいて重要な課題である。
深層クラスタリング手法はこれらの課題において顕著な成果を上げている。
これらのメソッドの多くは、事前にクラスタの数を指定する必要がある。
これは、ラベル付きデータが利用できない場合、クラスタの数は通常不明であるため、大きな制限となる。
これらのアプローチのほとんどは、クラスタリングプロセスから分離されたクラスタの数を見積もっています。
論文 参考訳(メタデータ) (2024-10-12T11:04:10Z) - Reinforcement Graph Clustering with Unknown Cluster Number [91.4861135742095]
本稿では,Reinforcement Graph Clusteringと呼ばれる新しいディープグラフクラスタリング手法を提案する。
提案手法では,クラスタ数決定と教師なし表現学習を統一的なフレームワークに統合する。
フィードバック動作を行うために、クラスタリング指向の報酬関数を提案し、同一クラスタの凝集を高め、異なるクラスタを分離する。
論文 参考訳(メタデータ) (2023-08-13T18:12:28Z) - Instance-Optimal Cluster Recovery in the Labeled Stochastic Block Model [79.46465138631592]
観測されたラベルを用いてクラスタを復元する効率的なアルゴリズムを考案する。
本稿では,期待値と高い確率でこれらの下位境界との性能を一致させる最初のアルゴリズムであるIACを提案する。
論文 参考訳(メタデータ) (2023-06-18T08:46:06Z) - Rethinking k-means from manifold learning perspective [122.38667613245151]
平均推定なしで直接データのクラスタを検出する新しいクラスタリングアルゴリズムを提案する。
具体的には,バタワースフィルタを用いてデータ点間の距離行列を構成する。
異なる視点に埋め込まれた相補的な情報をうまく活用するために、テンソルのSchatten p-norm正規化を利用する。
論文 参考訳(メタデータ) (2023-05-12T03:01:41Z) - Hard Regularization to Prevent Deep Online Clustering Collapse without
Data Augmentation [65.268245109828]
オンラインディープクラスタリング(オンラインディープクラスタリング)とは、機能抽出ネットワークとクラスタリングモデルを組み合わせて、クラスタラベルを処理された各新しいデータポイントまたはバッチに割り当てることである。
オフラインメソッドよりも高速で汎用性が高いが、オンラインクラスタリングは、エンコーダがすべての入力を同じポイントにマッピングし、すべてを単一のクラスタに配置する、崩壊したソリューションに容易に到達することができる。
本稿では,データ拡張を必要としない手法を提案する。
論文 参考訳(メタデータ) (2023-03-29T08:23:26Z) - Efficient Dynamic Clustering: Capturing Patterns fromHistorical Cluster
Evolution [8.220295070012977]
クラスタリングは、異常検出、データベースシャーディング、レコードリンクなど、多くのタスクにおいて重要である。
いくつかのクラスタリングメソッドは、データベース内のすべてのオブジェクトをスクラッチからクラスタ化するときに高いオーバーヘッドを発生させるバッチアルゴリズムとして扱われる。
このようなシナリオでは、バッチアルゴリズムの実行は不可能である。
論文 参考訳(メタデータ) (2022-03-02T01:10:43Z) - Improved Multi-objective Data Stream Clustering with Time and Memory
Optimization [0.0]
本稿では,新しいデータストリームクラスタリング手法(IMOC-Stream)を提案する。
2つの異なる目的関数を使用して、データの異なる側面をキャプチャする。
実験により, 任意の形状, コンパクト, 分離されたクラスタにデータストリームを分割できることを示す。
論文 参考訳(メタデータ) (2022-01-13T17:05:56Z) - Cluster-and-Conquer: A Framework For Time-Series Forecasting [94.63501563413725]
本稿では,高次元時系列データを予測するための3段階フレームワークを提案する。
当社のフレームワークは非常に汎用的で,各ステップで時系列予測やクラスタリングが利用可能です。
単純な線形自己回帰モデルでインスタンス化されると、いくつかのベンチマークデータセットで最先端の結果が得られる。
論文 参考訳(メタデータ) (2021-10-26T20:41:19Z) - Variational Auto Encoder Gradient Clustering [0.0]
近年,ディープニューラルネットワークモデルを用いたクラスタリングが広く研究されている。
本稿では、より良いクラスタリングを実現するために確率関数勾配上昇を使用してデータを処理する方法を検討する。
DBSCANクラスタリングアルゴリズムに基づいて,データに適したクラスタ数を調べるための簡便かつ効果的な方法を提案する。
論文 参考訳(メタデータ) (2021-05-11T08:00:36Z) - Autoencoder-based time series clustering with energy applications [0.0]
時系列クラスタリングは、データの特定の性質のため、難しい作業である。
本稿では,畳み込み型オートエンコーダとk-メノイドアルゴリズムの組み合わせによる時系列クラスタリングについて検討する。
論文 参考訳(メタデータ) (2020-02-10T10:04:29Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。