論文の概要: Efficient Dynamic Clustering: Capturing Patterns fromHistorical Cluster
Evolution
- arxiv url: http://arxiv.org/abs/2203.00812v1
- Date: Wed, 2 Mar 2022 01:10:43 GMT
- ステータス: 処理完了
- システム内更新日: 2022-03-03 15:33:26.188606
- Title: Efficient Dynamic Clustering: Capturing Patterns fromHistorical Cluster
Evolution
- Title(参考訳): 効率的な動的クラスタリング:歴史クラスタの進化からパターンをキャプチャする
- Authors: Binbin Gu, Saeed Kargar, Faisal Nawab
- Abstract要約: クラスタリングは、異常検出、データベースシャーディング、レコードリンクなど、多くのタスクにおいて重要である。
いくつかのクラスタリングメソッドは、データベース内のすべてのオブジェクトをスクラッチからクラスタ化するときに高いオーバーヘッドを発生させるバッチアルゴリズムとして扱われる。
このようなシナリオでは、バッチアルゴリズムの実行は不可能である。
- 参考スコア(独自算出の注目度): 8.220295070012977
- License: http://creativecommons.org/licenses/by-nc-nd/4.0/
- Abstract: Clustering aims to group unlabeled objects based on similarity inherent among
them into clusters. It is important for many tasks such as anomaly detection,
database sharding, record linkage, and others. Some clustering methods are
taken as batch algorithms that incur a high overhead as they cluster all the
objects in the database from scratch or assume an incremental workload. In
practice, database objects are updated, added, and removed from databases
continuously which makes previous results stale. Running batch algorithms is
infeasible in such scenarios as it would incur a significant overhead if
performed continuously. This is particularly the case for high-velocity
scenarios such as ones in Internet of Things applications. In this paper, we
tackle the problem of clustering in high-velocity dynamic scenarios, where the
objects are continuously updated, inserted, and deleted. Specifically, we
propose a generally dynamic approach to clustering that utilizes previous
clustering results. Our system, DynamicC, uses a machine learning model that is
augmented with an existing batch algorithm. The DynamicC model trains by
observing the clustering decisions made by the batch algorithm. After training,
the DynamicC model is usedin cooperation with the batch algorithm to achieve
both accurate and fast clustering decisions. The experimental results on four
real-world and one synthetic datasets show that our approach has a better
performance compared to the state-of-the-art method while achieving similarly
accurate clustering results to the baseline batch algorithm.
- Abstract(参考訳): クラスタリングは、それらに固有の類似性に基づいて、ラベルのないオブジェクトをクラスタにグループ化する。
異常検出、データベースシャーディング、レコードリンクなど、多くのタスクにおいて重要である。
いくつかのクラスタリングメソッドは、スクラッチからデータベース内のすべてのオブジェクトをクラスタリングしたり、インクリメンタルなワークロードを前提として、高いオーバーヘッドを発生させるバッチアルゴリズムとして扱われます。
実際には、データベースオブジェクトは更新され、追加され、データベースから削除されます。
このようなシナリオではバッチアルゴリズムの実行は不可能であり、継続的に実行すると大きなオーバーヘッドが発生する。
これは特にInternet of Thingsアプリケーションのような高速度シナリオではそうである。
本稿では,オブジェクトが継続的に更新され,挿入され,削除される高速動的シナリオにおけるクラスタリングの問題に取り組む。
具体的には、従来のクラスタリング結果を利用したクラスタリングに対する一般的な動的アプローチを提案する。
私たちのシステムであるdynamiccは、既存のバッチアルゴリズムで拡張された機械学習モデルを使用します。
dynamiccモデルは、バッチアルゴリズムによるクラスタリング決定を観察してトレーニングする。
トレーニング後、DynamicCモデルはバッチアルゴリズムと連携して、正確なクラスタリング決定と高速クラスタリング決定の両方を達成する。
4つの実世界と1つの合成データセットにおける実験結果から,ベースラインバッチアルゴリズムと同等に正確なクラスタリング結果を達成しつつ,最先端手法よりも優れた性能を示すことができた。
関連論文リスト
- GBCT: An Efficient and Adaptive Granular-Ball Clustering Algorithm for Complex Data [49.56145012222276]
粒状球クラスタリング(GBCT)と呼ばれる新しいクラスタリングアルゴリズムを提案する。
GBCTは、従来の点関係ではなく、グラニュラーボールの関係に従ってクラスタを形成する。
グラニュラーボールは様々な複雑なデータに適合するので、GBCTは従来のクラスタリング法よりも非球面データセットにおいてはるかに優れている。
論文 参考訳(メタデータ) (2024-10-17T07:32:05Z) - A Weighted K-Center Algorithm for Data Subset Selection [70.49696246526199]
サブセット選択は、トレーニングデータの小さな部分を特定する上で重要な役割を果たす、基本的な問題である。
我々は,k中心および不確かさサンプリング目的関数の重み付け和に基づいて,サブセットを計算する新しい係数3近似アルゴリズムを開発した。
論文 参考訳(メタデータ) (2023-12-17T04:41:07Z) - Reinforcement Graph Clustering with Unknown Cluster Number [91.4861135742095]
本稿では,Reinforcement Graph Clusteringと呼ばれる新しいディープグラフクラスタリング手法を提案する。
提案手法では,クラスタ数決定と教師なし表現学習を統一的なフレームワークに統合する。
フィードバック動作を行うために、クラスタリング指向の報酬関数を提案し、同一クラスタの凝集を高め、異なるクラスタを分離する。
論文 参考訳(メタデータ) (2023-08-13T18:12:28Z) - Instance-Optimal Cluster Recovery in the Labeled Stochastic Block Model [79.46465138631592]
観測されたラベルを用いてクラスタを復元する効率的なアルゴリズムを考案する。
本稿では,期待値と高い確率でこれらの下位境界との性能を一致させる最初のアルゴリズムであるIACを提案する。
論文 参考訳(メタデータ) (2023-06-18T08:46:06Z) - Hard Regularization to Prevent Deep Online Clustering Collapse without
Data Augmentation [65.268245109828]
オンラインディープクラスタリング(オンラインディープクラスタリング)とは、機能抽出ネットワークとクラスタリングモデルを組み合わせて、クラスタラベルを処理された各新しいデータポイントまたはバッチに割り当てることである。
オフラインメソッドよりも高速で汎用性が高いが、オンラインクラスタリングは、エンコーダがすべての入力を同じポイントにマッピングし、すべてを単一のクラスタに配置する、崩壊したソリューションに容易に到達することができる。
本稿では,データ拡張を必要としない手法を提案する。
論文 参考訳(メタデータ) (2023-03-29T08:23:26Z) - K-ARMA Models for Clustering Time Series Data [4.345882429229813]
K-Meansアルゴリズムのモデルベース一般化を用いた時系列データのクラスタリング手法を提案する。
クラスタリングアルゴリズムは,不確実な偏差基準を用いて,アウトレーヤに対して頑健にすることができることを示す。
我々は,時系列クラスタリングタスクにおいて,本手法が既存の手法と競合することを示す実データ実験を行った。
論文 参考訳(メタデータ) (2022-06-30T18:16:11Z) - KnAC: an approach for enhancing cluster analysis with background
knowledge and explanations [0.20999222360659603]
我々はKnAC(Knowledge Augmented Clustering)を紹介します。
KnACは任意のクラスタリングアルゴリズムの拡張として機能し、アプローチを堅牢でモデルに依存しないものにすることができる。
論文 参考訳(メタデータ) (2021-12-16T10:13:47Z) - Meta Clustering Learning for Large-scale Unsupervised Person
Re-identification [124.54749810371986]
メタクラスタリング学習(MCL)と呼ばれる「大規模タスクのための小さなデータ」パラダイムを提案する。
MCLは、第1フェーズのトレーニングのためにコンピューティングを節約するためにクラスタリングを介して、未ラベルデータのサブセットを擬似ラベル付けするのみである。
提案手法は計算コストを大幅に削減すると同時に,従来よりも優れた性能を実現している。
論文 参考訳(メタデータ) (2021-11-19T04:10:18Z) - A Novel Incremental Clustering Technique with Concept Drift Detection [2.790947019327459]
従来の静的クラスタリングアルゴリズムは動的データセットには適していない。
UIClustと呼ばれる効率的なインクリメンタルクラスタリングアルゴリズムを提案する。
我々は、UIClustの性能を、最近発表された高品質なインクリメンタルクラスタリングアルゴリズムと比較することで評価する。
論文 参考訳(メタデータ) (2020-03-30T05:20:35Z) - Autoencoder-based time series clustering with energy applications [0.0]
時系列クラスタリングは、データの特定の性質のため、難しい作業である。
本稿では,畳み込み型オートエンコーダとk-メノイドアルゴリズムの組み合わせによる時系列クラスタリングについて検討する。
論文 参考訳(メタデータ) (2020-02-10T10:04:29Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。