論文の概要: SECLEDS: Sequence Clustering in Evolving Data Streams via Multiple
Medoids and Medoid Voting
- arxiv url: http://arxiv.org/abs/2206.12190v1
- Date: Fri, 24 Jun 2022 10:01:39 GMT
- ステータス: 処理完了
- システム内更新日: 2022-06-27 21:07:53.120270
- Title: SECLEDS: Sequence Clustering in Evolving Data Streams via Multiple
Medoids and Medoid Voting
- Title(参考訳): SECLEDS: 複数のメドイドとメドイドによるデータストリームの時系列クラスタリング
- Authors: Azqa Nadeem, Sicco Verwer
- Abstract要約: SECLEDSはk-medoidsアルゴリズムのストリーミング版であり、メモリフットプリントは一定である。
ドリフト、ストリームサイズ、データ次元、クラスタ数に関わらず、安定した高品質のクラスタを生成する。
最大1.08Gbpsのネットワーク帯域幅をサポートすることができる。
- 参考スコア(独自算出の注目度): 13.490583662839725
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Sequence clustering in a streaming environment is challenging because it is
computationally expensive, and the sequences may evolve over time. K-medoids or
Partitioning Around Medoids (PAM) is commonly used to cluster sequences since
it supports alignment-based distances, and the k-centers being actual data
items helps with cluster interpretability. However, offline k-medoids has no
support for concept drift, while also being prohibitively expensive for
clustering data streams. We therefore propose SECLEDS, a streaming variant of
the k-medoids algorithm with constant memory footprint. SECLEDS has two unique
properties: i) it uses multiple medoids per cluster, producing stable
high-quality clusters, and ii) it handles concept drift using an intuitive
Medoid Voting scheme for approximating cluster distances. Unlike existing
adaptive algorithms that create new clusters for new concepts, SECLEDS follows
a fundamentally different approach, where the clusters themselves evolve with
an evolving stream. Using real and synthetic datasets, we empirically
demonstrate that SECLEDS produces high-quality clusters regardless of drift,
stream size, data dimensionality, and number of clusters. We compare against
three popular stream and batch clustering algorithms. The state-of-the-art
BanditPAM is used as an offline benchmark. SECLEDS achieves comparable F1 score
to BanditPAM while reducing the number of required distance computations by
83.7%. Importantly, SECLEDS outperforms all baselines by 138.7% when the stream
contains drift. We also cluster real network traffic, and provide evidence that
SECLEDS can support network bandwidths of up to 1.08 Gbps while using the
(expensive) dynamic time warping distance.
- Abstract(参考訳): ストリーミング環境でのシーケンスクラスタリングは、計算コストが高く、時間とともに進化する可能性があるため、難しい。
K-medoidsまたはPAM(Partitioning Around Medoids)は、アライメントベースの距離をサポートするため、クラスタシーケンスに一般的に使用される。
しかし、オフラインのk-medoidsはコンセプトドリフトをサポートしておらず、データストリームのクラスタリングには極めて高価である。
そこで我々はk-medoidsアルゴリズムのストリーミング版であるSECLEDSを提案する。
SECLEDSには2つの特徴がある。
一 クラスタごとに複数のメドイドを使用し、安定した高品質クラスタを生成し、
二 クラスター距離を近似する直感的なメドロイド投票方式を用いて概念ドリフトを処理すること。
新しい概念のための新しいクラスタを生成する既存の適応アルゴリズムとは異なり、SECLEDSはクラスタ自体が進化するストリームで進化する、根本的に異なるアプローチに従っている。
実データと合成データを用いて, SECLEDSがドリフト, ストリームサイズ, データ次元, クラスタ数に関わらず, 高品質なクラスタを生成することを示す。
一般的なストリームとバッチクラスタリングアルゴリズムを3つ比較する。
最先端のBanditPAMはオフラインベンチマークとして使用される。
SECLEDSはBanditPAMに匹敵するF1スコアを達成し、必要な距離計算数を83.7%削減した。
重要なことに、SECLEDSは流路を含む場合、すべてのベースラインを138.7%上回る。
また、実際のネットワークトラフィックを収集し、(拡張的な)動的時間ゆがみ距離を使いながら、secledsが最大1.08gbpsのネットワーク帯域をサポートできることの証拠を提供する。
関連論文リスト
- Self-Supervised Graph Embedding Clustering [70.36328717683297]
K-means 1-step dimensionality reduction clustering method は,クラスタリングタスクにおける次元性の呪いに対処する上で,いくつかの進歩をもたらした。
本稿では,K-meansに多様体学習を統合する統一フレームワークを提案する。
論文 参考訳(メタデータ) (2024-09-24T08:59:51Z) - Gödel Number based Clustering Algorithm with Decimal First Degree Cellular Automata [0.0]
本稿では,FDCAに基づくクラスタリングアルゴリズムを提案する。
データオブジェクトは、G"odel番号ベースのエンコーディングを使用して十進文字列にエンコードされる。
既存のクラスタリングアルゴリズムと比較して,提案アルゴリズムは性能が向上する。
論文 参考訳(メタデータ) (2024-05-08T08:30:34Z) - Distribution-Based Trajectory Clustering [14.781854651899705]
軌道クラスタリングは、軌道データの共通パターンの発見を可能にする。
距離測定には高い計算コストと低い忠実度という2つの課題がある。
我々は,最近の分散カーネル(IDK)を3つの課題に対処するための主要なツールとして利用することを提案する。
論文 参考訳(メタデータ) (2023-10-08T11:28:34Z) - Reinforcement Graph Clustering with Unknown Cluster Number [91.4861135742095]
本稿では,Reinforcement Graph Clusteringと呼ばれる新しいディープグラフクラスタリング手法を提案する。
提案手法では,クラスタ数決定と教師なし表現学習を統一的なフレームワークに統合する。
フィードバック動作を行うために、クラスタリング指向の報酬関数を提案し、同一クラスタの凝集を高め、異なるクラスタを分離する。
論文 参考訳(メタデータ) (2023-08-13T18:12:28Z) - Hard Regularization to Prevent Deep Online Clustering Collapse without
Data Augmentation [65.268245109828]
オンラインディープクラスタリング(オンラインディープクラスタリング)とは、機能抽出ネットワークとクラスタリングモデルを組み合わせて、クラスタラベルを処理された各新しいデータポイントまたはバッチに割り当てることである。
オフラインメソッドよりも高速で汎用性が高いが、オンラインクラスタリングは、エンコーダがすべての入力を同じポイントにマッピングし、すべてを単一のクラスタに配置する、崩壊したソリューションに容易に到達することができる。
本稿では,データ拡張を必要としない手法を提案する。
論文 参考訳(メタデータ) (2023-03-29T08:23:26Z) - Local Sample-weighted Multiple Kernel Clustering with Consensus
Discriminative Graph [73.68184322526338]
マルチカーネルクラスタリング(MKC)は、ベースカーネルの集合から最適な情報融合を実現するためにコミットされる。
本稿では,新しい局所サンプル重み付きマルチカーネルクラスタリングモデルを提案する。
実験により, LSWMKCはより優れた局所多様体表現を有し, 既存のカーネルやグラフベースのクラスタリングアルゴリズムよりも優れていた。
論文 参考訳(メタデータ) (2022-07-05T05:00:38Z) - A Review and Evaluation of Elastic Distance Functions for Time Series
Clustering [0.0]
9つの一般的な弾性距離測度を記述し,k平均およびkメロイドクラスタリングとの比較を行った。
最も一般的なテクニックである動的時間ワープ(DTW)は、k平均でユークリッド距離よりも悪く、チューニングしても良くない。
我々の結論は、弾性距離測定による時系列のクラスタリングのベンチマークアルゴリズムとして、k-メドイドを用いたMSMを推奨することである。
論文 参考訳(メタデータ) (2022-05-30T15:32:55Z) - Optimal Clustering with Bandit Feedback [57.672609011609886]
本稿では,バンディットフィードバックを用いたオンラインクラスタリングの問題点について考察する。
これは、NPハード重み付きクラスタリング問題をサブルーチンとして解決する必要性を回避するための、シーケンシャルなテストのための新しい停止規則を含む。
合成および実世界のデータセットの広範なシミュレーションを通して、BOCの性能は下界と一致し、非適応的ベースラインアルゴリズムよりも大幅に優れることを示す。
論文 参考訳(メタデータ) (2022-02-09T06:05:05Z) - SOMTimeS: Self Organizing Maps for Time Series Clustering and its
Application to Serious Illness Conversations [3.2689702143620147]
我々はSOMTimeS(TIMEシリーズの自己組織化マップ)と呼ばれるDTWに基づく新しいクラスタリング手法を提案する。
他のDTWベースのクラスタリングアルゴリズムよりも高速で、パフォーマンスも同等です。
我々は,大規模医療コホート研究の一環として収集した自然言語会話データにSOMtimeSを適用した。
論文 参考訳(メタデータ) (2021-08-26T00:18:25Z) - Swarm Intelligence for Self-Organized Clustering [6.85316573653194]
Databionic Swarm(DBS)と呼ばれるSwarmシステムが導入された。
スウォームインテリジェンス、自己組織化、出現の相互関係を利用して、DBSはクラスタリングのタスクにおけるグローバルな目的関数の最適化に対する代替アプローチとして機能する。
論文 参考訳(メタデータ) (2021-06-10T06:21:48Z) - LSD-C: Linearly Separable Deep Clusters [145.89790963544314]
ラベルなしデータセットのクラスタを識別する新しい手法であるLSD-Cを提案する。
本手法は,最近の半教師付き学習の実践からインスピレーションを得て,クラスタリングアルゴリズムと自己教師付き事前学習と強力なデータ拡張を組み合わせることを提案する。
CIFAR 10/100, STL 10, MNIST, および文書分類データセットReuters 10Kなど, 一般的な公開画像ベンチマークにおいて, 当社のアプローチが競合より大幅に優れていたことを示す。
論文 参考訳(メタデータ) (2020-06-17T17:58:10Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。