論文の概要: A New Parallel Adaptive Clustering and its Application to Streaming Data
- arxiv url: http://arxiv.org/abs/2104.02680v1
- Date: Tue, 6 Apr 2021 17:18:56 GMT
- ステータス: 処理完了
- システム内更新日: 2021-04-07 14:19:48.492390
- Title: A New Parallel Adaptive Clustering and its Application to Streaming Data
- Title(参考訳): 新しい並列適応クラスタリングとストリーミングデータへの応用
- Authors: Benjamin McLaughlin, Sung Ha Kang
- Abstract要約: 本稿では,適切な数のクラスを同時に選択しながら,自動的にデータを分類する並列適応クラスタリング(pac)アルゴリズムを提案する。
並列スレッドの結果を効率よくクラスタリングする正規化セット mik-means を開発した。
提案手法の性能を特徴付けるための理論的解析と数値実験を行う。
- 参考スコア(独自算出の注目度): 0.0
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: This paper presents a parallel adaptive clustering (PAC) algorithm to
automatically classify data while simultaneously choosing a suitable number of
classes. Clustering is an important tool for data analysis and understanding in
a broad set of areas including data reduction, pattern analysis, and
classification. However, the requirement to specify the number of clusters in
advance and the computational burden associated with clustering large sets of
data persist as challenges in clustering. We propose a new parallel adaptive
clustering (PAC) algorithm that addresses these challenges by adaptively
computing the number of clusters and leveraging the power of parallel
computing. The algorithm clusters disjoint subsets of the data on parallel
computation threads. We develop regularized set \mi{k}-means to efficiently
cluster the results from the parallel threads. A refinement step further
improves the clusters. The PAC algorithm offers the capability to adaptively
cluster data sets which change over time by reusing the information from
previous time steps to decrease computation. We provide theoretical analysis
and numerical experiments to characterize the performance of the method,
validate its properties, and demonstrate the computational efficiency of the
method.
- Abstract(参考訳): 本稿では,適切な数のクラスを同時に選択しながら,自動的にデータを分類する並列適応クラスタリング(pac)アルゴリズムを提案する。
クラスタリングは、データリダクション、パターン分析、分類を含む幅広い領域において、データ分析と理解のための重要なツールである。
しかし,クラスタリングの課題として,事前にクラスタ数を指定すること,大規模なデータセットのクラスタリングに伴う計算負担が継続する。
本稿では,クラスタ数を適応的に計算し,並列コンピューティングのパワーを活用することで,これらの課題に対処する新しい並列適応クラスタリング(PAC)アルゴリズムを提案する。
アルゴリズムは並列計算スレッド上でデータの分離サブセットをクラスタ化する。
並列スレッドの結果を効率的にクラスタリングする正規化集合 \mi{k}-means を開発した。
改良ステップはクラスタをさらに改善する。
PACアルゴリズムは、以前の時間ステップからの情報を再利用して計算を減らし、時間とともに変化するデータセットを適応的にクラスタリングする機能を提供する。
理論的解析と数値実験を行い,提案手法の性能評価を行い,その特性を検証し,提案手法の計算効率を実証する。
関連論文リスト
- A3S: A General Active Clustering Method with Pairwise Constraints [66.74627463101837]
A3Sは、適応クラスタリングアルゴリズムによって得られる初期クラスタ結果に対して、戦略的にアクティブクラスタリングを調整する。
さまざまな実世界のデータセットにわたる広範な実験において、A3Sは、人間のクエリを著しく少なくして、望ましい結果を達成する。
論文 参考訳(メタデータ) (2024-07-14T13:37:03Z) - Spectral Clustering of Categorical and Mixed-type Data via Extra Graph
Nodes [0.0]
本稿では,数値情報と分類情報の両方をスペクトルクラスタリングアルゴリズムに組み込むための,より自然な方法について検討する。
データの属する可能性のある異なるカテゴリに対応する追加ノードの追加を提案し、それが解釈可能なクラスタリング対象関数に繋がることを示す。
この単純なフレームワークは、分類のみのデータに対する線形時間スペクトルクラスタリングアルゴリズムに繋がることを示す。
論文 参考訳(メタデータ) (2024-03-08T20:49:49Z) - Instance-Optimal Cluster Recovery in the Labeled Stochastic Block Model [79.46465138631592]
観測されたラベルを用いてクラスタを復元する効率的なアルゴリズムを考案する。
本稿では,期待値と高い確率でこれらの下位境界との性能を一致させる最初のアルゴリズムであるIACを提案する。
論文 参考訳(メタデータ) (2023-06-18T08:46:06Z) - Very Compact Clusters with Structural Regularization via Similarity and
Connectivity [3.779514860341336]
本稿では,汎用データセットのためのエンドツーエンドのディープクラスタリングアルゴリズムであるVery Compact Clusters (VCC)を提案する。
提案手法は,最先端のクラスタリング手法よりも優れたクラスタリング性能を実現する。
論文 参考訳(メタデータ) (2021-06-09T23:22:03Z) - You Never Cluster Alone [150.94921340034688]
我々は、主流のコントラスト学習パラダイムをクラスタレベルのスキームに拡張し、同じクラスタに属するすべてのデータが統一された表現に寄与する。
分類変数の集合をクラスタ化代入信頼度として定義し、インスタンスレベルの学習トラックとクラスタレベルの学習トラックを関連付ける。
代入変数を再パラメータ化することで、TCCはエンドツーエンドでトレーニングされる。
論文 参考訳(メタデータ) (2021-06-03T14:59:59Z) - Dynamic Clustering in Federated Learning [15.37652170495055]
本稿では,生成型逆ネットワーク型クラスタリング,クラスタキャリブレーション,クラスタ分割という3相データクラスタリングアルゴリズムを提案する。
提案アルゴリズムは,セルラーネットワークハンドオーバを含む予測モデルの性能を43%向上させる。
論文 参考訳(メタデータ) (2020-12-07T15:30:07Z) - Scalable Hierarchical Agglomerative Clustering [65.66407726145619]
既存のスケーラブルな階層的クラスタリング手法は、スピードの質を犠牲にする。
我々は、品質を犠牲にせず、数十億のデータポイントまでスケールする、スケーラブルで集約的な階層的クラスタリング法を提案する。
論文 参考訳(メタデータ) (2020-10-22T15:58:35Z) - New advances in enumerative biclustering algorithms with online
partitioning [80.22629846165306]
さらに、数値データセットの列に定数値を持つ最大二クラスタの効率的で完全で正しい非冗長列挙を実現できる二クラスタリングアルゴリズムであるRIn-Close_CVCを拡張した。
改良されたアルゴリズムはRIn-Close_CVC3と呼ばれ、RIn-Close_CVCの魅力的な特性を保ちます。
論文 参考訳(メタデータ) (2020-03-07T14:54:26Z) - Point-Set Kernel Clustering [11.093960688450602]
本稿では,オブジェクトとオブジェクトの集合との類似性を計算する,ポイントセットカーネルと呼ばれる新しい類似度尺度を提案する。
新たなクラスタリング手法は,大規模データセットを扱えるように,効率的かつ効率的であることを示す。
論文 参考訳(メタデータ) (2020-02-14T00:00:03Z) - Autoencoder-based time series clustering with energy applications [0.0]
時系列クラスタリングは、データの特定の性質のため、難しい作業である。
本稿では,畳み込み型オートエンコーダとk-メノイドアルゴリズムの組み合わせによる時系列クラスタリングについて検討する。
論文 参考訳(メタデータ) (2020-02-10T10:04:29Z) - Optimal Clustering from Noisy Binary Feedback [75.17453757892152]
本稿では,二元的ユーザフィードバックから一組のアイテムをクラスタリングする問題について検討する。
最小クラスタ回復誤差率のアルゴリズムを考案する。
適応選択のために,情報理論的誤差下界の導出にインスパイアされたアルゴリズムを開発する。
論文 参考訳(メタデータ) (2019-10-14T09:18:26Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。