論文の概要: Data Stream Clustering: A Review
- arxiv url: http://arxiv.org/abs/2007.10781v1
- Date: Thu, 16 Jul 2020 20:35:09 GMT
- ステータス: 処理完了
- システム内更新日: 2022-11-09 21:45:41.766417
- Title: Data Stream Clustering: A Review
- Title(参考訳): Data Stream Clustering: レビュー
- Authors: Alaettin Zubaro\u{g}lu and Volkan Atalay
- Abstract要約: クラスタリングはリアルタイムデータストリーム処理に最も適した手法の1つである。
我々は、最近のデータストリームクラスタリングアルゴリズムをレビューし、ベースクラスタリング手法、計算複雑性、クラスタリング精度の観点から分析する。
一般的なデータストリームレポジトリとデータセット、ストリーム処理ツール、プラットフォームを示します。
- 参考スコア(独自算出の注目度): 0.0
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Number of connected devices is steadily increasing and these devices
continuously generate data streams. Real-time processing of data streams is
arousing interest despite many challenges. Clustering is one of the most
suitable methods for real-time data stream processing, because it can be
applied with less prior information about the data and it does not need labeled
instances. However, data stream clustering differs from traditional clustering
in many aspects and it has several challenging issues. Here, we provide
information regarding the concepts and common characteristics of data streams,
such as concept drift, data structures for data streams, time window models and
outlier detection. We comprehensively review recent data stream clustering
algorithms and analyze them in terms of the base clustering technique,
computational complexity and clustering accuracy. A comparison of these
algorithms is given along with still open problems. We indicate popular data
stream repositories and datasets, stream processing tools and platforms. Open
problems about data stream clustering are also discussed.
- Abstract(参考訳): 接続デバイス数は着実に増加しており、これらのデバイスは継続的にデータストリームを生成する。
データストリームのリアルタイム処理は多くの課題にもかかわらず関心を集めている。
クラスタリングは、データに関する事前情報が少なく、ラベル付きインスタンスを必要としないため、リアルタイムデータストリーム処理に最も適した方法の1つである。
しかし、データストリームのクラスタリングは多くの点で従来のクラスタリングと異なり、いくつかの課題がある。
本稿では,概念ドリフト,データストリーム用データ構造,タイムウインドウモデル,異常検出など,データストリームの概念と共通特性に関する情報を提供する。
本稿では,最近のデータストリームクラスタリングアルゴリズムを総括的に検討し,ベースクラスタリング手法,計算複雑性,クラスタリング精度の観点から解析する。
これらのアルゴリズムの比較は、まだ未解決の問題と共に与えられる。
一般的なデータストリームレポジトリとデータセット、ストリーム処理ツール、プラットフォームを示します。
データストリームクラスタリングに関するオープンな問題についても論じる。
関連論文リスト
- DREW : Towards Robust Data Provenance by Leveraging Error-Controlled Watermarking [58.37644304554906]
誤り訂正符号と透かしを用いたデータ検索法(DREW)を提案する。
DREWはランダムに参照データセットをクラスタ化し、各クラスタに独自のエラー制御された透かしキーを注入する。
関連するクラスタを特定した後、最も正確な一致を見つけるために、クラスタ内に埋め込みベクトル類似性検索を行う。
論文 参考訳(メタデータ) (2024-06-05T01:19:44Z) - An Algorithm for Streaming Differentially Private Data [7.726042106665366]
我々は、特に空間データセットに対して計算された、微分プライベートな合成ストリーミングデータ生成のためのアルゴリズムを導出する。
本アルゴリズムの有効性は実世界とシミュレーションデータセットの両方で検証される。
論文 参考訳(メタデータ) (2024-01-26T00:32:31Z) - Contrastive Continual Multi-view Clustering with Filtered Structural
Fusion [57.193645780552565]
ビューが事前に収集されるアプリケーションでは、マルチビュークラスタリングが成功します。
データビューがシーケンシャルに収集されるシナリオ、すなわちリアルタイムデータを見落としている。
いくつかの方法が提案されているが、安定塑性ジレンマに閉じ込められている。
フィルタ構造融合を用いたコントラスト連続多視点クラスタリングを提案する。
論文 参考訳(メタデータ) (2023-09-26T14:18:29Z) - Hard Regularization to Prevent Deep Online Clustering Collapse without
Data Augmentation [65.268245109828]
オンラインディープクラスタリング(オンラインディープクラスタリング)とは、機能抽出ネットワークとクラスタリングモデルを組み合わせて、クラスタラベルを処理された各新しいデータポイントまたはバッチに割り当てることである。
オフラインメソッドよりも高速で汎用性が高いが、オンラインクラスタリングは、エンコーダがすべての入力を同じポイントにマッピングし、すべてを単一のクラスタに配置する、崩壊したソリューションに容易に到達することができる。
本稿では,データ拡張を必要としない手法を提案する。
論文 参考訳(メタデータ) (2023-03-29T08:23:26Z) - DC-BENCH: Dataset Condensation Benchmark [79.18718490863908]
この研究は、データセットの凝縮に関する最初の大規模標準ベンチマークを提供する。
それは、凝縮法の生成可能性と有効性を包括的に反映する一連の評価から成り立っている。
ベンチマークライブラリは、将来の研究とアプリケーションを容易にするためにオープンソース化されている。
論文 参考訳(メタデータ) (2022-07-20T03:54:05Z) - Improved Multi-objective Data Stream Clustering with Time and Memory
Optimization [0.0]
本稿では,新しいデータストリームクラスタリング手法(IMOC-Stream)を提案する。
2つの異なる目的関数を使用して、データの異なる側面をキャプチャする。
実験により, 任意の形状, コンパクト, 分離されたクラスタにデータストリームを分割できることを示す。
論文 参考訳(メタデータ) (2022-01-13T17:05:56Z) - Differentially-Private Clustering of Easy Instances [67.04951703461657]
異なるプライベートクラスタリングでは、個々のデータポイントに関する情報を公開せずに、$k$のクラスタセンターを特定することが目標だ。
我々は、データが"簡単"である場合にユーティリティを提供する実装可能な差分プライベートクラスタリングアルゴリズムを提供する。
我々は、非プライベートクラスタリングアルゴリズムを簡単なインスタンスに適用し、結果をプライベートに組み合わせることのできるフレームワークを提案する。
論文 参考訳(メタデータ) (2021-12-29T08:13:56Z) - A Clustering-based Framework for Classifying Data Streams [0.6524460254566904]
非定常データストリームを扱うクラスタリングベースのデータストリーム分類フレームワークを提案する。
提案手法は,既存手法よりも統計的に優れた性能を示す。
論文 参考訳(メタデータ) (2021-06-22T14:37:52Z) - Scaling-up Distributed Processing of Data Streams for Machine Learning [10.581140430698103]
本稿では,計算・帯域幅制限方式における大規模分散最適化に着目した手法を最近開発した。
i)分散凸問題、(ii)分散主成分分析、(ii)グローバル収束を許容する幾何学的構造に関する非問題である。
論文 参考訳(メタデータ) (2020-05-18T16:28:54Z) - A Novel Incremental Clustering Technique with Concept Drift Detection [2.790947019327459]
従来の静的クラスタリングアルゴリズムは動的データセットには適していない。
UIClustと呼ばれる効率的なインクリメンタルクラスタリングアルゴリズムを提案する。
我々は、UIClustの性能を、最近発表された高品質なインクリメンタルクラスタリングアルゴリズムと比較することで評価する。
論文 参考訳(メタデータ) (2020-03-30T05:20:35Z) - Distributed Learning in the Non-Convex World: From Batch to Streaming
Data, and Beyond [73.03743482037378]
分散学習は、多くの人々が想定する、大規模に接続された世界の重要な方向となっている。
本稿では、スケーラブルな分散処理とリアルタイムデータ計算の4つの重要な要素について論じる。
実践的な問題や今後の研究についても論じる。
論文 参考訳(メタデータ) (2020-01-14T14:11:32Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。