論文の概要: A Clustering-based Framework for Classifying Data Streams
- arxiv url: http://arxiv.org/abs/2106.11823v1
- Date: Tue, 22 Jun 2021 14:37:52 GMT
- ステータス: 処理完了
- システム内更新日: 2021-06-23 15:13:47.942977
- Title: A Clustering-based Framework for Classifying Data Streams
- Title(参考訳): データストリームを分類するクラスタリングベースのフレームワーク
- Authors: Xuyang Yan, Abdollah Homaifar, Mrinmoy Sarkar, Abenezer Girma, and
Edward Tunstel
- Abstract要約: 非定常データストリームを扱うクラスタリングベースのデータストリーム分類フレームワークを提案する。
提案手法は,既存手法よりも統計的に優れた性能を示す。
- 参考スコア(独自算出の注目度): 0.6524460254566904
- License: http://creativecommons.org/licenses/by-nc-nd/4.0/
- Abstract: The non-stationary nature of data streams strongly challenges traditional
machine learning techniques. Although some solutions have been proposed to
extend traditional machine learning techniques for handling data streams, these
approaches either require an initial label set or rely on specialized design
parameters. The overlap among classes and the labeling of data streams
constitute other major challenges for classifying data streams. In this paper,
we proposed a clustering-based data stream classification framework to handle
non-stationary data streams without utilizing an initial label set. A
density-based stream clustering procedure is used to capture novel concepts
with a dynamic threshold and an effective active label querying strategy is
introduced to continuously learn the new concepts from the data streams. The
sub-cluster structure of each cluster is explored to handle the overlap among
classes. Experimental results and quantitative comparison studies reveal that
the proposed method provides statistically better or comparable performance
than the existing methods.
- Abstract(参考訳): データストリームの非定常性は、従来の機械学習技術に強く挑戦する。
データストリームを扱う従来の機械学習技術を拡張するためにいくつかのソリューションが提案されているが、これらのアプローチは初期ラベルセットを必要とするか、特別な設計パラメータに依存する。
クラス間の重複とデータストリームのラベル付けは、データストリームを分類する上で他の大きな課題となる。
本稿では,初期ラベルセットを使わずに非定常データストリームを処理するクラスタリングベースのデータストリーム分類フレームワークを提案する。
密度に基づくストリームクラスタリング手法を用いて動的しきい値で新しい概念をキャプチャし、データストリームから新しい概念を継続的に学習するための効果的なアクティブラベルクエリ戦略を導入する。
各クラスタのサブクラスタ構造は、クラス間の重複を処理するために探索される。
実験結果と定量的比較実験により,提案手法は既存手法よりも統計的に優れた性能,あるいは同等な性能を示すことが示された。
関連論文リスト
- A Deterministic Information Bottleneck Method for Clustering Mixed-Type Data [0.0]
混合型データ,すなわち連続変数と分類変数の両方からなるデータをクラスタリングするための情報理論手法を提案する。
この方法は決定論的情報ボトルネックアルゴリズムの変種であり、基盤構造に関する関連情報を保持しながらデータを最適に圧縮する。
論文 参考訳(メタデータ) (2024-07-03T09:06:19Z) - Generalized Category Discovery with Clustering Assignment Consistency [56.92546133591019]
一般化圏発見(GCD)は、最近提案されたオープンワールドタスクである。
クラスタリングの一貫性を促進するための協調学習ベースのフレームワークを提案する。
提案手法は,3つの総合的なベンチマークと3つのきめ細かい視覚認識データセット上での最先端性能を実現する。
論文 参考訳(メタデータ) (2023-10-30T00:32:47Z) - Dynamic Conceptional Contrastive Learning for Generalized Category
Discovery [76.82327473338734]
Generalized category discovery (GCD) は、部分的にラベル付けされたデータを自動でクラスタリングすることを目的としている。
ラベル付きデータには、ラベル付きデータの既知のカテゴリだけでなく、新しいカテゴリのインスタンスも含まれている。
GCDの効果的な方法の1つは、ラベルなしデータの識別表現を学習するために自己教師付き学習を適用することである。
本稿では,クラスタリングの精度を効果的に向上する動的概念コントラスト学習フレームワークを提案する。
論文 参考訳(メタデータ) (2023-03-30T14:04:39Z) - Hard Regularization to Prevent Deep Online Clustering Collapse without
Data Augmentation [65.268245109828]
オンラインディープクラスタリング(オンラインディープクラスタリング)とは、機能抽出ネットワークとクラスタリングモデルを組み合わせて、クラスタラベルを処理された各新しいデータポイントまたはバッチに割り当てることである。
オフラインメソッドよりも高速で汎用性が高いが、オンラインクラスタリングは、エンコーダがすべての入力を同じポイントにマッピングし、すべてを単一のクラスタに配置する、崩壊したソリューションに容易に到達することができる。
本稿では,データ拡張を必要としない手法を提案する。
論文 参考訳(メタデータ) (2023-03-29T08:23:26Z) - Exploiting Diversity of Unlabeled Data for Label-Efficient
Semi-Supervised Active Learning [57.436224561482966]
アクティブラーニング(英: Active Learning)は、ラベリングのための最も重要なサンプルを選択することで、高価なラベリングの問題に対処する研究分野である。
アクティブな学習環境における初期ラベル付けのための最も情報性の高いサンプル群を選択するために,多様性に基づく新しい初期データセット選択アルゴリズムを提案する。
また、一貫性に基づく埋め込みの多様性に基づくサンプリングを用いた、新しいアクティブな学習クエリ戦略を提案する。
論文 参考訳(メタデータ) (2022-07-25T16:11:55Z) - DC-BENCH: Dataset Condensation Benchmark [79.18718490863908]
この研究は、データセットの凝縮に関する最初の大規模標準ベンチマークを提供する。
それは、凝縮法の生成可能性と有効性を包括的に反映する一連の評価から成り立っている。
ベンチマークライブラリは、将来の研究とアプリケーションを容易にするためにオープンソース化されている。
論文 参考訳(メタデータ) (2022-07-20T03:54:05Z) - Active Weighted Aging Ensemble for Drifted Data Stream Classification [2.277447144331876]
概念ドリフトは分類モデルの性能を不安定化し、その品質を著しく低下させる。
提案手法は実データストリームと実データストリームの両方を用いて計算機実験により評価されている。
その結果,提案アルゴリズムは最先端手法よりも高品質であることが確認された。
論文 参考訳(メタデータ) (2021-12-19T13:52:53Z) - Graph Contrastive Clustering [131.67881457114316]
本稿では,クラスタリングタスクに適用可能な新しいグラフコントラスト学習フレームワークを提案し,gcc(graph constrastive clustering)法を考案した。
特に、グラフラプラシアンに基づくコントラスト損失は、より識別的かつクラスタリングフレンドリーな特徴を学ぶために提案されている。
一方で、よりコンパクトなクラスタリング割り当てを学ぶために、グラフベースのコントラスト学習戦略が提案されている。
論文 参考訳(メタデータ) (2021-04-03T15:32:49Z) - Event-Driven News Stream Clustering using Entity-Aware Contextual
Embeddings [14.225334321146779]
本稿では,非パラメトリックストリーミングk-meansアルゴリズムの変種であるオンラインニュースストリームクラスタリング手法を提案する。
我々のモデルはスパースと密集した文書表現の組み合わせを使用し、これらの複数の表現に沿って文書とクラスタの類似性を集約する。
事前学習したトランスフォーマモデルにおいて,適切な微調整目標と外部知識を用いることにより,文脈埋め込みの有効性が大幅に向上することを示す。
論文 参考訳(メタデータ) (2021-01-26T19:58:30Z) - GuCNet: A Guided Clustering-based Network for Improved Classification [15.747227188672088]
本稿では,既存の有分別データセットの分類容易性を活用した,新しい,かつ非常に単純な分類手法を提案する。
実験データセットとのセマンティックな関係を持たないかもしれないガイドデータセットは、提案されたネットワークは、課題データセットのクラスワイドな特徴をガイドセットの異なるクラスタに埋め込もうとする。
論文 参考訳(メタデータ) (2020-10-11T10:22:03Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。