論文の概要: SMOClust: Synthetic Minority Oversampling based on Stream Clustering for
Evolving Data Streams
- arxiv url: http://arxiv.org/abs/2308.14845v1
- Date: Mon, 28 Aug 2023 19:06:03 GMT
- ステータス: 処理完了
- システム内更新日: 2023-08-30 16:59:51.559901
- Title: SMOClust: Synthetic Minority Oversampling based on Stream Clustering for
Evolving Data Streams
- Title(参考訳): SMOClust: 進化するデータストリームのためのストリームクラスタリングに基づく合成マイノリティオーバーサンプリング
- Authors: Chun Wai Chiu, Leandro L. Minku
- Abstract要約: 本稿では,ストリームクラスタリングに基づくマイノリティクラスを合成するためのドリフトオーバーサンプリング戦略を提案する。
その動機は、ストリームクラスタリングメソッドが、現在の根底にある概念の特徴を反映するために、継続的に更新されることです。
人工的および実世界のデータストリームを用いた実験により、提案手法は既存の手法よりも多様なマイノリティクラス分解を含む概念ドリフトを処理可能であることが示された。
- 参考スコア(独自算出の注目度): 4.378407481656902
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Many real-world data stream applications not only suffer from concept drift
but also class imbalance. Yet, very few existing studies investigated this
joint challenge. Data difficulty factors, which have been shown to be key
challenges in class imbalanced data streams, are not taken into account by
existing approaches when learning class imbalanced data streams. In this work,
we propose a drift adaptable oversampling strategy to synthesise minority class
examples based on stream clustering. The motivation is that stream clustering
methods continuously update themselves to reflect the characteristics of the
current underlying concept, including data difficulty factors. This nature can
potentially be used to compress past information without caching data in the
memory explicitly. Based on the compressed information, synthetic examples can
be created within the region that recently generated new minority class
examples. Experiments with artificial and real-world data streams show that the
proposed approach can handle concept drift involving different minority class
decomposition better than existing approaches, especially when the data stream
is severely class imbalanced and presenting high proportions of safe and
borderline minority class examples.
- Abstract(参考訳): 多くの実世界のデータストリームアプリケーションはコンセプトドリフトに苦しむだけでなく、クラス不均衡にも悩まされる。
しかし、この共同研究を調査する研究はほとんどなかった。
クラス不均衡データストリームの重要課題であるデータ困難要因は、クラス不均衡データストリームの学習において、既存のアプローチでは考慮されていない。
本研究では,ストリームクラスタリングに基づくマイノリティクラスのサンプルを合成するためのドリフト適応型オーバーサンプリング戦略を提案する。
その動機は、データ難易度を含む現在の概念の特徴を反映するために、ストリームクラスタリングメソッドが継続的に更新されることです。
この性質は、メモリ内のデータを明示的にキャッシュすることなく、過去の情報を圧縮するために使用することができる。
圧縮された情報に基づいて、新しいマイノリティクラス例を生成する領域内で合成サンプルを作成することができる。
人工的および実世界のデータストリームを用いた実験では、提案手法が既存のアプローチよりも異なるマイノリティクラスの分解を伴う概念ドリフトを扱い、特にデータストリームが厳しいクラス不均衡であり、安全かつ境界的なマイノリティクラスの例の比率が高い場合に有効であることが示されている。
関連論文リスト
- Improving Online Bagging for Complex Imbalanced Data Stream [2.693342141713236]
安全でないマイノリティ事例の存在をよりよく考慮するために,オンラインバッグの再サンプル化の拡張を提案する。
合成複素不均衡データストリームを用いた計算実験は、オンラインバッグ再サンプリングアンサンブルの以前の変種よりも有利であることを示した。
論文 参考訳(メタデータ) (2024-10-04T15:38:37Z) - Tackling Diverse Minorities in Imbalanced Classification [80.78227787608714]
不均衡データセットは、様々な現実世界のアプリケーションで一般的に見られ、分類器の訓練において重要な課題が提示されている。
マイノリティクラスとマイノリティクラスの両方のデータサンプルを混合することにより、反復的に合成サンプルを生成することを提案する。
提案するフレームワークの有効性を,7つの公開ベンチマークデータセットを用いて広範な実験により実証する。
論文 参考訳(メタデータ) (2023-08-28T18:48:34Z) - Enhancing Multiple Reliability Measures via Nuisance-extended
Information Bottleneck [77.37409441129995]
トレーニングデータに制限がある現実的なシナリオでは、データ内の多くの予測信号は、データ取得のバイアスからより多く得る。
我々は,相互情報制約の下で,より広い範囲の摂動をカバーできる敵の脅威モデルを考える。
そこで本研究では,その目的を実現するためのオートエンコーダベーストレーニングと,提案したハイブリッド識別世代学習を促進するための実用的なエンコーダ設計を提案する。
論文 参考訳(メタデータ) (2023-03-24T16:03:21Z) - Generative Oversampling for Imbalanced Data via Majority-Guided VAE [15.93867386081279]
本稿では,多数派の指導のもと,新たなマイノリティサンプルを生成する,Majority-Guided VAE(MGVAE)と呼ばれる新しいオーバーサンプリングモデルを提案する。
このようにして、新しく生成されたマイノリティサンプルは、大多数のサンプルの多様性と豊かさを継承することができ、下流タスクにおける過度な適合を軽減できる。
論文 参考訳(メタデータ) (2023-02-14T06:35:23Z) - Continual Learning with Optimal Transport based Mixture Model [17.398605698033656]
成熟最適輸送理論(OT-MM)の優れた性質に基づくオンライン混合モデル学習手法を提案する。
提案手法は,現在の最先端のベースラインを大きく上回ることができる。
論文 参考訳(メタデータ) (2022-11-30T06:40:29Z) - Intra-class Adaptive Augmentation with Neighbor Correction for Deep
Metric Learning [99.14132861655223]
深層学習のためのクラス内適応拡張(IAA)フレームワークを提案する。
クラスごとのクラス内変動を合理的に推定し, 適応型合成試料を生成し, 硬質試料の採掘を支援する。
本手法は,検索性能の最先端手法を3%~6%向上させる。
論文 参考訳(メタデータ) (2022-11-29T14:52:38Z) - The Influence of Multiple Classes on Learning Online Classifiers from
Imbalanced and Concept Drifting Data Streams [1.370633147306388]
局所的なデータ特性とドリフトは不均衡なデータストリームで研究される。
分裂する少数民族の局所的な流れが第三の要因である。
バイナリストリームとは異なり、特殊な UOB と OOB の分類器は高い不均衡比でも十分に機能する。
論文 参考訳(メタデータ) (2022-10-15T19:15:50Z) - Discrete Key-Value Bottleneck [95.61236311369821]
ディープニューラルネットワークは、データストリームがi.d.d.であり、ラベル付きデータが豊富である分類タスクでうまく機能する。
この課題に対処した強力なアプローチの1つは、手軽に利用可能なデータ量に対する大規模なエンコーダの事前トレーニングと、タスク固有のチューニングである。
しかし、新しいタスクを考えると、多くの重みを微調整する必要があるため、エンコーダの重みを更新することは困難であり、その結果、以前のタスクに関する情報を忘れてしまう。
この問題に対処するモデルアーキテクチャを提案し,個別かつ学習可能なキー値符号のペアを含む離散的ボトルネックの上に構築する。
論文 参考訳(メタデータ) (2022-07-22T17:52:30Z) - Imbalanced Classification via Explicit Gradient Learning From Augmented
Data [0.0]
本稿では、与えられた不均衡なデータセットを新しいマイノリティインスタンスに拡張する、新しい深層メタラーニング手法を提案する。
提案手法の利点は, 種々の不均衡比を持つ合成および実世界のデータセット上で実証される。
論文 参考訳(メタデータ) (2022-02-21T22:16:50Z) - Contrastive Model Inversion for Data-Free Knowledge Distillation [60.08025054715192]
そこで、データ多様性を最適化可能な目的として明示的にモデル化するContrastive Model Inversionを提案します。
我々の主な観察では、同じ量のデータの制約の下では、高いデータの多様性は、通常より強いインスタンス識別を示す。
CIFAR-10, CIFAR-100, Tiny-ImageNetを用いた実験により, 生成したデータを知識蒸留に使用する場合, CMIは極めて優れた性能を示すことが示された。
論文 参考訳(メタデータ) (2021-05-18T15:13:00Z) - M2m: Imbalanced Classification via Major-to-minor Translation [79.09018382489506]
ほとんどの実世界のシナリオでは、ラベル付きトレーニングデータセットは非常にクラス不均衡であり、ディープニューラルネットワークは、バランスの取れたテスト基準への一般化に苦しむ。
本稿では,より頻度の低いクラスを,より頻度の低いクラスからのサンプルを翻訳することによって,この問題を緩和する新しい方法を提案する。
提案手法は,従来の再サンプリング法や再重み付け法と比較して,マイノリティクラスの一般化を著しく改善することを示す。
論文 参考訳(メタデータ) (2020-04-01T13:21:17Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。