論文の概要: A survey on learning from imbalanced data streams: taxonomy, challenges,
empirical study, and reproducible experimental framework
- arxiv url: http://arxiv.org/abs/2204.03719v2
- Date: Tue, 18 Jul 2023 15:28:39 GMT
- ステータス: 処理完了
- システム内更新日: 2023-07-19 19:56:04.145004
- Title: A survey on learning from imbalanced data streams: taxonomy, challenges,
empirical study, and reproducible experimental framework
- Title(参考訳): 不均衡データストリームからの学習に関する調査--分類学、課題、実証的研究、再現可能な実験枠組み
- Authors: Gabriel Aguiar, Bartosz Krawczyk, Alberto Cano
- Abstract要約: クラス不均衡は、データストリームの分類に関して、新たな課題を引き起こす。
この論文で最近提案された多くのアルゴリズムは、様々なデータレベル、アルゴリズムレベル、アンサンブルアプローチを用いてこの問題に対処している。
この研究は、アルゴリズムを評価するための標準化された、徹底的で包括的な実験フレームワークを提案する。
- 参考スコア(独自算出の注目度): 12.856833690265985
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Class imbalance poses new challenges when it comes to classifying data
streams. Many algorithms recently proposed in the literature tackle this
problem using a variety of data-level, algorithm-level, and ensemble
approaches. However, there is a lack of standardized and agreed-upon procedures
and benchmarks on how to evaluate these algorithms. This work proposes a
standardized, exhaustive, and comprehensive experimental framework to evaluate
algorithms in a collection of diverse and challenging imbalanced data stream
scenarios. The experimental study evaluates 24 state-of-the-art data streams
algorithms on 515 imbalanced data streams that combine static and dynamic class
imbalance ratios, instance-level difficulties, concept drift, real-world and
semi-synthetic datasets in binary and multi-class scenarios. This leads to a
large-scale experimental study comparing state-of-the-art classifiers in the
data stream mining domain. We discuss the advantages and disadvantages of
state-of-the-art classifiers in each of these scenarios and we provide general
recommendations to end-users for selecting the best algorithms for imbalanced
data streams. Additionally, we formulate open challenges and future directions
for this domain. Our experimental framework is fully reproducible and easy to
extend with new methods. This way, we propose a standardized approach to
conducting experiments in imbalanced data streams that can be used by other
researchers to create complete, trustworthy, and fair evaluation of newly
proposed methods. Our experimental framework can be downloaded from
https://github.com/canoalberto/imbalanced-streams.
- Abstract(参考訳): クラスの不均衡は、データストリームの分類に関して新たな課題をもたらす。
論文で最近提案された多くのアルゴリズムは、様々なデータレベル、アルゴリズムレベル、アンサンブルアプローチを用いてこの問題に取り組んでいる。
しかし、これらのアルゴリズムの評価方法に関する標準化および合意された手順とベンチマークが欠如している。
本研究は、多種多様な不均衡データストリームシナリオの集合においてアルゴリズムを評価するための、標準化され、徹底的で包括的な実験フレームワークを提案する。
実験では,静的および動的クラス不均衡比,インスタンスレベルの困難,概念の漂流,実世界および多クラスシナリオにおける半合成データセットを組み合わせた515データストリーム上で,24の最先端データストリームアルゴリズムを評価する。
これは、データストリームマイニング領域における最先端の分類器を比較した大規模な実験研究につながる。
各シナリオにおける最先端の分類器の長所と短所について検討し,不均衡データストリームに対して最適なアルゴリズムを選択することをエンドユーザに推奨する。
さらに、このドメインに対するオープンな挑戦と今後の方向性を定式化します。
実験フレームワークは完全に再現可能で,新しい手法で拡張が容易です。
このようにして、他の研究者が新たに提案した手法の完全で信頼性があり、公正な評価のために利用できる不均衡なデータストリームの実験を行うための標準化されたアプローチを提案する。
実験フレームワークはhttps://github.com/canoalberto/imbalanced-streamsからダウンロードできます。
関連論文リスト
- Tackling Diverse Minorities in Imbalanced Classification [80.78227787608714]
不均衡データセットは、様々な現実世界のアプリケーションで一般的に見られ、分類器の訓練において重要な課題が提示されている。
マイノリティクラスとマイノリティクラスの両方のデータサンプルを混合することにより、反復的に合成サンプルを生成することを提案する。
提案するフレームワークの有効性を,7つの公開ベンチマークデータセットを用いて広範な実験により実証する。
論文 参考訳(メタデータ) (2023-08-28T18:48:34Z) - Generalized Oversampling for Learning from Imbalanced datasets and
Associated Theory [0.0]
教師あり学習では、実際の不均衡なデータセットに直面することが多い。
本稿では,カーネル密度推定に基づくデータ拡張手法であるGOLIATHアルゴリズムを提案する。
我々は,不均衡な回帰状況下でのGOLIATHアルゴリズムの性能を評価する。
論文 参考訳(メタデータ) (2023-08-05T23:08:08Z) - Evaluating Graph Neural Networks for Link Prediction: Current Pitfalls
and New Benchmarking [66.83273589348758]
リンク予測は、グラフのエッジの一部のみに基づいて、目に見えないエッジが存在するかどうかを予測しようとする。
近年,この課題にグラフニューラルネットワーク(GNN)を活用すべく,一連の手法が導入されている。
これらの新しいモデルの有効性をよりよく評価するために、新しい多様なデータセットも作成されている。
論文 参考訳(メタデータ) (2023-06-18T01:58:59Z) - Revisiting Long-tailed Image Classification: Survey and Benchmarks with
New Evaluation Metrics [88.39382177059747]
メトリクスのコーパスは、長い尾の分布で学習するアルゴリズムの正確性、堅牢性、およびバウンダリを測定するために設計されている。
ベンチマークに基づいて,CIFAR10およびCIFAR100データセット上での既存手法の性能を再評価する。
論文 参考訳(メタデータ) (2023-02-03T02:40:54Z) - Class-Imbalanced Complementary-Label Learning via Weighted Loss [8.934943507699131]
補完ラベル学習(Complementary-label Learning, CLL)は、弱い教師付き分類において広く用いられている。
クラス不均衡のトレーニングサンプルに直面すると、現実世界のデータセットでは大きな課題に直面します。
多クラス分類のためのクラス不均衡補完ラベルからの学習を可能にする新しい問題設定を提案する。
論文 参考訳(メタデータ) (2022-09-28T16:02:42Z) - A Novel Hybrid Sampling Framework for Imbalanced Learning [0.0]
SMOTE-RUS-NC」は他の最先端サンプリング技術と比較されている。
26個の不均衡なデータセットで厳密な実験が行われた。
論文 参考訳(メタデータ) (2022-08-20T07:04:00Z) - A Hybrid Approach for Binary Classification of Imbalanced Data [0.0]
本稿では,データブロック構築,次元減少,アンサンブル学習を併用したハイブリットアプローチHADRを提案する。
我々は、8つの不均衡な公開データセットの性能をリコール、G平均、AUCで評価した。
論文 参考訳(メタデータ) (2022-07-06T15:18:41Z) - CMW-Net: Learning a Class-Aware Sample Weighting Mapping for Robust Deep
Learning [55.733193075728096]
現代のディープニューラルネットワークは、破損したラベルやクラス不均衡を含むバイアス付きトレーニングデータに容易に適合する。
サンプル再重み付け手法は、このデータバイアス問題を緩和するために一般的に使用されている。
本稿では,データから直接明示的な重み付け方式を適応的に学習できるメタモデルを提案する。
論文 参考訳(メタデータ) (2022-02-11T13:49:51Z) - Quasi-Global Momentum: Accelerating Decentralized Deep Learning on
Heterogeneous Data [77.88594632644347]
ディープラーニングモデルの分散トレーニングは、ネットワーク上でデータプライバシとデバイス上での学習を可能にする重要な要素である。
現実的な学習シナリオでは、異なるクライアントのローカルデータセットに異質性が存在することが最適化の課題となる。
本稿では,この分散学習の難しさを軽減するために,運動量に基づく新しい手法を提案する。
論文 参考訳(メタデータ) (2021-02-09T11:27:14Z) - Handling Imbalanced Data: A Case Study for Binary Class Problems [0.0]
分類問題の解決における主要な問題は、不均衡データの問題である。
本稿では,合成オーバーサンプリング技術と手動で合成データポイントを計算することで,アルゴリズムの理解を深める。
我々は,これらの合成オーバーサンプリング手法を,不均衡比とサンプルサイズが異なる二項分類問題に適用する。
論文 参考訳(メタデータ) (2020-10-09T02:04:14Z) - Long-Tailed Recognition Using Class-Balanced Experts [128.73438243408393]
本稿では,多様な分類器の強度を組み合わせたクラスバランスの専門家のアンサンブルを提案する。
私たちのクラスバランスの専門家のアンサンブルは、最先端に近い結果に到達し、長い尾の認識のための2つのベンチマークで新たな最先端のアンサンブルを確立します。
論文 参考訳(メタデータ) (2020-04-07T20:57:44Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。