論文の概要: Imbalanced Data Stream Classification using Dynamic Ensemble Selection
- arxiv url: http://arxiv.org/abs/2309.09175v2
- Date: Thu, 28 Sep 2023 17:56:39 GMT
- ステータス: 処理完了
- システム内更新日: 2023-09-29 19:49:05.090674
- Title: Imbalanced Data Stream Classification using Dynamic Ensemble Selection
- Title(参考訳): 動的アンサンブル選択を用いた不均衡データストリーム分類
- Authors: Priya.S and Haribharathi Sivakumar and Vijay Arvind.R
- Abstract要約: 本研究では,データ前処理と動的アンサンブル選択を統合する新しいフレームワークを提案する。
提案手法は,不均衡比の異なる6つのデータストリームを用いて評価した。
実験結果によると、データ前処理とDynamic Ensemble Selection技術を組み合わせることで、精度が大幅に向上する。
- 参考スコア(独自算出の注目度): 0.0
- License: http://creativecommons.org/licenses/by-nc-nd/4.0/
- Abstract: Modern streaming data categorization faces significant challenges from
concept drift and class imbalanced data. This negatively impacts the output of
the classifier, leading to improper classification. Furthermore, other factors
such as the overlapping of multiple classes limit the extent of the correctness
of the output. This work proposes a novel framework for integrating data
pre-processing and dynamic ensemble selection, by formulating the
classification framework for the nonstationary drifting imbalanced data stream,
which employs the data pre-processing and dynamic ensemble selection
techniques. The proposed framework was evaluated using six artificially
generated data streams with differing imbalance ratios in combination with two
different types of concept drifts. Each stream is composed of 200 chunks of 500
objects described by eight features and contains five concept drifts. Seven
pre-processing techniques and two dynamic ensemble selection methods were
considered. According to experimental results, data pre-processing combined
with Dynamic Ensemble Selection techniques significantly delivers more accuracy
when dealing with imbalanced data streams.
- Abstract(参考訳): 現代のストリーミングデータの分類は、コンセプトドリフトとクラス不均衡データから大きな課題に直面している。
これは分類器の出力に悪影響を及ぼし、不適切な分類につながる。
さらに、多重クラスの重複のような他の要因は出力の正しさの程度を制限する。
本研究では,データ前処理と動的アンサンブル選択技術を用いた非定常ドリフト型不均衡データストリームの分類フレームワークを定式化し,データ前処理と動的アンサンブル選択を統合する新しい枠組みを提案する。
提案手法は,2種類のコンセプトドリフトと組み合わせて,不均衡比の異なる6つのデータストリームを用いて評価した。
各ストリームは8つの特徴によって記述された500のオブジェクトの200チャンクで構成され、5つのコンセプトドリフトを含んでいる。
7つの前処理技術と2つの動的アンサンブル選択法を検討した。
実験結果によると、データ前処理とDynamic Ensemble Selection技術を組み合わせることで、不均衡なデータストリームを扱う場合の精度が大幅に向上する。
関連論文リスト
- Few-shot learning for COVID-19 Chest X-Ray Classification with
Imbalanced Data: An Inter vs. Intra Domain Study [49.5374512525016]
医療画像データセットは、コンピュータ支援診断、治療計画、医学研究に使用される訓練モデルに不可欠である。
データ分散のばらつき、データの不足、ジェネリックイメージから事前トレーニングされたモデルを使用する場合の転送学習の問題などである。
本稿では,データ不足と分散不均衡の影響を軽減するために,一連の手法を統合したシームズニューラルネットワークに基づく手法を提案する。
論文 参考訳(メタデータ) (2024-01-18T16:59:27Z) - Efficient Online Data Mixing For Language Model Pre-Training [101.45242332613944]
既存のデータ選択方法は、遅くて計算コストのかかるプロセスに悩まされる。
一方、データミキシングは、データポイントをまとめることで、データ選択の複雑さを低減する。
我々は,データ選択とデータ混合の両要素を組み合わせたオンラインデータ混合(ODM)の効率的なアルゴリズムを開発した。
論文 参考訳(メタデータ) (2023-12-05T00:42:35Z) - Tackling Diverse Minorities in Imbalanced Classification [80.78227787608714]
不均衡データセットは、様々な現実世界のアプリケーションで一般的に見られ、分類器の訓練において重要な課題が提示されている。
マイノリティクラスとマイノリティクラスの両方のデータサンプルを混合することにより、反復的に合成サンプルを生成することを提案する。
提案するフレームワークの有効性を,7つの公開ベンチマークデータセットを用いて広範な実験により実証する。
論文 参考訳(メタデータ) (2023-08-28T18:48:34Z) - DynED: Dynamic Ensemble Diversification in Data Stream Classification [2.990411348977783]
MMR(Maximal Marginal Relevance)に基づく新しいアンサンブル構築とメンテナンス手法を提案する。
4つの実データと11つの合成データセットの実験結果から、提案手法は5つの最先端ベースラインと比較して平均平均精度が高いことが示された。
論文 参考訳(メタデータ) (2023-08-21T15:56:05Z) - On the Trade-off of Intra-/Inter-class Diversity for Supervised
Pre-training [72.8087629914444]
教師付き事前学習データセットのクラス内多様性(クラス毎のサンプル数)とクラス間多様性(クラス数)とのトレードオフの影響について検討した。
トレーニング前のデータセットのサイズが固定された場合、最高のダウンストリームのパフォーマンスは、クラス内/クラス間の多様性のバランスがとれる。
論文 参考訳(メタデータ) (2023-05-20T16:23:50Z) - Revisiting Long-tailed Image Classification: Survey and Benchmarks with
New Evaluation Metrics [88.39382177059747]
メトリクスのコーパスは、長い尾の分布で学習するアルゴリズムの正確性、堅牢性、およびバウンダリを測定するために設計されている。
ベンチマークに基づいて,CIFAR10およびCIFAR100データセット上での既存手法の性能を再評価する。
論文 参考訳(メタデータ) (2023-02-03T02:40:54Z) - Continual Learning with Optimal Transport based Mixture Model [17.398605698033656]
成熟最適輸送理論(OT-MM)の優れた性質に基づくオンライン混合モデル学習手法を提案する。
提案手法は,現在の最先端のベースラインを大きく上回ることができる。
論文 参考訳(メタデータ) (2022-11-30T06:40:29Z) - Semi-supervised Long-tailed Recognition using Alternate Sampling [95.93760490301395]
ロングテール認識の主な課題は、データ分布の不均衡とテールクラスにおけるサンプル不足である。
半教師付き長尾認識という新しい認識設定を提案する。
2つのデータセットで、他の競合方法よりも大幅な精度向上を実証します。
論文 参考訳(メタデータ) (2021-05-01T00:43:38Z) - Data augmentation and feature selection for automatic model
recommendation in computational physics [0.0]
本稿では,トレーニングデータの欠如,高次元化,物理データへの共通データ拡張手法の適用性に関する2つのアルゴリズムを紹介する。
6つの多層パーセプトロンとリッジロジスティック回帰からなる積み重ねアンサンブルを組み合わせると、非線形構造力学の分類問題において90%の精度が得られる。
論文 参考訳(メタデータ) (2021-01-12T15:09:11Z) - Posterior Re-calibration for Imbalanced Datasets [33.379680556475314]
トレーニングラベルの分布が極めて不均衡な場合、ニューラルネットワークは性能が良くない。
我々は、KL分割に基づく最適化によって解決できる訓練後の事前バランス手法を導出する。
6つの異なるデータセットと5つの異なるアーキテクチャで得られた結果は、芸術的正確性を示している。
論文 参考訳(メタデータ) (2020-10-22T15:57:14Z) - stream-learn -- open-source Python library for difficult data stream
batch analysis [0.0]
stream-learnはScikit-learnと互換性があり、ドリフトと不均衡なデータストリーム分析のために開発された。
主なコンポーネントは、合成データストリームを生成するストリームジェネレータである。
さらに,データストリーム分類に適応した推定器も実装されている。
論文 参考訳(メタデータ) (2020-01-29T20:15:09Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。