論文の概要: Smart Data driven Decision Trees Ensemble Methodology for Imbalanced Big
Data
- arxiv url: http://arxiv.org/abs/2001.05759v3
- Date: Fri, 3 Sep 2021 10:23:55 GMT
- ステータス: 処理完了
- システム内更新日: 2023-01-10 23:54:11.744523
- Title: Smart Data driven Decision Trees Ensemble Methodology for Imbalanced Big
Data
- Title(参考訳): 不均衡ビッグデータのためのスマートデータ駆動決定木アンサンブル手法
- Authors: Diego Garc\'ia-Gil, Salvador Garc\'ia, Ning Xiong, Francisco Herrera
- Abstract要約: MapReduceパラダイムの使用によるデータ戦略の分割とマイノリティクラスのデータの欠如は、不均衡なデータ問題に対処するための新たな課題を提起している。
スマートデータ(Smart Data)は、高性能なモデルを実現するのに十分な品質のデータを指す。
本稿では,ビッグデータ領域における不均衡な分類問題に対処するための,新しいSmart Data driven Decision Trees Ensemble法を提案する。
- 参考スコア(独自算出の注目度): 11.117880929232575
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Differences in data size per class, also known as imbalanced data
distribution, have become a common problem affecting data quality. Big Data
scenarios pose a new challenge to traditional imbalanced classification
algorithms, since they are not prepared to work with such amount of data. Split
data strategies and lack of data in the minority class due to the use of
MapReduce paradigm have posed new challenges for tackling the imbalance between
classes in Big Data scenarios. Ensembles have shown to be able to successfully
address imbalanced data problems. Smart Data refers to data of enough quality
to achieve high performance models. The combination of ensembles and Smart
Data, achieved through Big Data preprocessing, should be a great synergy. In
this paper, we propose a novel Smart Data driven Decision Trees Ensemble
methodology for addressing the imbalanced classification problem in Big Data
domains, namely SD_DeTE methodology. This methodology is based on the learning
of different decision trees using distributed quality data for the ensemble
process. This quality data is achieved by fusing Random Discretization,
Principal Components Analysis and clustering-based Random Oversampling for
obtaining different Smart Data versions of the original data. Experiments
carried out in 21 binary adapted datasets have shown that our methodology
outperforms Random Forest.
- Abstract(参考訳): クラスごとのデータサイズの違いは、不均衡データ分散としても知られ、データ品質に影響する一般的な問題となっている。
ビッグデータシナリオは、そのような量のデータを扱う準備ができていないため、従来の不均衡な分類アルゴリズムに新たな課題をもたらす。
mapreduceパラダイムによる分割データ戦略とマイノリティクラスのデータの欠如は、ビッグデータシナリオにおけるクラス間の不均衡に取り組む上で、新たな課題を引き起こした。
アンサンブルは不均衡なデータ問題にうまく対処できることが示されている。
スマートデータ(smart data)は、ハイパフォーマンスモデルを達成するのに十分な品質のデータを指す。
ビッグデータの事前処理によって達成される、アンサンブルとSmart Dataの組み合わせは、素晴らしいシナジーになります。
本稿では,ビッグデータ領域における不均衡な分類問題,すなわちSD_DeTE手法に対処するための,新しいSmart Data driven Decision Trees Ensemble法を提案する。
本手法は,アンサンブルプロセスにおける分散品質データを用いた決定木の学習に基づいている。
この品質データは、ランダムな離散化、主成分分析、クラスタリングに基づくランダムオーバーサンプリングを用いて、元のデータの異なるスマートデータバージョンを得る。
21のバイナリ適応データセットで行った実験により、我々の手法がランダムフォレストより優れていることが示された。
関連論文リスト
- Efficient Online Data Mixing For Language Model Pre-Training [101.45242332613944]
既存のデータ選択方法は、遅くて計算コストのかかるプロセスに悩まされる。
一方、データミキシングは、データポイントをまとめることで、データ選択の複雑さを低減する。
我々は,データ選択とデータ混合の両要素を組み合わせたオンラインデータ混合(ODM)の効率的なアルゴリズムを開発した。
論文 参考訳(メタデータ) (2023-12-05T00:42:35Z) - A Survey of Methods for Handling Disk Data Imbalance [10.261915886145214]
本稿では、不均衡データ分類の分野における研究の概要について概観する。
Backblazeデータセットは、ハードディスクに関連する広く使用されているデータセットであり、少量の障害データと大量の健康データを持ち、深刻なクラス不均衡を示す。
論文 参考訳(メタデータ) (2023-10-13T05:35:13Z) - Tackling Diverse Minorities in Imbalanced Classification [80.78227787608714]
不均衡データセットは、様々な現実世界のアプリケーションで一般的に見られ、分類器の訓練において重要な課題が提示されている。
マイノリティクラスとマイノリティクラスの両方のデータサンプルを混合することにより、反復的に合成サンプルを生成することを提案する。
提案するフレームワークの有効性を,7つの公開ベンチマークデータセットを用いて広範な実験により実証する。
論文 参考訳(メタデータ) (2023-08-28T18:48:34Z) - Improved Distribution Matching for Dataset Condensation [91.55972945798531]
本稿では,分布マッチングに基づく新しいデータセット凝縮法を提案する。
提案手法は,計算資源の少ない従来の最適化指向手法よりも優れている。
論文 参考訳(メタデータ) (2023-07-19T04:07:33Z) - Rethinking Data Heterogeneity in Federated Learning: Introducing a New
Notion and Standard Benchmarks [65.34113135080105]
我々は、現在のセットアップにおけるデータ不均一性の問題が必ずしも問題であるだけでなく、FL参加者にとって有益であることを示す。
私たちの観察は直感的である。
私たちのコードはhttps://github.com/MMorafah/FL-SC-NIIDで利用可能です。
論文 参考訳(メタデータ) (2022-09-30T17:15:19Z) - Effective Class-Imbalance learning based on SMOTE and Convolutional
Neural Networks [0.1074267520911262]
不均衡データ(ID)は、機械学習(ML)モデルから満足な結果を得るための問題である。
本稿では,Deep Neural Networks(DNN)とConvolutional Neural Networks(CNN)に基づく手法の有効性を検討する。
信頼性の高い結果を得るために,ランダムにシャッフルしたデータ分布を用いて100回実験を行った。
論文 参考訳(メタデータ) (2022-09-01T07:42:16Z) - Information FOMO: The unhealthy fear of missing out on information. A method for removing misleading data for healthier models [0.0]
ミスリーディングや不要なデータは、マシンラーニング(ML)モデルの健全性や正確性に大きく影響します。
本稿では,データセット内の重要な情報を特定するシーケンシャルな選択法を提案する。
これらの不安定性は、基礎となるマップの複雑さの結果であり、極端な事象や重い尾と結びついている。
論文 参考訳(メタデータ) (2022-08-27T19:43:53Z) - Foundations of data imbalance and solutions for a data democracy [0.0]
不均衡なデータを扱うことが、データセットの分類を行う上で一般的な問題である。
クラス不均衡の度合いと概念の複雑さの2つの重要な統計要素が解決される。
これらのシナリオに適切な対策を議論し、実生活データセット上で実施する。
論文 参考訳(メタデータ) (2021-07-30T20:37:23Z) - Towards Stable Imbalanced Data Classification via Virtual Big Data
Projection [3.3707422585608953]
深層オートエンコーダ訓練と不均衡データ分類に対処するVBDの能力について検討する。
まず、VBDは、膨大な多様なトレーニングデータを提供することで、オートエンコーダのバリデーション損失を著しく低減できることを示す。
第2に、オーバーサンプリングを伴わないスキュートクラス分布のバランスをとるために、クロスコンカニエーションと呼ばれる最初のプロジェクションベース手法を提案する。
論文 参考訳(メタデータ) (2020-08-23T04:01:51Z) - Learning while Respecting Privacy and Robustness to Distributional
Uncertainties and Adversarial Data [66.78671826743884]
分散ロバストな最適化フレームワークはパラメトリックモデルのトレーニングのために検討されている。
目的は、逆操作された入力データに対して頑健なトレーニングモデルを提供することである。
提案されたアルゴリズムは、オーバーヘッドがほとんどない堅牢性を提供する。
論文 参考訳(メタデータ) (2020-07-07T18:25:25Z) - Long-Tailed Recognition Using Class-Balanced Experts [128.73438243408393]
本稿では,多様な分類器の強度を組み合わせたクラスバランスの専門家のアンサンブルを提案する。
私たちのクラスバランスの専門家のアンサンブルは、最先端に近い結果に到達し、長い尾の認識のための2つのベンチマークで新たな最先端のアンサンブルを確立します。
論文 参考訳(メタデータ) (2020-04-07T20:57:44Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。