論文の概要: Imbalanced Big Data Oversampling: Taxonomy, Algorithms, Software,
Guidelines and Future Directions
- arxiv url: http://arxiv.org/abs/2107.11508v1
- Date: Sat, 24 Jul 2021 01:49:46 GMT
- ステータス: 処理完了
- システム内更新日: 2021-07-27 15:59:21.836436
- Title: Imbalanced Big Data Oversampling: Taxonomy, Algorithms, Software,
Guidelines and Future Directions
- Title(参考訳): 不均衡なビッグデータオーバーサンプリング:分類学、アルゴリズム、ソフトウェア、ガイドライン、今後の方向性
- Authors: William C. Sleeman IV and Bartosz Krawczyk
- Abstract要約: 不均衡なビッグデータに対するオーバーサンプリングアルゴリズムの全体像を提案する。
14の最先端のオーバーサンプリングアルゴリズムを備えたSparkライブラリを導入しました。
オーバーサンプリングアルゴリズムの精度と時間的複雑さのトレードオフを評価する。
- 参考スコア(独自算出の注目度): 6.436899373275926
- License: http://creativecommons.org/licenses/by-nc-nd/4.0/
- Abstract: Learning from imbalanced data is among the most challenging areas in
contemporary machine learning. This becomes even more difficult when considered
the context of big data that calls for dedicated architectures capable of
high-performance processing. Apache Spark is a highly efficient and popular
architecture, but it poses specific challenges for algorithms to be implemented
for it. While oversampling algorithms are an effective way for handling class
imbalance, they have not been designed for distributed environments. In this
paper, we propose a holistic look on oversampling algorithms for imbalanced big
data. We discuss the taxonomy of oversampling algorithms and their mechanisms
used to handle skewed class distributions. We introduce a Spark library with 14
state-of-the-art oversampling algorithms implemented and evaluate their
efficacy via extensive experimental study. Using binary and multi-class massive
data sets, we analyze the effectiveness of oversampling algorithms and their
relationships with different types of classifiers. We evaluate the trade-off
between accuracy and time complexity of oversampling algorithms, as well as
their scalability when increasing the size of data. This allows us to gain
insight into the usefulness of specific components of oversampling algorithms
for big data, as well as formulate guidelines and recommendations for designing
future resampling approaches for massive imbalanced data. Our library can be
downloaded from https://github.com/fsleeman/spark-class-balancing.git.
- Abstract(参考訳): 不均衡なデータから学ぶことは、現代の機械学習において最も難しい分野である。
ハイパフォーマンスな処理が可能な専用のアーキテクチャを要求するビッグデータのコンテキストを考えると、これはさらに難しくなります。
Apache Sparkは非常に効率的でポピュラーなアーキテクチャだが、アルゴリズムを実装する上で特別な課題が生じる。
オーバーサンプリングアルゴリズムはクラス不均衡を扱う効果的な方法であるが、分散環境向けには設計されていない。
本稿では,不均衡ビッグデータに対するオーバーサンプリングアルゴリズムの全体的考察を提案する。
本稿では,オーバーサンプリングアルゴリズムの分類と,スキュートクラス分布を扱うためのメカニズムについて論じる。
我々は,14の最先端オーバーサンプリングアルゴリズムを実装したSparkライブラリを導入し,その有効性を評価する。
本稿では,2値データセットと複数クラスデータセットを用いて,アルゴリズムのオーバーサンプリングの有効性と,異なるタイプの分類器との関係を解析する。
我々は,オーバーサンプリングアルゴリズムの精度と時間複雑性,データサイズを増加させる際のスケーラビリティのトレードオフを評価する。
これにより、ビッグデータのオーバーサンプリングアルゴリズムの特定のコンポーネントの有用性や、大規模な不均衡データに対する将来の再サンプリングアプローチを設計するためのガイドラインや推奨事項の策定が可能になる。
私たちのライブラリはhttps://github.com/fsleeman/spark-class-balancing.gitからダウンロードできます。
関連論文リスト
- A Mirror Descent-Based Algorithm for Corruption-Tolerant Distributed Gradient Descent [57.64826450787237]
本研究では, 分散勾配降下アルゴリズムの挙動を, 敵対的腐敗の有無で解析する方法を示す。
汚職耐性の分散最適化アルゴリズムを設計するために、(怠慢な)ミラー降下からアイデアをどう使うかを示す。
MNISTデータセットの線形回帰、サポートベクトル分類、ソフトマックス分類に基づく実験は、我々の理論的知見を裏付けるものである。
論文 参考訳(メタデータ) (2024-07-19T08:29:12Z) - A Weighted K-Center Algorithm for Data Subset Selection [70.49696246526199]
サブセット選択は、トレーニングデータの小さな部分を特定する上で重要な役割を果たす、基本的な問題である。
我々は,k中心および不確かさサンプリング目的関数の重み付け和に基づいて,サブセットを計算する新しい係数3近似アルゴリズムを開発した。
論文 参考訳(メタデータ) (2023-12-17T04:41:07Z) - Improved Distribution Matching for Dataset Condensation [91.55972945798531]
本稿では,分布マッチングに基づく新しいデータセット凝縮法を提案する。
提案手法は,計算資源の少ない従来の最適化指向手法よりも優れている。
論文 参考訳(メタデータ) (2023-07-19T04:07:33Z) - Performance Evaluation and Comparison of a New Regression Algorithm [4.125187280299247]
新たに提案した回帰アルゴリズムの性能を,従来の4つの機械学習アルゴリズムと比較した。
GitHubリポジトリにソースコードを提供したので、読者は結果の複製を自由にできます。
論文 参考訳(メタデータ) (2023-06-15T13:01:16Z) - Improving and Benchmarking Offline Reinforcement Learning Algorithms [87.67996706673674]
この作業は、低レベルの選択とデータセットによって引き起こされるギャップを埋めることを目的としている。
3つの代表アルゴリズムを用いて20の実装選択を実証的に検討する。
CRR+とCQL+の2つの変種がD4RL上で新たな最先端を実現している。
論文 参考訳(メタデータ) (2023-06-01T17:58:46Z) - ParlayANN: Scalable and Deterministic Parallel Graph-Based Approximate
Nearest Neighbor Search Algorithms [5.478671305092084]
本稿では,ParlayANNについて紹介する。ParlayANNは決定論的および並列グラフに基づく近接探索アルゴリズムのライブラリである。
我々は、数十億のデータセットにスケールする4つの最先端グラフベースのANNSアルゴリズムに対して、新しい並列実装を開発する。
論文 参考訳(メタデータ) (2023-05-07T19:28:23Z) - Towards Automated Imbalanced Learning with Deep Hierarchical
Reinforcement Learning [57.163525407022966]
不均衡学習はデータマイニングにおいて基本的な課題であり、各クラスにトレーニングサンプルの不均等な比率が存在する。
オーバーサンプリングは、少数民族のための合成サンプルを生成することによって、不均衡な学習に取り組む効果的な手法である。
我々は,異なるレベルの意思決定を共同で最適化できる自動オーバーサンプリングアルゴリズムであるAutoSMOTEを提案する。
論文 参考訳(メタデータ) (2022-08-26T04:28:01Z) - Multi-granularity Relabeled Under-sampling Algorithm for Imbalanced Data [15.030895782548576]
不均衡な分類問題は、データマイニングと機械学習において重要かつ困難な問題の1つであることが判明した。
Tomek-Linkサンプリングアルゴリズムは、データ上のクラスオーバーラップを効果的に低減し、識別が難しい多数インスタンスを除去し、アルゴリズムの分類精度を向上させる。
しかし、Tomek-Linksアンダーサンプリングアルゴリズムは、世界中に最も近い隣り合う境界インスタンスのみを考慮し、潜在的に局所的な重複するインスタンスを無視している。
本稿では,データセットの局所的情報を完全に考慮した多粒度アンダーサンプリングアルゴリズム(MGRU)を提案する。
論文 参考訳(メタデータ) (2022-01-11T14:07:55Z) - SreaMRAK a Streaming Multi-Resolution Adaptive Kernel Algorithm [60.61943386819384]
既存のKRRの実装では、すべてのデータがメインメモリに格納される必要がある。
KRRのストリーミング版であるStreaMRAKを提案する。
本稿では,2つの合成問題と2重振り子の軌道予測について紹介する。
論文 参考訳(メタデータ) (2021-08-23T21:03:09Z) - A Method for Handling Multi-class Imbalanced Data by Geometry based
Information Sampling and Class Prioritized Synthetic Data Generation (GICaPS) [15.433936272310952]
本稿では,多ラベル分類問題における不均衡データ処理の問題について考察する。
特徴ベクトル間の幾何学的関係を利用する2つの新しい手法が提案されている。
提案手法の有効性は,汎用的なマルチクラス認識問題を解くことによって解析する。
論文 参考訳(メタデータ) (2020-10-11T04:04:26Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。