論文の概要: A multi-schematic classifier-independent oversampling approach for
imbalanced datasets
- arxiv url: http://arxiv.org/abs/2107.07349v1
- Date: Thu, 15 Jul 2021 14:03:24 GMT
- ステータス: 処理完了
- システム内更新日: 2021-07-16 14:11:10.150918
- Title: A multi-schematic classifier-independent oversampling approach for
imbalanced datasets
- Title(参考訳): 不均衡データセットに対するマルチスキーマ分類器独立オーバーサンプリング手法
- Authors: Saptarshi Bej, Kristian Schultz, Prashant Srivastava, Markus Wolfien,
Olaf Wolkenhauer
- Abstract要約: 従来の研究から、異なるオーバーサンプリングアルゴリズムは異なる分類器で異なる効率の度合いを持つことが明らかである。
本稿では,マルチスキーマおよび分類器に依存しないオーバーサンプリング手法であるProWRASを用いて,この問題を克服する。
ProWRASはローカライズされたランダムアフィンシャドウサンプリング (LoRAS) アルゴリズムと Proximity Weighted Synthetic Oversampling (ProWSyn) アルゴリズムを統合している。
- 参考スコア(独自算出の注目度): 0.0
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Over 85 oversampling algorithms, mostly extensions of the SMOTE algorithm,
have been built over the past two decades, to solve the problem of imbalanced
datasets. However, it has been evident from previous studies that different
oversampling algorithms have different degrees of efficiency with different
classifiers. With numerous algorithms available, it is difficult to decide on
an oversampling algorithm for a chosen classifier. Here, we overcome this
problem with a multi-schematic and classifier-independent oversampling
approach: ProWRAS(Proximity Weighted Random Affine Shadowsampling). ProWRAS
integrates the Localized Random Affine Shadowsampling (LoRAS)algorithm and the
Proximity Weighted Synthetic oversampling (ProWSyn) algorithm. By controlling
the variance of the synthetic samples, as well as a proximity-weighted
clustering system of the minority classdata, the ProWRAS algorithm improves
performance, compared to algorithms that generate synthetic samples through
modelling high dimensional convex spaces of the minority class. ProWRAS has
four oversampling schemes, each of which has its unique way to model the
variance of the generated data. Most importantly, the performance of ProWRAS
with proper choice of oversampling schemes, is independent of the classifier
used. We have benchmarked our newly developed ProWRAS algorithm against five
sate-of-the-art oversampling models and four different classifiers on 20
publicly available datasets. ProWRAS outperforms other oversampling algorithms
in a statistically significant way, in terms of both F1-score and Kappa-score.
Moreover, we have introduced a novel measure for classifier independence
I-score, and showed quantitatively that ProWRAS performs better, independent of
the classifier used. In practice, ProWRAS customizes synthetic sample
generation according to a classifier of choice and thereby reduces benchmarking
efforts.
- Abstract(参考訳): 85以上のオーバーサンプリングアルゴリズム(主にSMOTEアルゴリズムの拡張)が過去20年間に構築され、不均衡なデータセットの問題を解決する。
しかし、異なるオーバーサンプリングアルゴリズムは異なる分類器で異なる効率性を持つことが以前の研究から明らかである。
多くのアルゴリズムが利用できるため、選択した分類器のオーバーサンプリングアルゴリズムを決定するのは難しい。
ここでは,マルチスキームで分類器非依存なオーバーサンプリング手法 prowras (proximity weighted random affine shadowsampling) によってこの問題を克服する。
ProWRASはローカライズされたランダムアフィンシャドウサンプリング (LoRAS) アルゴリズムと Proximity Weighted Synthetic Oversampling (ProWSyn) アルゴリズムを統合している。
合成サンプルの分散とマイノリティクラスデータの近接重み付けクラスタリングシステムを制御することにより、prowrasアルゴリズムはマイノリティクラスの高次元凸空間をモデル化して合成サンプルを生成するアルゴリズムと比較して、パフォーマンスを向上させる。
ProWRASには4つのオーバーサンプリングスキームがあり、それぞれが生成されたデータの分散をモデル化する独自の方法を持っている。
最も重要な点として、オーバーサンプリングスキームを適切に選択したProWRASの性能は、使用する分類器とは独立である。
新たに開発したprowrasアルゴリズムを,20の公開データセット上で5つのsate-of-the-artオーバーサンプリングモデルと4つの異なる分類器に対してベンチマークした。
prowrasは、f1-scoreとkappa-scoreの両方において、統計的に有意な方法で他のオーバーサンプリングアルゴリズムを上回る。
さらに,分類器独立性Iスコアのための新しい尺度を導入し,使用する分類器とは独立に,ProWRASが優れた性能を発揮することを示した。
実際には、prowrasは選択した分類器に従って合成サンプル生成をカスタマイズし、ベンチマーク作業を減らす。
関連論文リスト
- Scaling LLM Inference with Optimized Sample Compute Allocation [56.524278187351925]
我々は、異なる推論構成の最適な混合を見つけるアルゴリズムであるOSCAを提案する。
実験の結果,学習した混合アロケーションでは,最高の単一構成よりも精度がよいことがわかった。
OSCAはシングルターンタスク以外のエージェント処理にも有効であることが示されており、デフォルト設定よりも3倍少ない計算でSWE-Benchの精度が向上している。
論文 参考訳(メタデータ) (2024-10-29T19:17:55Z) - INGB: Informed Nonlinear Granular Ball Oversampling Framework for Noisy
Imbalanced Classification [23.9207014576848]
分類問題では、データセットは通常、不均衡、ノイズ、複雑である。
本稿では, グラニュラーボール(INGB)をオーバーサンプリングの新たな方向とする非線形オーバーサンプリングフレームワークを提案する。
論文 参考訳(メタデータ) (2023-07-03T01:55:20Z) - Towards Automated Imbalanced Learning with Deep Hierarchical
Reinforcement Learning [57.163525407022966]
不均衡学習はデータマイニングにおいて基本的な課題であり、各クラスにトレーニングサンプルの不均等な比率が存在する。
オーバーサンプリングは、少数民族のための合成サンプルを生成することによって、不均衡な学習に取り組む効果的な手法である。
我々は,異なるレベルの意思決定を共同で最適化できる自動オーバーサンプリングアルゴリズムであるAutoSMOTEを提案する。
論文 参考訳(メタデータ) (2022-08-26T04:28:01Z) - Does Adversarial Oversampling Help us? [10.210871872870737]
本稿では,データセットのクラス不均衡を処理するために,3人のプレイヤーによるゲームベースのエンドツーエンド手法を提案する。
本稿では,敵対的マイノリティ・オーバーサンプリングではなく,敵対的オーバーサンプリング (AO) とデータ空間・オーバーサンプリング (DO) のアプローチを提案する。
提案手法の有効性を高次元・高不均衡・大規模マルチクラスデータセットを用いて検証した。
論文 参考訳(メタデータ) (2021-08-20T05:43:17Z) - Local policy search with Bayesian optimization [73.0364959221845]
強化学習は、環境との相互作用によって最適な政策を見つけることを目的としている。
局所探索のための政策勾配は、しばしばランダムな摂動から得られる。
目的関数の確率モデルとその勾配を用いたアルゴリズムを開発する。
論文 参考訳(メタデータ) (2021-06-22T16:07:02Z) - A Method for Handling Multi-class Imbalanced Data by Geometry based
Information Sampling and Class Prioritized Synthetic Data Generation (GICaPS) [15.433936272310952]
本稿では,多ラベル分類問題における不均衡データ処理の問題について考察する。
特徴ベクトル間の幾何学的関係を利用する2つの新しい手法が提案されている。
提案手法の有効性は,汎用的なマルチクラス認識問題を解くことによって解析する。
論文 参考訳(メタデータ) (2020-10-11T04:04:26Z) - Adaptive Sampling for Best Policy Identification in Markov Decision
Processes [79.4957965474334]
本稿では,学習者が生成モデルにアクセスできる場合の,割引マルコフ決定(MDP)における最良の政治的識別の問題について検討する。
最先端アルゴリズムの利点を論じ、解説する。
論文 参考訳(メタデータ) (2020-09-28T15:22:24Z) - A Systematic Characterization of Sampling Algorithms for Open-ended
Language Generation [71.31905141672529]
本稿では,自己回帰型言語モデルに広く採用されている祖先サンプリングアルゴリズムについて検討する。
エントロピー低減, 秩序保存, 斜面保全の3つの重要な特性を同定した。
これらの特性を満たすサンプリングアルゴリズムのセットが,既存のサンプリングアルゴリズムと同等に動作することがわかった。
論文 参考訳(メタデータ) (2020-09-15T17:28:42Z) - A Comparison of Synthetic Oversampling Methods for Multi-class Text
Classification [2.28438857884398]
著者らは,マルチクラストピック分類の問題に対するオーバーサンプリング手法の比較を行った。
SMOTEアルゴリズムは最も人気のあるオーバーサンプリング手法の1つである。
著者らは、このタスクでは、ニューラルネットワークよりもクラス不均衡により、KNNとSVMアルゴリズムの品質が影響を受けていると結論付けている。
論文 参考訳(メタデータ) (2020-08-11T11:41:53Z) - Non-Adaptive Adaptive Sampling on Turnstile Streams [57.619901304728366]
カラムサブセット選択、部分空間近似、射影クラスタリング、および空間サブリニアを$n$で使用するターンタイルストリームのボリュームに対する最初の相対エラーアルゴリズムを提供する。
我々の適応的なサンプリング手法は、様々なデータ要約問題に多くの応用をもたらしており、これは最先端を改善するか、より緩和された行列列モデルで以前に研究されただけである。
論文 参考訳(メタデータ) (2020-04-23T05:00:21Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。