論文の概要: Solving the Class Imbalance Problem Using a Counterfactual Method for
Data Augmentation
- arxiv url: http://arxiv.org/abs/2111.03516v1
- Date: Fri, 5 Nov 2021 14:14:06 GMT
- ステータス: 処理完了
- システム内更新日: 2021-11-08 17:12:44.248512
- Title: Solving the Class Imbalance Problem Using a Counterfactual Method for
Data Augmentation
- Title(参考訳): データ拡張のための対実的手法によるクラス不均衡問題の解法
- Authors: Mohammed Temraz and Mark T. Keane
- Abstract要約: クラス不均衡データセットからの学習は、機械学習アルゴリズムに課題をもたらす。
我々は、マイノリティクラスにおける合成対実例を生成する新しいデータ拡張手法(eXplainable AIから適応)を推進している。
4つの異なる分類器と25のデータセットを用いたいくつかの実験を報告し、本手法(CFA)がマイノリティクラスで有用な合成データポイントを生成することを示す。
- 参考スコア(独自算出の注目度): 4.454557728745761
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Learning from class imbalanced datasets poses challenges for many machine
learning algorithms. Many real-world domains are, by definition, class
imbalanced by virtue of having a majority class that naturally has many more
instances than its minority class (e.g. genuine bank transactions occur much
more often than fraudulent ones). Many methods have been proposed to solve the
class imbalance problem, among the most popular being oversampling techniques
(such as SMOTE). These methods generate synthetic instances in the minority
class, to balance the dataset, performing data augmentations that improve the
performance of predictive machine learning (ML) models. In this paper we
advance a novel data augmentation method (adapted from eXplainable AI), that
generates synthetic, counterfactual instances in the minority class. Unlike
other oversampling techniques, this method adaptively combines exist-ing
instances from the dataset, using actual feature-values rather than
interpolating values between instances. Several experiments using four
different classifiers and 25 datasets are reported, which show that this
Counterfactual Augmentation method (CFA) generates useful synthetic data points
in the minority class. The experiments also show that CFA is competitive with
many other oversampling methods many of which are variants of SMOTE. The basis
for CFAs performance is discussed, along with the conditions under which it is
likely to perform better or worse in future tests.
- Abstract(参考訳): クラス不均衡データセットから学ぶことは、多くの機械学習アルゴリズムに課題をもたらす。
多くの現実世界のドメインは、定義上、少数派よりも多くのインスタンスを持つ多数派クラス(例えば、本物の銀行取引は詐欺的取引よりもはるかに頻繁に起こる)を持つため、不均衡なクラスである。
クラス不均衡問題を解決するために多くの手法が提案されているが、最も一般的なのはオーバーサンプリング技術である(SMOTEなど)。
これらの手法はマイノリティクラスで合成インスタンスを生成し、データセットのバランスをとり、予測機械学習(ML)モデルの性能を向上させるデータ拡張を実行する。
本稿では,マイノリティクラスで合成された反事実インスタンスを生成する新しいデータ拡張法(説明可能なaiから適応する)を考案する。
他のオーバーサンプリング技術とは異なり、この方法はインスタンス間の値を補間するのではなく、実際の機能値を使用してデータセットから存在インスタンスを適応的に結合する。
4つの異なる分類器と25のデータセットを用いたいくつかの実験を報告し、本手法(CFA)がマイノリティクラスで有用な合成データポイントを生成することを示す。
これらの実験は、CFAがSMOTEの変種である多くのオーバーサンプリング手法と競合していることを示している。
CFAのパフォーマンスの基礎は、将来のテストでより良く、または悪くなる可能性がある条件とともに議論される。
関連論文リスト
- Tackling Diverse Minorities in Imbalanced Classification [80.78227787608714]
不均衡データセットは、様々な現実世界のアプリケーションで一般的に見られ、分類器の訓練において重要な課題が提示されている。
マイノリティクラスとマイノリティクラスの両方のデータサンプルを混合することにより、反復的に合成サンプルを生成することを提案する。
提案するフレームワークの有効性を,7つの公開ベンチマークデータセットを用いて広範な実験により実証する。
論文 参考訳(メタデータ) (2023-08-28T18:48:34Z) - Intra-class Adaptive Augmentation with Neighbor Correction for Deep
Metric Learning [99.14132861655223]
深層学習のためのクラス内適応拡張(IAA)フレームワークを提案する。
クラスごとのクラス内変動を合理的に推定し, 適応型合成試料を生成し, 硬質試料の採掘を支援する。
本手法は,検索性能の最先端手法を3%~6%向上させる。
論文 参考訳(メタデータ) (2022-11-29T14:52:38Z) - Towards Automated Imbalanced Learning with Deep Hierarchical
Reinforcement Learning [57.163525407022966]
不均衡学習はデータマイニングにおいて基本的な課題であり、各クラスにトレーニングサンプルの不均等な比率が存在する。
オーバーサンプリングは、少数民族のための合成サンプルを生成することによって、不均衡な学習に取り組む効果的な手法である。
我々は,異なるレベルの意思決定を共同で最適化できる自動オーバーサンプリングアルゴリズムであるAutoSMOTEを提案する。
論文 参考訳(メタデータ) (2022-08-26T04:28:01Z) - HardVis: Visual Analytics to Handle Instance Hardness Using Undersampling and Oversampling Techniques [48.82319198853359]
HardVisは、主に不均衡な分類シナリオでインスタンスの硬さを処理するために設計されたビジュアル分析システムである。
ユーザはさまざまな視点からデータのサブセットを探索して、これらのパラメータをすべて決定できる。
HardVisの有効性と有効性は仮説的利用シナリオとユースケースで実証される。
論文 参考訳(メタデータ) (2022-03-29T17:04:16Z) - Imbalanced Classification via Explicit Gradient Learning From Augmented
Data [0.0]
本稿では、与えられた不均衡なデータセットを新しいマイノリティインスタンスに拡張する、新しい深層メタラーニング手法を提案する。
提案手法の利点は, 種々の不均衡比を持つ合成および実世界のデータセット上で実証される。
論文 参考訳(メタデータ) (2022-02-21T22:16:50Z) - SMOTified-GAN for class imbalanced pattern classification problems [0.41998444721319217]
本稿では,SMOTEとGANの相乗効果を持つ2相オーバーサンプリング手法を提案する。
実験の結果,様々なベンチマークデータセットにおいて,マイノリティクラス(es)のサンプル品質が向上していることが証明された。
論文 参考訳(メタデータ) (2021-08-06T06:14:05Z) - GMOTE: Gaussian based minority oversampling technique for imbalanced
classification adapting tail probability of outliers [0.0]
データレベルのアプローチは、主にオーバーサンプリングメソッドを使用して問題を解決します。例えば、合成マイノリティオーバーサンプリング技術(SMOTE)です。
本稿では,不均衡データセットに対する統計的観点からガウス型マイノリティオーバーサンプリング手法(gmote)を提案する。
GMOTEが分類および回帰木(CART)またはサポートベクター機械(SVM)と結合されるとき、それはよりよい正確さおよびF1スコアを示します。
論文 参考訳(メタデータ) (2021-05-09T07:04:37Z) - Improving Calibration for Long-Tailed Recognition [68.32848696795519]
このようなシナリオにおけるキャリブレーションとパフォーマンスを改善する2つの方法を提案します。
異なるサンプルによるデータセットバイアスに対して,シフトバッチ正規化を提案する。
提案手法は,複数の長尾認識ベンチマークデータセットに新しいレコードをセットする。
論文 参考訳(メタデータ) (2021-04-01T13:55:21Z) - A Synthetic Over-sampling method with Minority and Majority classes for
imbalance problems [0.0]
マイノリティクラスとマイノリティクラス(SOMM)を用いて合成インスタンスを生成する新しい手法を提案する。
SOMMは、マイノリティデータ空間内で多様な合成インスタンスを生成する。
生成されたインスタンスを、両方のクラスを含む近隣に適応的に更新する。
論文 参考訳(メタデータ) (2020-11-09T03:39:56Z) - Conditional Wasserstein GAN-based Oversampling of Tabular Data for
Imbalanced Learning [10.051309746913512]
本稿では,条件付きWasserstein GANに基づくオーバーサンプリング手法を提案する。
実世界の7つのデータセット上で,標準的なオーバーサンプリング手法と不均衡なベースラインに対して,本手法をベンチマークした。
論文 参考訳(メタデータ) (2020-08-20T20:33:56Z) - M2m: Imbalanced Classification via Major-to-minor Translation [79.09018382489506]
ほとんどの実世界のシナリオでは、ラベル付きトレーニングデータセットは非常にクラス不均衡であり、ディープニューラルネットワークは、バランスの取れたテスト基準への一般化に苦しむ。
本稿では,より頻度の低いクラスを,より頻度の低いクラスからのサンプルを翻訳することによって,この問題を緩和する新しい方法を提案する。
提案手法は,従来の再サンプリング法や再重み付け法と比較して,マイノリティクラスの一般化を著しく改善することを示す。
論文 参考訳(メタデータ) (2020-04-01T13:21:17Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。