論文の概要: GAN based Data Augmentation to Resolve Class Imbalance
- arxiv url: http://arxiv.org/abs/2206.05840v1
- Date: Sun, 12 Jun 2022 21:21:55 GMT
- ステータス: 処理完了
- システム内更新日: 2022-06-15 03:22:28.432824
- Title: GAN based Data Augmentation to Resolve Class Imbalance
- Title(参考訳): GANに基づくクラス不均衡解消のためのデータ強化
- Authors: Sairamvinay Vijayaraghavan, Terry Guan, Jason (Jinxiao) Song
- Abstract要約: 多くの関連するタスクにおいて、データセットは非常に少数の不正事件が観察される。
この不均衡の存在は、すべてのラベルを大多数のクラスとして予測することで、学習モデルの振舞いに影響を与える可能性がある。
我々はGAN(Generative Adversarial Network)を訓練し、少数民族の説得力のある(かつ信頼性の高い)合成例を多数生成した。
- 参考スコア(独自算出の注目度): 0.0
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: The number of credit card fraud has been growing as technology grows and
people can take advantage of it. Therefore, it is very important to implement a
robust and effective method to detect such frauds. The machine learning
algorithms are appropriate for these tasks since they try to maximize the
accuracy of predictions and hence can be relied upon. However, there is an
impending flaw where in machine learning models may not perform well due to the
presence of an imbalance across classes distribution within the sample set. So,
in many related tasks, the datasets have a very small number of observed fraud
cases (sometimes around 1 percent positive fraud instances found). Therefore,
this imbalance presence may impact any learning model's behavior by predicting
all labels as the majority class, hence allowing no scope for generalization in
the predictions made by the model. We trained Generative Adversarial
Network(GAN) to generate a large number of convincing (and reliable) synthetic
examples of the minority class that can be used to alleviate the class
imbalance within the training set and hence generalize the learning of the data
more effectively.
- Abstract(参考訳): テクノロジーが成長し、人々が利用できるようになるにつれて、クレジットカード詐欺の数は増えている。
そのため、このような不正を検知する堅牢で効果的な方法を実現することが重要である。
機械学習アルゴリズムは予測の精度を最大化しようとするため、これらのタスクに適しており、従って信頼することができる。
しかし、機械学習モデルでは、サンプルセット内のクラス分散間の不均衡が存在するため、うまく機能しない可能性のある、差し迫った欠陥がある。
そのため、多くの関連するタスクにおいて、データセットには観測された不正事件が極めて少ない(場合によっては1%のポジティブな不正事件が見つかる)。
したがって、この不均衡の存在は、すべてのラベルを多数派クラスとして予測することで、学習モデルの振る舞いに影響を与える可能性がある。
我々はGAN(Generative Adversarial Network)を訓練し、トレーニングセット内のクラス不均衡を緩和し、データの学習をより効果的に一般化するために使用できるマイノリティクラスの多数の説得力のある(かつ信頼性の高い)合成例を生成した。
関連論文リスト
- Probabilistic Contrastive Learning for Long-Tailed Visual Recognition [78.70453964041718]
細長い分布は、少数の少数派が限られた数のサンプルを含む実世界のデータにしばしば現れる。
近年の研究では、教師付きコントラスト学習がデータ不均衡を緩和する有望な可能性を示していることが明らかになっている。
本稿では,特徴空間の各クラスからのサンプルデータ分布を推定する確率論的コントラスト学習アルゴリズムを提案する。
論文 参考訳(メタデータ) (2024-03-11T13:44:49Z) - Ask Your Distribution Shift if Pre-Training is Right for You [74.18516460467019]
実際に、事前訓練されたモデルの微調整は、いくつかのケースではロバスト性を大幅に改善するが、他のケースではまったく改善しない。
分散シフト中のモデルの2つの障害モード – トレーニングデータの補間不足とバイアス – に注目する。
我々の研究は、親指の規則として、事前学習は、粗悪な外挿を緩和するがデータセットのバイアスを緩和する助けとなることを示唆している。
論文 参考訳(メタデータ) (2024-02-29T23:46:28Z) - Learning Defect Prediction from Unrealistic Data [57.53586547895278]
事前訓練されたコードのモデルは、コード理解と生成タスクに人気がある。
このようなモデルは大きい傾向があり、訓練データの総量を必要とする。
人工的に注入されたバグのある関数など、はるかに大きくてもより現実的なデータセットを持つモデルをトレーニングすることが一般的になった。
このようなデータで訓練されたモデルは、実際のプログラムでは性能が劣りながら、同様のデータでのみうまく機能する傾向にある。
論文 参考訳(メタデータ) (2023-11-02T01:51:43Z) - Empirical study of Machine Learning Classifier Evaluation Metrics
behavior in Massively Imbalanced and Noisy data [0.0]
我々は、実世界の不正検出データセットに典型的な人間のアノテーションエラーと極端な不均衡をモデル化するための理論的基盤を開発する。
我々は、F1スコアとg平均の組み合わせが、典型的な不均衡不正検出モデル分類における最良の評価指標であることを実証した。
論文 参考訳(メタデータ) (2022-08-25T07:30:31Z) - Throwing Away Data Improves Worst-Class Error in Imbalanced
Classification [36.91428748713018]
クラス不均衡は分類問題に悪影響を及ぼすが、その治療は理論と実践において異なる。
本稿では,線形分離可能なデータに対する分類器の誤りを記述できる学習理論の開発に挑戦する。
論文 参考訳(メタデータ) (2022-05-23T23:43:18Z) - CMW-Net: Learning a Class-Aware Sample Weighting Mapping for Robust Deep
Learning [55.733193075728096]
現代のディープニューラルネットワークは、破損したラベルやクラス不均衡を含むバイアス付きトレーニングデータに容易に適合する。
サンプル再重み付け手法は、このデータバイアス問題を緩和するために一般的に使用されている。
本稿では,データから直接明示的な重み付け方式を適応的に学習できるメタモデルを提案する。
論文 参考訳(メタデータ) (2022-02-11T13:49:51Z) - Fairness in Semi-supervised Learning: Unlabeled Data Help to Reduce
Discrimination [53.3082498402884]
機械学習の台頭における投機は、機械学習モデルによる決定が公正かどうかである。
本稿では,未ラベルデータのラベルを予測するための擬似ラベリングを含む,前処理フェーズにおける公平な半教師付き学習の枠組みを提案する。
偏見、分散、ノイズの理論的分解分析は、半教師付き学習における差別の異なる源とそれらが公平性に与える影響を浮き彫りにする。
論文 参考訳(メタデータ) (2020-09-25T05:48:56Z) - Imbalanced Image Classification with Complement Cross Entropy [10.35173901214638]
不正なクラスにおける出力スコアをほとんど無視するクロスエントロピーの研究を行う。
本研究は,不規則なクラスにおける予測確率が不均衡画像分類の予測精度を向上させることを明らかにする。
提案された損失により、基底真理クラスは他のクラスをソフトマックス確率で圧倒する。
論文 参考訳(メタデータ) (2020-09-04T13:46:24Z) - Good Classifiers are Abundant in the Interpolating Regime [64.72044662855612]
補間分類器間のテストエラーの完全な分布を正確に計算する手法を開発した。
テストエラーは、最悪の補間モデルのテストエラーから大きく逸脱する、小さな典型的な$varepsilon*$に集中する傾向にある。
以上の結果から,統計的学習理論における通常の解析手法は,実際に観測された優れた一般化性能を捉えるのに十分な粒度にはならない可能性が示唆された。
論文 参考訳(メタデータ) (2020-06-22T21:12:31Z) - Imbalanced Data Learning by Minority Class Augmentation using Capsule
Adversarial Networks [31.073558420480964]
本稿では,2つの同時手法を合体させて,不均衡な画像のバランスを回復する手法を提案する。
我々のモデルでは、生成的および識別的ネットワークは、新しい競争力のあるゲームをする。
カプセルGANの合体は、畳み込みGANと比較して非常に少ないパラメータで重なり合うクラスを認識するのに効果的である。
論文 参考訳(メタデータ) (2020-04-05T12:36:06Z) - VaB-AL: Incorporating Class Imbalance and Difficulty with Variational
Bayes for Active Learning [38.33920705605981]
本研究では,クラス不均衡をアクティブラーニングフレームワークに自然に組み込む手法を提案する。
提案手法は,複数の異なるデータセットのタスク分類に適用可能であることを示す。
論文 参考訳(メタデータ) (2020-03-25T07:34:06Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。