論文の概要: MixBoost: Synthetic Oversampling with Boosted Mixup for Handling Extreme
Imbalance
- arxiv url: http://arxiv.org/abs/2009.01571v1
- Date: Thu, 3 Sep 2020 10:34:24 GMT
- ステータス: 処理完了
- システム内更新日: 2022-10-22 07:08:25.042202
- Title: MixBoost: Synthetic Oversampling with Boosted Mixup for Handling Extreme
Imbalance
- Title(参考訳): MixBoost: エクストリーム不均衡処理のための強化されたミックスアップによる合成オーバーサンプリング
- Authors: Anubha Kabra, Ayush Chopra, Nikaash Puri, Pinkesh Badjatiya, Sukriti
Verma, Piyush Gupta, Balaji K
- Abstract要約: そこで我々は,MixBoostを知的に選択し,マイノリティクラスとマイノリティクラスからMixインスタンスを組み合わせて合成ハイブリッドインスタンスを生成する反復データ拡張手法を提案する。
我々は、20のベンチマークデータセット上でMixBoostを評価し、既存のアプローチより優れていることを示すとともに、重要度テストを通じてその有効性をテストする。
- 参考スコア(独自算出の注目度): 6.852287453141263
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Training a classification model on a dataset where the instances of one class
outnumber those of the other class is a challenging problem. Such imbalanced
datasets are standard in real-world situations such as fraud detection, medical
diagnosis, and computational advertising. We propose an iterative data
augmentation method, MixBoost, which intelligently selects (Boost) and then
combines (Mix) instances from the majority and minority classes to generate
synthetic hybrid instances that have characteristics of both classes. We
evaluate MixBoost on 20 benchmark datasets, show that it outperforms existing
approaches, and test its efficacy through significance testing. We also present
ablation studies to analyze the impact of the different components of MixBoost.
- Abstract(参考訳): あるクラスのインスタンスが他のクラスのインスタンスより多いデータセット上での分類モデルのトレーニングは、難しい問題である。
このような不均衡データセットは、不正検出、診断、計算広告といった現実の状況では標準である。
そこで本研究では,多数のクラスと少数クラスの(Mix)インスタンスをインテリジェントに選択し,それらを組み合わせて,両クラスの特徴を持つ合成ハイブリッドインスタンスを生成する,反復データ拡張手法であるMixBoostを提案する。
mixboostを20のベンチマークデータセットで評価し,既存のアプローチを上回っており,その効果を重要度テストによって検証している。
また,MixBoostの異なる成分の影響を分析するためのアブレーション研究を行った。
関連論文リスト
- Tackling Diverse Minorities in Imbalanced Classification [80.78227787608714]
不均衡データセットは、様々な現実世界のアプリケーションで一般的に見られ、分類器の訓練において重要な課題が提示されている。
マイノリティクラスとマイノリティクラスの両方のデータサンプルを混合することにより、反復的に合成サンプルを生成することを提案する。
提案するフレームワークの有効性を,7つの公開ベンチマークデータセットを用いて広範な実験により実証する。
論文 参考訳(メタデータ) (2023-08-28T18:48:34Z) - Self-Evolution Learning for Mixup: Enhance Data Augmentation on Few-Shot
Text Classification Tasks [75.42002070547267]
テキスト分類におけるデータ拡張のための自己進化学習(SE)に基づくミックスアップ手法を提案する。
モデル出力と原サンプルの1つのホットラベルを線形に補間して,新しい軟質なラベル混在を生成する,新しいインスタンス固有ラベル平滑化手法を提案する。
論文 参考訳(メタデータ) (2023-05-22T23:43:23Z) - Intra-class Adaptive Augmentation with Neighbor Correction for Deep
Metric Learning [99.14132861655223]
深層学習のためのクラス内適応拡張(IAA)フレームワークを提案する。
クラスごとのクラス内変動を合理的に推定し, 適応型合成試料を生成し, 硬質試料の採掘を支援する。
本手法は,検索性能の最先端手法を3%~6%向上させる。
論文 参考訳(メタデータ) (2022-11-29T14:52:38Z) - DoubleMix: Simple Interpolation-Based Data Augmentation for Text
Classification [56.817386699291305]
本稿では,DoubleMixと呼ばれる単純なデータ拡張手法を提案する。
DoubleMixはまず、トレーニングデータごとにいくつかの摂動サンプルを生成する。
次に、摂動データと元のデータを使って、隠れたニューラルネットワークの空間で2段階のステップを実行する。
論文 参考訳(メタデータ) (2022-09-12T15:01:04Z) - ProBoost: a Boosting Method for Probabilistic Classifiers [55.970609838687864]
ProBoostは確率的分類器のための新しいブースティングアルゴリズムである。
各トレーニングサンプルの不確実性を使用して、最も困難で不確実なものを決定する。
これは、最も不確実性が高いと判明したサンプルに徐々に焦点をあてる配列を生成する。
論文 参考訳(メタデータ) (2022-09-04T12:49:20Z) - Harnessing Hard Mixed Samples with Decoupled Regularizer [69.98746081734441]
Mixupは、決定境界を混合データで滑らかにすることで、ニューラルネットワークの一般化を改善する効率的なデータ拡張アプローチである。
本稿では,非結合型正規化器(Decoupled Mixup, DM)を用いた効率的な混合目標関数を提案する。
DMは、ミキシングの本来の滑らかさを損なうことなく、硬質混合試料を適応的に利用して識別特性をマイニングすることができる。
論文 参考訳(メタデータ) (2022-03-21T07:12:18Z) - Balanced-MixUp for Highly Imbalanced Medical Image Classification [19.338350044289736]
そこで本研究では,MixUp正則化手法に基づくトレーニングデータをサンプリングする新しいメカニズムを提案する。
我々は、高不均衡な網膜画像のデータセットと、胃腸内ビデオフレームの長いテールデータセットを実験した。
論文 参考訳(メタデータ) (2021-09-20T21:31:31Z) - A Synthetic Over-sampling method with Minority and Majority classes for
imbalance problems [0.0]
マイノリティクラスとマイノリティクラス(SOMM)を用いて合成インスタンスを生成する新しい手法を提案する。
SOMMは、マイノリティデータ空間内で多様な合成インスタンスを生成する。
生成されたインスタンスを、両方のクラスを含む近隣に適応的に更新する。
論文 参考訳(メタデータ) (2020-11-09T03:39:56Z) - Weakly Supervised-Based Oversampling for High Imbalance and High
Dimensionality Data Classification [2.9283685972609494]
オーバーサンプリングは、不均衡な分類を解決する効果的な方法である。
合成サンプルの不正確なラベルは、データセットの分布を歪ませる。
本稿では,合成試料の不正確なラベル付けを扱うために,弱教師付き学習を導入する。
論文 参考訳(メタデータ) (2020-09-29T15:26:34Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。