論文の概要: From SMOTE to Mixup for Deep Imbalanced Classification
- arxiv url: http://arxiv.org/abs/2308.15457v1
- Date: Tue, 29 Aug 2023 17:31:26 GMT
- ステータス: 処理完了
- システム内更新日: 2023-08-30 13:01:28.394584
- Title: From SMOTE to Mixup for Deep Imbalanced Classification
- Title(参考訳): 深部不均衡分類のためのSMOTEからMixupへ
- Authors: Wei-Chao Cheng, Tan-Ha Mai, Hsuan-Tien Lin
- Abstract要約: 不均衡なデータを考えると、マイノリティクラスの一般化が不十分なため、ディープラーニングを用いて優れた分類器を訓練することは困難である。
伝統的に、データ拡張のためのよく知られた合成マイノリティオーバーサンプリング技術(SMOTE)がこの一般化を改善するために用いられている。
本研究では,従来のSMOTEが深層学習に不十分な理由を考察し,ソフトラベルを用いたSMOTEの強化について述べる。
- 参考スコア(独自算出の注目度): 9.548703593014107
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Given imbalanced data, it is hard to train a good classifier using deep
learning because of the poor generalization of minority classes. Traditionally,
the well-known synthetic minority oversampling technique (SMOTE) for data
augmentation, a data mining approach for imbalanced learning, has been used to
improve this generalization. However, it is unclear whether SMOTE also benefits
deep learning. In this work, we study why the original SMOTE is insufficient
for deep learning, and enhance SMOTE using soft labels. Connecting the
resulting soft SMOTE with Mixup, a modern data augmentation technique, leads to
a unified framework that puts traditional and modern data augmentation
techniques under the same umbrella. A careful study within this framework shows
that Mixup improves generalization by implicitly achieving uneven margins
between majority and minority classes. We then propose a novel margin-aware
Mixup technique that more explicitly achieves uneven margins. Extensive
experimental results demonstrate that our proposed technique yields
state-of-the-art performance on deep imbalanced classification while achieving
superior performance on extremely imbalanced data. The code is open-sourced in
our developed package https://github.com/ntucllab/imbalanced-DL to foster
future research in this direction.
- Abstract(参考訳): 不均衡なデータを考えると、マイノリティクラスの一般化が不十分なため、ディープラーニングを用いた優れた分類器のトレーニングは困難である。
伝統的に、不均衡学習のためのデータマイニングアプローチであるデータ拡張のためのよく知られた合成マイノリティオーバーサンプリング技術(smote)が、この一般化を改善するために使われてきた。
しかし、SMOTEがディープラーニングにも役立つかどうかは不明である。
本研究では,従来のSMOTEが深層学習に不十分な理由を考察し,ソフトラベルを用いてSMOTEを強化する。
結果として生じるソフトなSMOTEと、現代的なデータ拡張テクニックであるMixupを結びつけることで、従来型と現代的なデータ拡張テクニックを同じ傘の下に配置する統合フレームワークが実現される。
この枠組みの注意深い研究は、Mixupが多数派と少数派の間の不均一なマージンを暗黙的に達成することによって、一般化を改善することを示している。
次に、不均一なマージンをより明確に達成する新しいマージン対応ミックスアップ手法を提案する。
実験結果から,本手法は極めて不均衡なデータに対して高い性能を保ちながら,深い不均衡な分類において最先端の性能が得られることを示した。
このコードは、我々の開発パッケージ https://github.com/ntucllab/imbalanced-DL でオープンソース化され、この方向の将来の研究を促進する。
関連論文リスト
- Generalized Oversampling for Learning from Imbalanced datasets and
Associated Theory [0.0]
教師あり学習では、実際の不均衡なデータセットに直面することが多い。
本稿では,カーネル密度推定に基づくデータ拡張手法であるGOLIATHアルゴリズムを提案する。
我々は,不均衡な回帰状況下でのGOLIATHアルゴリズムの性能を評価する。
論文 参考訳(メタデータ) (2023-08-05T23:08:08Z) - Generative Oversampling for Imbalanced Data via Majority-Guided VAE [15.93867386081279]
本稿では,多数派の指導のもと,新たなマイノリティサンプルを生成する,Majority-Guided VAE(MGVAE)と呼ばれる新しいオーバーサンプリングモデルを提案する。
このようにして、新しく生成されたマイノリティサンプルは、大多数のサンプルの多様性と豊かさを継承することができ、下流タスクにおける過度な適合を軽減できる。
論文 参考訳(メタデータ) (2023-02-14T06:35:23Z) - An Embarrassingly Simple Baseline for Imbalanced Semi-Supervised
Learning [103.65758569417702]
半教師付き学習(SSL)は、ラベルのないデータを活用してモデルのパフォーマンスを向上させるという大きな約束を示している。
我々は、ラベル付きデータとラベルなしデータの両方で不均衡なクラス分散が発生する不均衡SSLという、より現実的で困難な設定について検討する。
我々は、ラベル付きデータを擬似ラベルで単純に補うことで、データの不均衡に取り組む単純なベースライン、SimiSについて研究する。
論文 参考訳(メタデータ) (2022-11-20T21:18:41Z) - OpenMixup: Open Mixup Toolbox and Benchmark for Visual Representation Learning [53.57075147367114]
視覚表現学習のための最初のミックスアップ拡張とベンチマークであるOpenMixupを紹介する。
私たちは、スクラッチから18の代表的なミックスアップベースラインをトレーニングし、11の画像データセットでそれらを厳格に評価します。
また、人気のあるビジョンバックボーン、最適化戦略、分析ツールキットのコレクションを含むモジュラーバックボーンをオープンソースにしています。
論文 参考訳(メタデータ) (2022-09-11T12:46:01Z) - Efficient Augmentation for Imbalanced Deep Learning [8.38844520504124]
本研究では、畳み込みニューラルネットワークの内部表現である不均衡画像データについて検討する。
モデルの特徴埋め込みとテストセットの一般化ギャップを測定し、マイノリティクラスではそのギャップが広いことを示す。
この洞察により、不均衡なデータのための効率的な3相CNNトレーニングフレームワークを設計できる。
論文 参考訳(メタデータ) (2022-07-13T09:43:17Z) - Imbalanced Classification via Explicit Gradient Learning From Augmented
Data [0.0]
本稿では、与えられた不均衡なデータセットを新しいマイノリティインスタンスに拡張する、新しい深層メタラーニング手法を提案する。
提案手法の利点は, 種々の不均衡比を持つ合成および実世界のデータセット上で実証される。
論文 参考訳(メタデータ) (2022-02-21T22:16:50Z) - Revisiting Consistency Regularization for Semi-Supervised Learning [80.28461584135967]
そこで我々は,FeatDistLossというシンプルな手法により,一貫性の規則化を改良したフレームワークを提案する。
実験結果から,本モデルは様々なデータセットや設定のための新しい技術状態を定義する。
論文 参考訳(メタデータ) (2021-12-10T20:46:13Z) - Boosting Discriminative Visual Representation Learning with
Scenario-Agnostic Mixup [54.09898347820941]
自己教師付き学習(SSL)と教師付き学習(SL)の両方のシナリオに対して,textbfScenario-textbfAgnostic textbfMixup (SAMix)を提案する。
具体的には、2つの混合クラス間の局所的な滑らかさを最適化するために、混合生成の目的関数を仮説化し、検証する。
非自明な混合サンプルを効果的に提供し、転送可能な能力を向上させるラベルフリーな生成サブネットワークを設計する。
論文 参考訳(メタデータ) (2021-11-30T14:49:59Z) - Virtual Data Augmentation: A Robust and General Framework for
Fine-tuning Pre-trained Models [51.46732511844122]
強力な事前訓練型言語モデル(PLM)は、小さな摂動や意図的な攻撃によって騙されることがある。
VDA(Virtual Data Augmentation)は,PLMを高度に微調整するための一般的なフレームワークである。
本手法は, PLMの堅牢性を向上し, 敵攻撃時の性能劣化を軽減する。
論文 参考訳(メタデータ) (2021-09-13T09:15:28Z) - M2m: Imbalanced Classification via Major-to-minor Translation [79.09018382489506]
ほとんどの実世界のシナリオでは、ラベル付きトレーニングデータセットは非常にクラス不均衡であり、ディープニューラルネットワークは、バランスの取れたテスト基準への一般化に苦しむ。
本稿では,より頻度の低いクラスを,より頻度の低いクラスからのサンプルを翻訳することによって,この問題を緩和する新しい方法を提案する。
提案手法は,従来の再サンプリング法や再重み付け法と比較して,マイノリティクラスの一般化を著しく改善することを示す。
論文 参考訳(メタデータ) (2020-04-01T13:21:17Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。