論文の概要: STEM Rebalance: A Novel Approach for Tackling Imbalanced Datasets using
SMOTE, Edited Nearest Neighbour, and Mixup
- arxiv url: http://arxiv.org/abs/2311.07504v1
- Date: Mon, 13 Nov 2023 17:45:28 GMT
- ステータス: 処理完了
- システム内更新日: 2023-11-14 13:23:11.336603
- Title: STEM Rebalance: A Novel Approach for Tackling Imbalanced Datasets using
SMOTE, Edited Nearest Neighbour, and Mixup
- Title(参考訳): STEMリバランス: SMOTE, 編集近辺, ミックスアップを用いた不均衡データセットへの新たなアプローチ
- Authors: Yumnah Hasan, Fatemeh Amerehi, Patrick Healy, Conor Ryan
- Abstract要約: 医用画像における非バランスなデータセットは、スクイードクラスの割合と異常な症例の不足によって特徴づけられる。
本稿では,Mixup Augmentation を用いて新たなデータポイントを汎用的なビジナル分布として生成する可能性について検討する。
不均衡なデータセットが一般的である乳癌の問題に焦点をあてる。
- 参考スコア(独自算出の注目度): 0.20482269513546458
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Imbalanced datasets in medical imaging are characterized by skewed class
proportions and scarcity of abnormal cases. When trained using such data,
models tend to assign higher probabilities to normal cases, leading to biased
performance. Common oversampling techniques such as SMOTE rely on local
information and can introduce marginalization issues. This paper investigates
the potential of using Mixup augmentation that combines two training examples
along with their corresponding labels to generate new data points as a generic
vicinal distribution. To this end, we propose STEM, which combines SMOTE-ENN
and Mixup at the instance level. This integration enables us to effectively
leverage the entire distribution of minority classes, thereby mitigating both
between-class and within-class imbalances. We focus on the breast cancer
problem, where imbalanced datasets are prevalent. The results demonstrate the
effectiveness of STEM, which achieves AUC values of 0.96 and 0.99 in the
Digital Database for Screening Mammography and Wisconsin Breast Cancer
(Diagnostics) datasets, respectively. Moreover, this method shows promising
potential when applied with an ensemble of machine learning (ML) classifiers.
- Abstract(参考訳): 医療画像における不均衡データセットは、歪んだクラスの割合と異常な症例の不足が特徴である。
このようなデータを使ってトレーニングする場合、モデルは通常のケースに高い確率を割り当てる傾向があり、パフォーマンスに偏りが生じる。
SMOTEのような一般的なオーバーサンプリング技術は、ローカル情報に依存し、限界化問題を導入することができる。
本稿では,2つのトレーニング例と対応するラベルを組み合わせ,汎用的なビジナル分布として新たなデータポイントを生成するMixup Augmentationの有用性について検討する。
そこで本研究では,SMOTE-ENNとMixupをインスタンスレベルで組み合わせたSTEMを提案する。
この統合により、マイノリティクラス全体の分散を効果的に活用し、クラス間の不均衡とクラス内の不均衡を軽減できます。
不均衡なデータセットが一般的である乳癌の問題に焦点を当てる。
その結果, 乳房検診用デジタルデータベースとウィスコンシン乳癌(診断)データセットにおいて, AUC値0.96と0.99のSTEMの有効性が示された。
さらに,機械学習(ML)分類器のアンサンブルに適用した場合,有望なポテンシャルを示す。
関連論文リスト
- Iterative Online Image Synthesis via Diffusion Model for Imbalanced
Classification [29.730360798234294]
医用画像分類におけるクラス不均衡問題に対処するための反復オンライン画像合成フレームワークを提案する。
このフレームワークにはオンライン画像合成(OIS)と精度適応サンプリング(AAS)という2つの重要なモジュールが組み込まれている。
不均衡な分類に対処するための提案手法の有効性を評価するため,HAM10000およびAPTOSデータセットを用いて実験を行った。
論文 参考訳(メタデータ) (2024-03-13T10:51:18Z) - Interpretable Solutions for Breast Cancer Diagnosis with Grammatical
Evolution and Data Augmentation [0.15705429611931054]
我々は、新しい合成データ生成技術であるSTEMを用いて、文法進化(GE)によって生成されたモデルを訓練する方法を示す。
本手法はDigital Database for Screening Mammography(DDSM)とウィスコンシン乳癌(WBC)データセットで検証する。
GE由来のモデルは、解釈可能な解を維持しながら、最良のAUCを示すことを示す。
論文 参考訳(メタデータ) (2024-01-25T15:45:28Z) - Few-shot learning for COVID-19 Chest X-Ray Classification with
Imbalanced Data: An Inter vs. Intra Domain Study [49.5374512525016]
医療画像データセットは、コンピュータ支援診断、治療計画、医学研究に使用される訓練モデルに不可欠である。
データ分散のばらつき、データの不足、ジェネリックイメージから事前トレーニングされたモデルを使用する場合の転送学習の問題などである。
本稿では,データ不足と分散不均衡の影響を軽減するために,一連の手法を統合したシームズニューラルネットワークに基づく手法を提案する。
論文 参考訳(メタデータ) (2024-01-18T16:59:27Z) - MCRAGE: Synthetic Healthcare Data for Fairness [3.0089659534785853]
そこで本稿では,MCRAGE (Generative Modeling) の強化による不均衡データセットの増大によるマイノリティクラス再バランスを提案する。
MCRAGEは、デノイング拡散確率モデル (Denoising Diffusion Probabilistic Model, CDDPM) を訓練し、未表現のクラスから高品質な合成EHRサンプルを生成する。
この合成データを使用して、既存の不均衡なデータセットを増大させ、その結果、すべてのクラスにまたがるよりバランスの取れた分散を実現します。
論文 参考訳(メタデータ) (2023-10-27T19:02:22Z) - Tackling Diverse Minorities in Imbalanced Classification [80.78227787608714]
不均衡データセットは、様々な現実世界のアプリケーションで一般的に見られ、分類器の訓練において重要な課題が提示されている。
マイノリティクラスとマイノリティクラスの両方のデータサンプルを混合することにより、反復的に合成サンプルを生成することを提案する。
提案するフレームワークの有効性を,7つの公開ベンチマークデータセットを用いて広範な実験により実証する。
論文 参考訳(メタデータ) (2023-08-28T18:48:34Z) - Class-Balancing Diffusion Models [57.38599989220613]
クラスバランシング拡散モデル(CBDM)は、分散調整正規化器をソリューションとして訓練する。
提案手法は,CIFAR100/CIFAR100LTデータセットで生成結果をベンチマークし,下流認識タスクにおいて優れた性能を示す。
論文 参考訳(メタデータ) (2023-04-30T20:00:14Z) - SC-MIL: Supervised Contrastive Multiple Instance Learning for Imbalanced
Classification in Pathology [2.854576370929018]
医療画像における機械学習の問題は、しばしば稀な疾患に対処する。
病理画像では、別のレベルの不均衡があり、正にラベル付けされた全スライド画像(WSI)が与えられると、その内部のピクセルのごく一部だけが正のラベルに寄与する。
本稿では,バッグレベルの表現から最適な分類器学習へと,段階的に移行するラベル不均衡の存在下での協調学習型MILフレームワークを提案する。
論文 参考訳(メタデータ) (2023-03-23T16:28:15Z) - Effective Class-Imbalance learning based on SMOTE and Convolutional
Neural Networks [0.1074267520911262]
不均衡データ(ID)は、機械学習(ML)モデルから満足な結果を得るための問題である。
本稿では,Deep Neural Networks(DNN)とConvolutional Neural Networks(CNN)に基づく手法の有効性を検討する。
信頼性の高い結果を得るために,ランダムにシャッフルしたデータ分布を用いて100回実験を行った。
論文 参考訳(メタデータ) (2022-09-01T07:42:16Z) - Density-Aware Personalized Training for Risk Prediction in Imbalanced
Medical Data [89.79617468457393]
不均衡率(クラス密度差)のトレーニングモデルは、最適以下の予測につながる可能性がある。
この不均衡問題に対するモデルトレーニングのためのフレームワークを提案する。
実世界の医療データセットにおけるモデルの性能向上を実証する。
論文 参考訳(メタデータ) (2022-07-23T00:39:53Z) - Bootstrapping Your Own Positive Sample: Contrastive Learning With
Electronic Health Record Data [62.29031007761901]
本稿では,新しいコントラスト型正規化臨床分類モデルを提案する。
EHRデータに特化した2つのユニークなポジティブサンプリング戦略を紹介します。
私たちのフレームワークは、現実世界のCOVID-19 EHRデータの死亡リスクを予測するために、競争の激しい実験結果をもたらします。
論文 参考訳(メタデータ) (2021-04-07T06:02:04Z) - Statistical control for spatio-temporal MEG/EEG source imaging with
desparsified multi-task Lasso [102.84915019938413]
脳磁図(MEG)や脳電図(EEG)のような非侵襲的手法は、非侵襲的手法を約束する。
ソースローカライゼーション(ソースイメージング)の問題は、しかしながら、高次元の統計的推測問題を引き起こす。
この問題に対処するために,分離されたマルチタスクラッソ(ecd-MTLasso)のアンサンブルを提案する。
論文 参考訳(メタデータ) (2020-09-29T21:17:16Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。