論文の概要: A Novel Double Pruning method for Imbalanced Data using Information Entropy and Roulette Wheel Selection for Breast Cancer Diagnosis
- arxiv url: http://arxiv.org/abs/2503.12239v1
- Date: Sat, 15 Mar 2025 19:34:15 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-03-18 12:33:00.957678
- Title: A Novel Double Pruning method for Imbalanced Data using Information Entropy and Roulette Wheel Selection for Breast Cancer Diagnosis
- Title(参考訳): 乳がん診断のための情報エントロピーとルーレットホイール選択を用いた新しい二重プルーニング法
- Authors: Soufiane Bacha, Huansheng Ning, Belarbi Mostefa, Doreen Sebastian Sarwatt, Sahraoui Dhelim,
- Abstract要約: SMOTEBoost法はデータセットのバランスをとるために合成データを生成するが、決定境界付近で重要な重複する領域を見落としてしまう可能性がある。
本稿では,SMOTEBoostの拡張版であるRE-SMOTEBoostを提案する。
情報エントロピーに基づくフィルタリング機構を組み込んで、ノイズや境界ケースを低減し、生成されたデータの品質を向上させる。
- 参考スコア(独自算出の注目度): 2.8661021832561757
- License:
- Abstract: Accurate illness diagnosis is vital for effective treatment and patient safety. Machine learning models are widely used for cancer diagnosis based on historical medical data. However, data imbalance remains a major challenge, leading to hindering classifier performance and reliability. The SMOTEBoost method addresses this issue by generating synthetic data to balance the dataset, but it may overlook crucial overlapping regions near the decision boundary and can produce noisy samples. This paper proposes RE-SMOTEBoost, an enhanced version of SMOTEBoost, designed to overcome these limitations. Firstly, RE-SMOTEBoost focuses on generating synthetic samples in overlapping regions to better capture the decision boundary using roulette wheel selection. Secondly, it incorporates a filtering mechanism based on information entropy to reduce noise, and borderline cases and improve the quality of generated data. Thirdly, we introduce a double regularization penalty to control the synthetic samples proximity to the decision boundary and avoid class overlap. These enhancements enable higher-quality oversampling of the minority class, resulting in a more balanced and effective training dataset. The proposed method outperforms existing state-of-the-art techniques when evaluated on imbalanced datasets. Compared to the top-performing sampling algorithms, RE-SMOTEBoost demonstrates a notable improvement of 3.22\% in accuracy and a variance reduction of 88.8\%. These results indicate that the proposed model offers a solid solution for medical settings, effectively overcoming data scarcity and severe imbalance caused by limited samples, data collection difficulties, and privacy constraints.
- Abstract(参考訳): 正確な疾患診断は、効果的な治療と患者の安全のために不可欠である。
機械学習モデルは、歴史的医療データに基づくがん診断に広く利用されている。
しかし、データの不均衡は依然として大きな課題であり、分類器の性能と信頼性を妨げている。
SMOTEBoostメソッドはデータセットのバランスをとるために合成データを生成することでこの問題に対処するが、決定境界付近で重なり合う重要な領域を見落とし、ノイズの多いサンプルを生成することができる。
本稿では,SMOTEBoostの拡張版であるRE-SMOTEBoostを提案する。
まず、RE-SMOTEBoostは重なり合う領域で合成サンプルを生成し、ルーレットホイールの選択により決定境界をよりよく捉えることに焦点を当てている。
第二に、情報エントロピーに基づくフィルタリング機構を組み込んでノイズを低減し、境界線のケースを除去し、生成されたデータの品質を向上させる。
第3に、決定境界に近い合成サンプルを制御し、クラスオーバーラップを回避するために、二重正則化ペナルティを導入する。
これらの強化により、マイノリティクラスの高品質なオーバーサンプリングが可能になり、よりバランスの取れた効果的なトレーニングデータセットが実現される。
提案手法は、不均衡なデータセットで評価した場合、既存の最先端技術よりも優れている。
トップパフォーマンスのサンプリングアルゴリズムと比較して、RE-SMOTEBoostは3.22\%の精度と88.8\%のばらつきを顕著に改善している。
これらの結果から,本モデルでは,限られたサンプルやデータ収集困難,プライバシ制約などによるデータ不足や深刻な不均衡を効果的に克服する,医用設定のための堅牢なソリューションが提案されている。
関連論文リスト
- Wafer Map Defect Classification Using Autoencoder-Based Data Augmentation and Convolutional Neural Network [4.8748194765816955]
本研究では、自己エンコーダに基づくデータ拡張技術と畳み込みニューラルネットワーク(CNN)を組み合わせた新しい手法を提案する。
提案手法は,ランダムフォレスト,SVM,ロジスティック回帰をそれぞれ19%,21%,27%以上,98.56%の分類精度を達成している。
論文 参考訳(メタデータ) (2024-11-17T10:19:54Z) - Improving EEG Classification Through Randomly Reassembling Original and Generated Data with Transformer-based Diffusion Models [12.703528969668062]
本稿では,トランスフォーマーを用いた拡散確率モデルとデータに基づく拡張手法を提案する。
脳波信号の特徴として,信号の事前処理を行う定数要素スケーリング手法を提案する。
提案手法は,生成したデータを時間領域の原データでランダムに再集合し,ビジナルデータを取得する。
論文 参考訳(メタデータ) (2024-07-20T06:58:14Z) - ROPO: Robust Preference Optimization for Large Language Models [59.10763211091664]
外部モデルの助けを借りずにノイズ耐性とノイズサンプルのフィルタリングを統合する反復アライメント手法を提案する。
Mistral-7BとLlama-2-7Bで広く使われている3つのデータセットの実験では、ROPOが既存の嗜好アライメント法を大幅に上回っていることが示されている。
論文 参考訳(メタデータ) (2024-04-05T13:58:51Z) - Few-shot learning for COVID-19 Chest X-Ray Classification with
Imbalanced Data: An Inter vs. Intra Domain Study [49.5374512525016]
医療画像データセットは、コンピュータ支援診断、治療計画、医学研究に使用される訓練モデルに不可欠である。
データ分散のばらつき、データの不足、ジェネリックイメージから事前トレーニングされたモデルを使用する場合の転送学習の問題などである。
本稿では,データ不足と分散不均衡の影響を軽減するために,一連の手法を統合したシームズニューラルネットワークに基づく手法を提案する。
論文 参考訳(メタデータ) (2024-01-18T16:59:27Z) - ArSDM: Colonoscopy Images Synthesis with Adaptive Refinement Semantic
Diffusion Models [69.9178140563928]
大腸内視鏡検査は臨床診断や治療に不可欠である。
注釈付きデータの不足は、既存の手法の有効性と一般化を制限する。
本稿では, 下流作業に有用な大腸内視鏡画像を生成するために, 適応Refinement Semantic Diffusion Model (ArSDM)を提案する。
論文 参考訳(メタデータ) (2023-09-03T07:55:46Z) - BSGAN: A Novel Oversampling Technique for Imbalanced Pattern
Recognitions [0.0]
クラス不均衡問題(CIP)は、予測のための非バイアスの機械学習(ML)モデルを開発する際の潜在的な課題の1つである。
CIPは、データサンプルが2つまたは複数のクラス間で等しく分散されていない場合に発生する。
本研究では,より多様なデータを生成するために,境界線SMOTEとジェネレーティブ・アドリラル・ネットワークのパワーを組み合わせたハイブリッド・オーバーサンプリング手法を提案する。
論文 参考訳(メタデータ) (2023-05-16T20:02:39Z) - Improved Techniques for the Conditional Generative Augmentation of
Clinical Audio Data [36.45569352490318]
本稿では,学習したデータ分布からメルスペクトルを合成できる条件付き逆方向ニューラルネットワークによる拡張法を提案する。
提案手法は,従来の音質向上手法よりも優れていることを示す。
提案モデルは,臨床オーディオデータの増大における最先端の進歩と,臨床音響センシングシステムの設計におけるデータのボトルネックを改善する。
論文 参考訳(メタデータ) (2022-11-05T10:58:04Z) - SFF-DA: Sptialtemporal Feature Fusion for Detecting Anxiety
Nonintrusively [16.170315080992182]
本稿では,「3CNND+LSTM」と顔行動と非接触生理の相似性の特徴を融合したフレームワークを提案する。
我々のフレームワークは実世界のデータセットと2つの公開データセットで検証された。
論文 参考訳(メタデータ) (2022-08-12T01:20:51Z) - Many-to-One Distribution Learning and K-Nearest Neighbor Smoothing for
Thoracic Disease Identification [83.6017225363714]
ディープラーニングは、病気の識別性能を改善するための最も強力なコンピュータ支援診断技術となった。
胸部X線撮影では、大規模データの注釈付けには専門的なドメイン知識が必要で、時間を要する。
本論文では、単一モデルにおける疾患同定性能を改善するために、複数対1の分布学習(MODL)とK-nearest neighbor smoothing(KNNS)手法を提案する。
論文 参考訳(メタデータ) (2021-02-26T02:29:30Z) - Statistical control for spatio-temporal MEG/EEG source imaging with
desparsified multi-task Lasso [102.84915019938413]
脳磁図(MEG)や脳電図(EEG)のような非侵襲的手法は、非侵襲的手法を約束する。
ソースローカライゼーション(ソースイメージング)の問題は、しかしながら、高次元の統計的推測問題を引き起こす。
この問題に対処するために,分離されたマルチタスクラッソ(ecd-MTLasso)のアンサンブルを提案する。
論文 参考訳(メタデータ) (2020-09-29T21:17:16Z) - Rectified Meta-Learning from Noisy Labels for Robust Image-based Plant
Disease Diagnosis [64.82680813427054]
植物病は食料安全保障と作物生産に対する主要な脅威の1つである。
1つの一般的なアプローチは、葉画像分類タスクとしてこの問題を変換し、強力な畳み込みニューラルネットワーク(CNN)によって対処できる。
本稿では,正規化メタ学習モジュールを共通CNNパラダイムに組み込んだ新しいフレームワークを提案する。
論文 参考訳(メタデータ) (2020-03-17T09:51:30Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。