論文の概要: A Systematic Evaluation of Imbalance Handling Methods in Biomedical Binary Classification
- arxiv url: http://arxiv.org/abs/2605.14147v1
- Date: Wed, 13 May 2026 21:57:38 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-05-15 21:45:34.517407
- Title: A Systematic Evaluation of Imbalance Handling Methods in Biomedical Binary Classification
- Title(参考訳): バイオメディカルバイナリ分類における不均衡ハンドリング手法の体系的評価
- Authors: Jiandong Chen, Lingjie Su, Le Peng, Yash Travadi, Rui Zhang, Ju Sun,
- Abstract要約: 本研究では, バイオメディカルバイナリ分類における不均衡処理法(IHM)が予測性能に及ぼす影響を系統的に検討した。
我々は、ランダムアンダーサンプリング(RUS)、ランダムオーバーサンプリング(ROS)、SMOTE(SMOTE)、再重み付け(RW)、直接F1スコア最適化(DMO)の5つの代表IHMを評価した。
より複雑なモデルと非構造化データに対して明確な利点が観察された。
- 参考スコア(独自算出の注目度): 9.011003401201323
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Objective: The primary goal of this study was to systematically examine the impact of commonly used imbalance handling methods (IHMs) on predictive performance in biomedical binary classification, considering the interplay between model complexity and diverse data modalities. Material and Methods: We evaluated five representative IHMs: random undersampling (RUS), random oversampling (ROS), SMOTE, re-weighting (RW), and direct F1-score optimization (DMO), against a raw training (RAW) baseline. The evaluation encompassed three public biomedical datasets: MIMIC-III (tabular), ADE-Corpus-V2 (text), and MURA (image), spanning three common biomedical data modalities. To assess varying model complexity, we employed a range of architectures, from classical logistic regression and random forest to deep neural networks, including multilayer perceptron (MLP), BiLSTM, BERT, DenseNet, and DINOv2. Results: For simpler models such as logistic regression on tabular data, IHMs yielded no significant advantage over the RAW baseline, aligning with prior findings. However, clear benefits were observed for more complex models and unstructured data: (a) ROS and RW consistently enhanced the performance of powerful models; (b) direct F1-score optimization demonstrated utility primarily for unstructured text and image data; and (c) RUS and SMOTE consistently degraded performance and are therefore not recommended. Conclusion: The effectiveness of IHMs depends on both model complexity and data modality. Performance gains are most pronounced when leveraging appropriate IHMs, such as ROS, RW, and DMO, on high-complexity models.
- Abstract(参考訳): 目的: 本研究の主な目的は, モデル複雑性と多種多様なデータモダリティの相互作用を考慮したバイオメディカルバイナリ分類において, 一般的に用いられている不均衡処理法(IHM)が予測性能に与える影響を体系的に検討することであった。
材料と方法: ランダムアンダーサンプリング(RUS)、ランダムオーバーサンプリング(ROS)、SMOTE、再重み付け(RW)、直接F1スコア最適化(DMO)の5つの代表的IHMをRAWベースラインに対して評価した。
MIMIC-III (tabular), ADE-Corpus-V2 (text), MU (image) の3つの公開バイオメディカルデータセットについて検討した。
モデル複雑性の評価には,古典的ロジスティック回帰やランダムフォレストから多層パーセプトロン(MLP),BiLSTM,BERT,DenseNet,DINOv2などのディープニューラルネットワークまで,さまざまなアーキテクチャを用いた。
結果: グラフデータに対するロジスティック回帰などの簡易モデルでは, IHMsはRAWベースラインに対して有意な優位性を示しなかった。
しかし、より複雑なモデルと非構造化データに対して明確な利点が観察された。
(a)ROSとRWは、強力なモデルの性能を一貫して向上させる。
(b)直接F1スコア最適化は、主に構造化されていないテキストや画像データに有効であることを示した。
(c) RUSとSMOTEは一貫して性能を低下させており、推奨されない。
結論:IHMの有効性は、モデルの複雑さとデータモダリティの両方に依存します。
ROS、RW、DMOなどの適切なIHMを高複雑性モデルで利用する場合、性能向上は最も顕著である。
関連論文リスト
- DOGMA: Weaving Structural Information into Data-centric Single-cell Transcriptomics Analysis [43.565183518761984]
生データの構造的再構成と意味的拡張を目的としたデータ中心型フレームワークであるDOGMAを提案する。
複雑な多種多様なベンチマークにおいて、DOGMA SOTA性能は優れたゼロショットロバスト性とサンプル効率を示す。
論文 参考訳(メタデータ) (2026-02-02T09:10:09Z) - Investigating the Impact of Histopathological Foundation Models on Regressive Prediction of Homologous Recombination Deficiency [52.50039435394964]
回帰に基づくタスクの基礎モデルを体系的に評価する。
我々は5つの最先端基礎モデルを用いて、スライド画像全体(WSI)からパッチレベルの特徴を抽出する。
乳房、子宮内膜、肺がんコホートにまたがるこれらの抽出された特徴に基づいて、連続したRDDスコアを予測するモデルが訓練されている。
論文 参考訳(メタデータ) (2026-01-29T14:06:50Z) - A Reinforcement Learning Approach to Synthetic Data Generation [8.293402602656736]
RLSynは患者記録に対するポリシーとしてデータジェネレータをモデル化する新しいフレームワークである。
我々は、プライバシー、実用性、忠実度を評価する上で、最先端のジェネレーティブ・敵ネットワーク(GAN)と拡散に基づく手法を比較検討した。
論文 参考訳(メタデータ) (2025-12-24T19:26:37Z) - Generalizable Blood Cell Detection via Unified Dataset and Faster R-CNN [0.33842793760651557]
本稿では,末梢血細胞の自動分類と対象検出のための総合的方法論と比較性能解析について述べる。
データパイプラインは、4つの公開データセットを標準化し、統合したリソースにマージするために最初に開発された。
最先端の高速R-CNNオブジェクト検出フレームワークが採用され、ResNet-50-FPNバックボーンが使用されている。
論文 参考訳(メタデータ) (2025-11-11T17:08:40Z) - Predictive Analytics of Varieties of Potatoes [2.336821989135698]
本研究では, 育種試験におけるサツマイモクローンの選択プロセスの向上を目的とした, 機械学習アルゴリズムの適用について検討する。
本研究は, 高収率, 耐病性, 耐気候性ポテト品種を効率的に同定することの課題に対処する。
論文 参考訳(メタデータ) (2024-04-04T00:49:05Z) - Retrosynthesis prediction enhanced by in-silico reaction data
augmentation [66.5643280109899]
RetroWISEは,実データから推定されるベースモデルを用いて,シリコン内反応の生成と増大を行うフレームワークである。
3つのベンチマークデータセットで、RetroWISEは最先端モデルに対して最高の全体的なパフォーマンスを達成する。
論文 参考訳(メタデータ) (2024-01-31T07:40:37Z) - The effect of data augmentation and 3D-CNN depth on Alzheimer's Disease
detection [51.697248252191265]
この研究は、データハンドリング、実験設計、モデル評価に関するベストプラクティスを要約し、厳密に観察する。
我々は、アルツハイマー病(AD)の検出に焦点を当て、医療における課題のパラダイム的な例として機能する。
このフレームワークでは,3つの異なるデータ拡張戦略と5つの異なる3D CNNアーキテクチャを考慮し,予測15モデルを訓練する。
論文 参考訳(メタデータ) (2023-09-13T10:40:41Z) - Using Explainable Boosting Machine to Compare Idiographic and Nomothetic
Approaches for Ecological Momentary Assessment Data [2.0824228840987447]
本稿では,非線形解釈型機械学習(ML)モデルを用いた分類問題について検討する。
木々の様々なアンサンブルは、不均衡な合成データセットと実世界のデータセットを用いて線形モデルと比較される。
2つの実世界のデータセットのうちの1つで、知識蒸留法は改善されたAUCスコアを達成する。
論文 参考訳(メタデータ) (2022-04-04T17:56:37Z) - Robust Finite Mixture Regression for Heterogeneous Targets [70.19798470463378]
本稿では,サンプルクラスタの探索と,複数の不完全な混合型ターゲットを同時にモデル化するFMRモデルを提案する。
我々は、高次元の学習フレームワークの下で、無症状のオラクルのパフォーマンス境界をモデルに提供します。
その結果,我々のモデルは最先端の性能を達成できることがわかった。
論文 参考訳(メタデータ) (2020-10-12T03:27:07Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。