論文の概要: FILM: Framework for Imbalanced Learning Machines based on a new unbiased performance measure and a new ensemble-based technique
- arxiv url: http://arxiv.org/abs/2503.04370v1
- Date: Thu, 06 Mar 2025 12:15:56 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-03-07 15:58:46.946284
- Title: FILM: Framework for Imbalanced Learning Machines based on a new unbiased performance measure and a new ensemble-based technique
- Title(参考訳): FILM:新しいアンサンブルに基づく非バイアス性能測定と新しいアンサンブルに基づく不均衡学習マシンのためのフレームワーク
- Authors: Antonio Guillén-Teruel, Marcos Caracena, Jose A. Pardo, Fernando de-la-Gándara, José Palma, Juan A. Botía,
- Abstract要約: 本研究は,バイナリ分類タスクの非バランスなデータセットを扱う際の課題に対処する。
標準評価指標は、しばしば少数民族の不均等な表現に偏っている。
本稿では, バイアスを著しく低減した新しい指標Unbiased Integration Coefficientsを提案する。
- 参考スコア(独自算出の注目度): 37.94431794242543
- License:
- Abstract: This research addresses the challenges of handling unbalanced datasets for binary classification tasks. In such scenarios, standard evaluation metrics are often biased by the disproportionate representation of the minority class. Conducting experiments across seven datasets, we uncovered inconsistencies in evaluation metrics when determining the model that outperforms others for each binary classification problem. This justifies the need for a metric that provides a more consistent and unbiased evaluation across unbalanced datasets, thereby supporting robust model selection. To mitigate this problem, we propose a novel metric, the Unbiased Integration Coefficients (UIC), which exhibits significantly reduced bias ($p < 10^{-4}$) towards the minority class compared to conventional metrics. The UIC is constructed by aggregating existing metrics while penalising those more prone to imbalance. In addition, we introduce the Identical Partitions for Imbalance Problems (IPIP) algorithm for imbalanced ML problems, an ensemble-based approach. Our experimental results show that IPIP outperforms other baseline imbalance-aware approaches using Random Forest and Logistic Regression models in three out of seven datasets as assessed by the UIC metric, demonstrating its effectiveness in addressing imbalanced data challenges in binary classification tasks. This new framework for dealing with imbalanced datasets is materialized in the FILM (Framework for Imbalanced Learning Machines) R Package, accessible at https://github.com/antoniogt/FILM.
- Abstract(参考訳): 本研究は,バイナリ分類タスクの非バランスなデータセットを扱う際の課題に対処する。
このようなシナリオでは、標準評価指標は少数民族の不均等な表現によってバイアスされることが多い。
7つのデータセットにまたがる実験を行い、各バイナリ分類問題において他よりも優れているモデルを決定する際に、評価指標の不整合を明らかにした。
これは、不均衡なデータセット間でより一貫性があり偏りのない評価を提供するメトリクスの必要性を正当化し、堅牢なモデル選択をサポートする。
この問題を軽減するために,従来の指標に比べて少数派に対するバイアス(p < 10^{-4}$)が著しく減少する新しい指標であるUnbiased Integration Coefficients(UIC)を提案する。
UICは既存のメトリクスを集約して構築され、それらのメトリクスは不均衡に陥りやすい。
さらに,不均衡ML問題に対するIdentical Partitions for Im Balance Problems (IPIP)アルゴリズムを導入し,アンサンブルに基づくアプローチを提案する。
実験の結果、IPIPは7つのデータセットのうち3つでランダムフォレストとロジスティック回帰モデルを用いて、他のベースライン不均衡を考慮したアプローチよりも優れており、バイナリ分類タスクにおける不均衡データ問題に対処する効果が示された。
不均衡なデータセットを扱う新しいフレームワークは、FILM (Framework for Im Balanced Learning Machines) R Packageで実現されており、https://github.com/Anoniogt/FILMでアクセスできる。
関連論文リスト
- Synthetic Tabular Data Generation for Class Imbalance and Fairness: A Comparative Study [4.420073761023326]
データ駆動性のため、機械学習(ML)モデルは、データから受け継がれたバイアスの影響を受けやすい。
クラス不均衡(分類対象)とグループ不均衡(性や人種のような保護された属性)はMLの有用性と公平性を損なう可能性がある。
本稿では、最先端モデルを用いて、クラスとグループの不均衡に対処する比較分析を行う。
論文 参考訳(メタデータ) (2024-09-08T20:08:09Z) - Tackling Diverse Minorities in Imbalanced Classification [80.78227787608714]
不均衡データセットは、様々な現実世界のアプリケーションで一般的に見られ、分類器の訓練において重要な課題が提示されている。
マイノリティクラスとマイノリティクラスの両方のデータサンプルを混合することにより、反復的に合成サンプルを生成することを提案する。
提案するフレームワークの有効性を,7つの公開ベンチマークデータセットを用いて広範な実験により実証する。
論文 参考訳(メタデータ) (2023-08-28T18:48:34Z) - Generalized Oversampling for Learning from Imbalanced datasets and
Associated Theory [0.0]
教師あり学習では、実際の不均衡なデータセットに直面することが多い。
本稿では,カーネル密度推定に基づくデータ拡張手法であるGOLIATHアルゴリズムを提案する。
我々は,不均衡な回帰状況下でのGOLIATHアルゴリズムの性能を評価する。
論文 参考訳(メタデータ) (2023-08-05T23:08:08Z) - Boosting Differentiable Causal Discovery via Adaptive Sample Reweighting [62.23057729112182]
異なるスコアに基づく因果探索法は観測データから有向非巡回グラフを学習する。
本稿では,Reweighted Score関数ReScoreの適応重みを動的に学習することにより因果発見性能を向上させるためのモデルに依存しないフレームワークを提案する。
論文 参考訳(メタデータ) (2023-03-06T14:49:59Z) - Revisiting Long-tailed Image Classification: Survey and Benchmarks with
New Evaluation Metrics [88.39382177059747]
メトリクスのコーパスは、長い尾の分布で学習するアルゴリズムの正確性、堅牢性、およびバウンダリを測定するために設計されている。
ベンチマークに基づいて,CIFAR10およびCIFAR100データセット上での既存手法の性能を再評価する。
論文 参考訳(メタデータ) (2023-02-03T02:40:54Z) - Class-Imbalanced Complementary-Label Learning via Weighted Loss [8.934943507699131]
補完ラベル学習(Complementary-label Learning, CLL)は、弱い教師付き分類において広く用いられている。
クラス不均衡のトレーニングサンプルに直面すると、現実世界のデータセットでは大きな課題に直面します。
多クラス分類のためのクラス不均衡補完ラベルからの学習を可能にする新しい問題設定を提案する。
論文 参考訳(メタデータ) (2022-09-28T16:02:42Z) - Effective Class-Imbalance learning based on SMOTE and Convolutional
Neural Networks [0.1074267520911262]
不均衡データ(ID)は、機械学習(ML)モデルから満足な結果を得るための問題である。
本稿では,Deep Neural Networks(DNN)とConvolutional Neural Networks(CNN)に基づく手法の有効性を検討する。
信頼性の高い結果を得るために,ランダムにシャッフルしたデータ分布を用いて100回実験を行った。
論文 参考訳(メタデータ) (2022-09-01T07:42:16Z) - CMW-Net: Learning a Class-Aware Sample Weighting Mapping for Robust Deep
Learning [55.733193075728096]
現代のディープニューラルネットワークは、破損したラベルやクラス不均衡を含むバイアス付きトレーニングデータに容易に適合する。
サンプル再重み付け手法は、このデータバイアス問題を緩和するために一般的に使用されている。
本稿では,データから直接明示的な重み付け方式を適応的に学習できるメタモデルを提案する。
論文 参考訳(メタデータ) (2022-02-11T13:49:51Z) - Label-Imbalanced and Group-Sensitive Classification under
Overparameterization [32.923780772605596]
ラベルの不均衡でグループに敏感な分類は、関連するメトリクスを最適化するための標準トレーニングアルゴリズムを適切に修正することを目指す。
標準実証的リスク最小化に対するロジット調整による損失修正は,一般的には効果がない可能性がある。
本研究では, 2つの共通する不均衡(ラベル/グループ)を統一的に処理し, 敏感群の二値分類に自然に適用できることを示した。
論文 参考訳(メタデータ) (2021-03-02T08:09:43Z) - Long-Tailed Recognition Using Class-Balanced Experts [128.73438243408393]
本稿では,多様な分類器の強度を組み合わせたクラスバランスの専門家のアンサンブルを提案する。
私たちのクラスバランスの専門家のアンサンブルは、最先端に近い結果に到達し、長い尾の認識のための2つのベンチマークで新たな最先端のアンサンブルを確立します。
論文 参考訳(メタデータ) (2020-04-07T20:57:44Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。