論文の概要: Identifying Key Challenges of Hardness-Based Resampling
- arxiv url: http://arxiv.org/abs/2504.07031v1
- Date: Wed, 09 Apr 2025 16:45:57 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-04-10 13:05:40.035542
- Title: Identifying Key Challenges of Hardness-Based Resampling
- Title(参考訳): 硬さに基づくリサンプリングの鍵となる課題
- Authors: Pawel Pukowski, Venet Osmani,
- Abstract要約: クラス間のパフォーマンスギャップは、マシンラーニングにおける永続的な課題である。
クラス硬度を定量化する方法の1つは、サンプルの複雑さである。
より硬いクラスは一般化を達成するためにかなり多くのサンプルを必要とする。
- 参考スコア(独自算出の注目度): 0.5678271181959529
- License:
- Abstract: Performance gap across classes remains a persistent challenge in machine learning, often attributed to variations in class hardness. One way to quantify class hardness is through sample complexity - the minimum number of samples required to effectively learn a given class. Sample complexity theory suggests that class hardness is driven by differences in the amount of data required for generalization. That is, harder classes need substantially more samples to achieve generalization. Therefore, hardness-based resampling is a promising approach to mitigate these performance disparities. While resampling has been studied extensively in data-imbalanced settings, its impact on balanced datasets remains unexplored. This raises the fundamental question whether resampling is effective because it addresses data imbalance or hardness imbalance. We begin addressing this question by introducing class imbalance into balanced datasets and evaluate its effect on performance disparities. We oversample hard classes and undersample easy classes to bring hard classes closer to their sample complexity requirements while maintaining a constant dataset size for fairness. We estimate class-level hardness using the Area Under the Margin (AUM) hardness estimator and leverage it to compute resampling ratios. Using these ratios, we perform hardness-based resampling on the well-known CIFAR-10 and CIFAR-100 datasets. Contrary to theoretical expectations, our results show that hardness-based resampling does not meaningfully affect class-wise performance disparities. To explain this discrepancy, we conduct detailed analyses to identify key challenges unique to hardness-based imbalance, distinguishing it from traditional data-based imbalance. Our insights help explain why theoretical sample complexity expectations fail to translate into practical performance gains and we provide guidelines for future research.
- Abstract(参考訳): クラス間のパフォーマンスギャップは、マシンラーニングにおける永続的な課題であり、しばしばクラス硬度の変化に起因する。
クラスの難易度を定量化する方法の1つは、サンプルの複雑さである、与えられたクラスを効果的に学習するのに必要となるサンプルの最小数である。
サンプル複雑性理論は、クラス硬度は一般化に必要なデータの量の違いによって引き起こされることを示唆している。
つまり、より難しいクラスは一般化を達成するためにかなり多くのサンプルを必要とする。
したがって、ハードネスに基づくリサンプリングは、これらのパフォーマンス格差を軽減するための有望なアプローチである。
再サンプリングはデータ不均衡な設定で広く研究されているが、バランスの取れたデータセットへの影響はいまだ解明されていない。
これにより、データ不均衡や硬度不均衡に対処するため、再サンプリングが効果的かどうかという根本的な疑問が提起される。
バランスの取れたデータセットにクラス不均衡を導入することでこの問題に対処し、その性能格差への影響を評価する。
ハードクラスをオーバーサンプリングし、簡単なクラスをアンサンプし、ハードクラスをサンプルの複雑性要件に近づけると同時に、フェアネスのために一定のデータセットサイズを維持します。
我々は、AUM(Area Under the Margin)硬度推定器を用いてクラスレベルの硬さを推定し、再サンプリング比を計算する。
これらの比率を用いて、よく知られたCIFAR-10とCIFAR-100データセット上で硬度に基づく再サンプリングを行う。
理論的な期待とは対照的に,本研究の結果は,硬度に基づく再サンプリングがクラスレベルの性能格差に有意な影響を及ぼさないことを示した。
この相違を説明するために、従来のデータベース不均衡と区別して、硬度ベースの不均衡に特有の重要な課題を特定するための詳細な分析を行う。
我々の洞察は、なぜ理論的なサンプルの複雑さの期待が実用的なパフォーマンス向上に変換できないのかを説明するのに役立ち、今後の研究のガイドラインを提供する。
関連論文リスト
- SeMi: When Imbalanced Semi-Supervised Learning Meets Mining Hard Examples [54.760757107700755]
Semi-Supervised Learning (SSL)は、豊富なラベルのないデータを活用して、モデルのパフォーマンスを向上させる。
実世界のシナリオにおけるクラス不均衡なデータ分散は、SSLに大きな課題をもたらし、結果としてパフォーマンスが低下する。
マイニングハードケース(SeMi)による不均衡半教師学習の性能向上手法を提案する。
論文 参考訳(メタデータ) (2025-01-10T14:35:16Z) - Conformal-in-the-Loop for Learning with Imbalanced Noisy Data [5.69777817429044]
大規模なデータセットでは、クラス不均衡とラベルノイズが広まっています。
機械学習の研究の多くは、よくラベル付けされたバランスの取れたデータを前提としている。
コンフォーマル・イン・ザ・ループ(Conformal-in-the-Loop, CitL)は,コンフォーマルな予測に基づく手法を用いて,両課題に対処する新しいトレーニングフレームワークである。
論文 参考訳(メタデータ) (2024-11-04T17:09:58Z) - A Unified Generalization Analysis of Re-Weighting and Logit-Adjustment
for Imbalanced Learning [129.63326990812234]
そこで本研究では,データ依存型コンダクタンス(Data-dependent contraction)と呼ばれる手法を提案する。
この技術に加えて、不均衡学習のための微粒な一般化境界が確立され、再重み付けとロジット調整の謎を明らかにするのに役立つ。
論文 参考訳(メタデータ) (2023-10-07T09:15:08Z) - Simplicity Bias Leads to Amplified Performance Disparities [8.60453031364566]
SGDで訓練されたモデルは、単純さに偏りがあることを示し、多数派の学習を優先させる。
モデルは、単純なデータセットのクラスやグループを優先順位付けし、複雑なものを見つけることを犠牲にすることができる。
論文 参考訳(メタデータ) (2022-12-13T15:24:41Z) - Difficulty-Net: Learning to Predict Difficulty for Long-Tailed
Recognition [5.977483447975081]
メタラーニングフレームワークにおいて,モデルの性能を用いてクラスの難易度を予測することを学習するDifficulty-Netを提案する。
本稿では,相対的難易度と運転者損失という2つの重要な概念を紹介する。
提案手法の有効性を実証した。
論文 参考訳(メタデータ) (2022-09-07T07:04:08Z) - HardVis: Visual Analytics to Handle Instance Hardness Using Undersampling and Oversampling Techniques [48.82319198853359]
HardVisは、主に不均衡な分類シナリオでインスタンスの硬さを処理するために設計されたビジュアル分析システムである。
ユーザはさまざまな視点からデータのサブセットを探索して、これらのパラメータをすべて決定できる。
HardVisの有効性と有効性は仮説的利用シナリオとユースケースで実証される。
論文 参考訳(メタデータ) (2022-03-29T17:04:16Z) - Scale-Equivalent Distillation for Semi-Supervised Object Detection [57.59525453301374]
近年のSemi-Supervised Object Detection (SS-OD) 法は主に自己学習に基づいており、教師モデルにより、ラベルなしデータを監視信号としてハードな擬似ラベルを生成する。
実験結果から,これらの手法が直面する課題を分析した。
本稿では,大規模オブジェクトサイズの分散とクラス不均衡に頑健な簡易かつ効果的なエンド・ツー・エンド知識蒸留フレームワークであるSED(Scale-Equivalent Distillation)を提案する。
論文 参考訳(メタデータ) (2022-03-23T07:33:37Z) - CMW-Net: Learning a Class-Aware Sample Weighting Mapping for Robust Deep
Learning [55.733193075728096]
現代のディープニューラルネットワークは、破損したラベルやクラス不均衡を含むバイアス付きトレーニングデータに容易に適合する。
サンプル再重み付け手法は、このデータバイアス問題を緩和するために一般的に使用されている。
本稿では,データから直接明示的な重み付け方式を適応的に学習できるメタモデルを提案する。
論文 参考訳(メタデータ) (2022-02-11T13:49:51Z) - Class-Wise Difficulty-Balanced Loss for Solving Class-Imbalance [6.875312133832079]
そこで本研究では,クラスワイド・バランサード・ロスと呼ばれる新しい損失関数を提案する。
サンプルが属するクラスの難易度に応じて、各サンプルに動的に重みを分配する。
その結果、CDB損失はクラス不均衡データセットにおける最近提案された損失関数よりも一貫して優れていた。
論文 参考訳(メタデータ) (2020-10-05T07:19:19Z) - Long-Tailed Recognition Using Class-Balanced Experts [128.73438243408393]
本稿では,多様な分類器の強度を組み合わせたクラスバランスの専門家のアンサンブルを提案する。
私たちのクラスバランスの専門家のアンサンブルは、最先端に近い結果に到達し、長い尾の認識のための2つのベンチマークで新たな最先端のアンサンブルを確立します。
論文 参考訳(メタデータ) (2020-04-07T20:57:44Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。