論文の概要: To SMOTE, or not to SMOTE?
- arxiv url: http://arxiv.org/abs/2201.08528v1
- Date: Fri, 21 Jan 2022 03:37:39 GMT
- ステータス: 処理完了
- システム内更新日: 2022-01-24 19:51:57.753840
- Title: To SMOTE, or not to SMOTE?
- Title(参考訳): SMOTEへ、それともSMOTEへ?
- Authors: Yotam Elor and Hadar Elor
- Abstract要約: 不均衡二項分類問題では、客観的計量はしばしば非対称であり、より高いペナルティとマイノリティ標本を関連付ける。
この不一致に対処するために、トレーニング前にデータをよりバランスよくするバランシングスキームが提案された。
最近の一貫した分類器の研究は、メートル法差が予測性能を阻害しないことを示唆している。
- 参考スコア(独自算出の注目度): 0.0
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: In imbalanced binary classification problems the objective metric is often
non-symmetric and associates a higher penalty with the minority samples. On the
other hand, the loss function used for training is usually symmetric - equally
penalizing majority and minority samples. Balancing schemes, that augment the
data to be more balanced before training the model, were proposed to address
this discrepancy and were shown to improve prediction performance empirically
on tabular data. However, recent studies of consistent classifiers suggest that
the metric discrepancy might not hinder prediction performance. In light of
these recent theoretical results, we carefully revisit the empirical study of
balancing tabular data. Our extensive experiments, on 73 datasets, show that
generally, in accordance with theory, best prediction is achieved by using a
strong consistent classifier and balancing is not beneficial. We further
identity several scenarios for which balancing is effective and observe that
prior studies mainly focus on these settings.
- Abstract(参考訳): 不均衡二項分類問題では、客観的計量はしばしば非対称であり、より高いペナルティとマイノリティ標本を関連付ける。
一方、トレーニングに使用される損失関数は通常対称であり、多数派と少数派のサンプルも同様にペナルティを課す。
モデルのトレーニング前にデータのバランスを向上するバランシングスキームが提案され、この相違に対処し、表データ上での予測性能を実証的に改善することを示した。
しかし、最近の一貫した分類器の研究は、メートル法差が予測性能を妨げない可能性を示唆している。
これらの最近の理論結果を踏まえて,表データのバランスに関する経験的研究を注意深く検討した。
73のデータセットを用いた大規模な実験では、理論に従って、強い一貫した分類器を用いることで最良の予測が達成され、バランスが有益でないことが示されている。
バランスが効果的であるいくつかのシナリオを識別し、先行研究が主にこれらの設定に焦点を当てていることを確認する。
関連論文リスト
- An Experimental Study on the Rashomon Effect of Balancing Methods in Imbalanced Classification [0.0]
本稿では,ラショモン効果を用いた予測多重度に及ぼすバランス法の影響について検討する。
データ中心のAIにおける盲点モデル選択は、ほぼ同じ精度のモデルのセットからリスクが高いため、非常に重要です。
論文 参考訳(メタデータ) (2024-03-22T13:08:22Z) - Fairness under Covariate Shift: Improving Fairness-Accuracy tradeoff
with few Unlabeled Test Samples [21.144077993862652]
我々は、ラベル付きトレーニングセットとともに、ラベル付きテストサンプルの小さなセットのみが利用可能である教師なしのシステムで運用する。
我々は、損失定式化による最適化が、最先端のベースラインよりも優れていることを実験的に検証した。
提案手法は, それらの性能を著しく上回ることを示す。
論文 参考訳(メタデータ) (2023-10-11T14:39:51Z) - A Unified Generalization Analysis of Re-Weighting and Logit-Adjustment
for Imbalanced Learning [129.63326990812234]
そこで本研究では,データ依存型コンダクタンス(Data-dependent contraction)と呼ばれる手法を提案する。
この技術に加えて、不均衡学習のための微粒な一般化境界が確立され、再重み付けとロジット調整の謎を明らかにするのに役立つ。
論文 参考訳(メタデータ) (2023-10-07T09:15:08Z) - Delving into Semantic Scale Imbalance [45.30062061215943]
クラスの特徴的多様性を測定するために使用されるクラスの意味的スケールを定義し,定量化する。
本稿では、一般的な損失改善スキームと動的再重み付けトレーニングフレームワークを含む意味尺度バランス学習を提案する。
総合的な実験により、動的セマンティック・スケール・バランス・ラーニングにより、大規模で長い尾を持つ非長い尾を持つ自然および医学的なデータセットにおいて、モデルが優れたパフォーマンスを発揮することが示されている。
論文 参考訳(メタデータ) (2022-12-30T09:40:09Z) - Systematic Evaluation of Predictive Fairness [60.0947291284978]
バイアス付きデータセットのトレーニングにおけるバイアスの緩和は、重要なオープンな問題である。
複数のタスクにまたがる様々なデバイアス化手法の性能について検討する。
データ条件が相対モデルの性能に強い影響を与えることがわかった。
論文 参考訳(メタデータ) (2022-10-17T05:40:13Z) - MaxMatch: Semi-Supervised Learning with Worst-Case Consistency [149.03760479533855]
半教師付き学習(SSL)のための最悪ケース整合正則化手法を提案する。
本稿では,ラベル付きトレーニングデータとラベル付きトレーニングデータとを別々に比較した経験的損失項からなるSSLの一般化について述べる。
この境界によって動機づけられたSSLの目的は、元のラベルのないサンプルと、その複数の拡張版との最大の矛盾を最小限に抑えるものである。
論文 参考訳(メタデータ) (2022-09-26T12:04:49Z) - Imbalanced Classification via Explicit Gradient Learning From Augmented
Data [0.0]
本稿では、与えられた不均衡なデータセットを新しいマイノリティインスタンスに拡張する、新しい深層メタラーニング手法を提案する。
提案手法の利点は, 種々の不均衡比を持つ合成および実世界のデータセット上で実証される。
論文 参考訳(メタデータ) (2022-02-21T22:16:50Z) - Taming Overconfident Prediction on Unlabeled Data from Hindsight [50.9088560433925]
ラベルのないデータに対する予測の不確実性を最小化することは、半教師付き学習において優れた性能を達成するための鍵となる要素である。
本稿では,アダプティブシャーニング(Adaptive Sharpening, ADS)と呼ばれる2つのメカニズムを提案する。
ADSは、プラグインにすることで最先端のSSLメソッドを大幅に改善する。
論文 参考訳(メタデータ) (2021-12-15T15:17:02Z) - Imbalanced Image Classification with Complement Cross Entropy [10.35173901214638]
不正なクラスにおける出力スコアをほとんど無視するクロスエントロピーの研究を行う。
本研究は,不規則なクラスにおける予測確率が不均衡画像分類の予測精度を向上させることを明らかにする。
提案された損失により、基底真理クラスは他のクラスをソフトマックス確率で圧倒する。
論文 参考訳(メタデータ) (2020-09-04T13:46:24Z) - An Investigation of Why Overparameterization Exacerbates Spurious
Correlations [98.3066727301239]
この動作を駆動するトレーニングデータの2つの重要な特性を特定します。
モデルの"記憶"に対する帰納的バイアスが,パラメータ化の超過を損なう可能性を示す。
論文 参考訳(メタデータ) (2020-05-09T01:59:13Z) - M2m: Imbalanced Classification via Major-to-minor Translation [79.09018382489506]
ほとんどの実世界のシナリオでは、ラベル付きトレーニングデータセットは非常にクラス不均衡であり、ディープニューラルネットワークは、バランスの取れたテスト基準への一般化に苦しむ。
本稿では,より頻度の低いクラスを,より頻度の低いクラスからのサンプルを翻訳することによって,この問題を緩和する新しい方法を提案する。
提案手法は,従来の再サンプリング法や再重み付け法と比較して,マイノリティクラスの一般化を著しく改善することを示す。
論文 参考訳(メタデータ) (2020-04-01T13:21:17Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。