論文の概要: Throwing Away Data Improves Worst-Class Error in Imbalanced
Classification
- arxiv url: http://arxiv.org/abs/2205.11672v1
- Date: Mon, 23 May 2022 23:43:18 GMT
- ステータス: 処理完了
- システム内更新日: 2022-05-25 12:50:50.440522
- Title: Throwing Away Data Improves Worst-Class Error in Imbalanced
Classification
- Title(参考訳): 不均衡分類における最悪のクラスエラーを改善するスローウェイデータ
- Authors: Martin Arjovsky, Kamalika Chaudhuri, David Lopez-Paz
- Abstract要約: クラス不均衡は分類問題に悪影響を及ぼすが、その治療は理論と実践において異なる。
本稿では,線形分離可能なデータに対する分類器の誤りを記述できる学習理論の開発に挑戦する。
- 参考スコア(独自算出の注目度): 36.91428748713018
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Class imbalances pervade classification problems, yet their treatment differs
in theory and practice. On the one hand, learning theory instructs us that
\emph{more data is better}, as sample size relates inversely to the average
test error over the entire data distribution. On the other hand, practitioners
have long developed a plethora of tricks to improve the performance of learning
machines over imbalanced data.
These include data reweighting and subsampling, synthetic construction of
additional samples from minority classes, ensembling expensive one-versus all
architectures, and tweaking classification losses and thresholds. All of these
are efforts to minimize the worst-class error, which is often associated to the
minority group in the training data, and finds additional motivation in the
robustness, fairness, and out-of-distribution literatures.
Here we take on the challenge of developing learning theory able to describe
the worst-class error of classifiers over linearly-separable data when fitted
either on (i) the full training set, or (ii) a subset where the majority class
is subsampled to match in size the minority class. We borrow tools from extreme
value theory to show that, under distributions with certain tail properties,
\emph{throwing away most data from the majority class leads to better
worst-class error}.
- Abstract(参考訳): クラス不均衡は分類問題に浸透するが、その扱いは理論と実践で異なる。
一方, 学習理論では, サンプルサイズがデータ分布全体の平均テスト誤差と逆関係であることから, より優れたデータであることが示唆された。
その一方で,不均衡データよりも学習機の性能を向上させるためのトリックが長年開発されてきた。
その中には、データリウェイトとサブサンプリング、マイノリティクラスからのサンプルの合成構築、高価な1対逆アーキテクチャの組み立て、分類損失としきい値の調整が含まれる。
これらすべては、トレーニングデータの少数派グループと結びついている最悪のクラスエラーを最小限に抑え、ロバスト性、公正性、アウト・オブ・ディストリビューション文学にさらなる動機を見出す努力である。
ここでは,線形分離可能なデータに対する分類器の最悪クラス誤差を記述可能な学習理論の開発に挑戦する。
(i)フルトレーニングセット、又は
(ii) 多数派クラスが少数派クラスのサイズに一致するようにサブサンプリングされたサブセット。
極限値理論のツールを借りて、特定の末尾特性を持つ分布の下では、ほとんどのデータを多数派クラスから引き離すと、より悪いクラスエラーになることを示す。
関連論文リスト
- Exploring Vacant Classes in Label-Skewed Federated Learning [113.65301899666645]
クライアント間の局所的なラベル分布の相違を特徴とするラベルスキューは、連合学習において大きな課題となる。
本稿では, ラベルスキュード・フェデレート学習における新しい手法であるFedVLSについて紹介する。
論文 参考訳(メタデータ) (2024-01-04T16:06:31Z) - A Unified Generalization Analysis of Re-Weighting and Logit-Adjustment
for Imbalanced Learning [129.63326990812234]
そこで本研究では,データ依存型コンダクタンス(Data-dependent contraction)と呼ばれる手法を提案する。
この技術に加えて、不均衡学習のための微粒な一般化境界が確立され、再重み付けとロジット調整の謎を明らかにするのに役立つ。
論文 参考訳(メタデータ) (2023-10-07T09:15:08Z) - When Noisy Labels Meet Long Tail Dilemmas: A Representation Calibration
Method [40.25499257944916]
実世界のデータセットは騒々しくラベル付けされ、クラス不均衡である。
本稿では,表現キャリブレーション手法RCALを提案する。
我々は,表現キャリブレーションの有効性を論じるために理論的結果を得る。
論文 参考訳(メタデータ) (2022-11-20T11:36:48Z) - Imbalanced Classification via Explicit Gradient Learning From Augmented
Data [0.0]
本稿では、与えられた不均衡なデータセットを新しいマイノリティインスタンスに拡張する、新しい深層メタラーニング手法を提案する。
提案手法の利点は, 種々の不均衡比を持つ合成および実世界のデータセット上で実証される。
論文 参考訳(メタデータ) (2022-02-21T22:16:50Z) - Fair-Net: A Network Architecture For Reducing Performance Disparity
Between Identifiable Sub-Populations [0.522145960878624]
特定可能なサブ人口間での分類精度と確率校正の両方を改善するマルチタスクニューラルネットワークアーキテクチャであるFair-Netを導入する。
3つの実世界のベンチマークデータセットによる実証研究は、Fair-Netが分類と校正性能を改善することを示した。
論文 参考訳(メタデータ) (2021-06-01T18:26:08Z) - Theoretical Insights Into Multiclass Classification: A High-dimensional
Asymptotic View [82.80085730891126]
線形多クラス分類の最初の現代的精度解析を行う。
分析の結果,分類精度は分布に依存していることがわかった。
得られた洞察は、他の分類アルゴリズムの正確な理解の道を開くかもしれない。
論文 参考訳(メタデータ) (2020-11-16T05:17:29Z) - Class-Wise Difficulty-Balanced Loss for Solving Class-Imbalance [6.875312133832079]
そこで本研究では,クラスワイド・バランサード・ロスと呼ばれる新しい損失関数を提案する。
サンプルが属するクラスの難易度に応じて、各サンプルに動的に重みを分配する。
その結果、CDB損失はクラス不均衡データセットにおける最近提案された損失関数よりも一貫して優れていた。
論文 参考訳(メタデータ) (2020-10-05T07:19:19Z) - Good Classifiers are Abundant in the Interpolating Regime [64.72044662855612]
補間分類器間のテストエラーの完全な分布を正確に計算する手法を開発した。
テストエラーは、最悪の補間モデルのテストエラーから大きく逸脱する、小さな典型的な$varepsilon*$に集中する傾向にある。
以上の結果から,統計的学習理論における通常の解析手法は,実際に観測された優れた一般化性能を捉えるのに十分な粒度にはならない可能性が示唆された。
論文 参考訳(メタデータ) (2020-06-22T21:12:31Z) - Long-Tailed Recognition Using Class-Balanced Experts [128.73438243408393]
本稿では,多様な分類器の強度を組み合わせたクラスバランスの専門家のアンサンブルを提案する。
私たちのクラスバランスの専門家のアンサンブルは、最先端に近い結果に到達し、長い尾の認識のための2つのベンチマークで新たな最先端のアンサンブルを確立します。
論文 参考訳(メタデータ) (2020-04-07T20:57:44Z) - Imbalanced Data Learning by Minority Class Augmentation using Capsule
Adversarial Networks [31.073558420480964]
本稿では,2つの同時手法を合体させて,不均衡な画像のバランスを回復する手法を提案する。
我々のモデルでは、生成的および識別的ネットワークは、新しい競争力のあるゲームをする。
カプセルGANの合体は、畳み込みGANと比較して非常に少ないパラメータで重なり合うクラスを認識するのに効果的である。
論文 参考訳(メタデータ) (2020-04-05T12:36:06Z) - M2m: Imbalanced Classification via Major-to-minor Translation [79.09018382489506]
ほとんどの実世界のシナリオでは、ラベル付きトレーニングデータセットは非常にクラス不均衡であり、ディープニューラルネットワークは、バランスの取れたテスト基準への一般化に苦しむ。
本稿では,より頻度の低いクラスを,より頻度の低いクラスからのサンプルを翻訳することによって,この問題を緩和する新しい方法を提案する。
提案手法は,従来の再サンプリング法や再重み付け法と比較して,マイノリティクラスの一般化を著しく改善することを示す。
論文 参考訳(メタデータ) (2020-04-01T13:21:17Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。