論文の概要: Undersampling is a Minimax Optimal Robustness Intervention in
Nonparametric Classification
- arxiv url: http://arxiv.org/abs/2205.13094v4
- Date: Mon, 19 Jun 2023 15:44:18 GMT
- ステータス: 処理完了
- システム内更新日: 2023-06-22 06:18:12.255353
- Title: Undersampling is a Minimax Optimal Robustness Intervention in
Nonparametric Classification
- Title(参考訳): 非パラメトリック分類におけるミニマックス最適ロバストネス介入のアンダーサンプリング
- Authors: Niladri S. Chatterji, Saminul Haque, Tatsunori Hashimoto
- Abstract要約: マイノリティグループサンプルの欠如によって学習が根本的に制約されていることを示す。
特にラベルシフトの場合、最小値のアンダーサンプリングアルゴリズムが常に存在することを示す。
- 参考スコア(独自算出の注目度): 28.128464387420216
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: While a broad range of techniques have been proposed to tackle distribution
shift, the simple baseline of training on an $\textit{undersampled}$ balanced
dataset often achieves close to state-of-the-art-accuracy across several
popular benchmarks. This is rather surprising, since undersampling algorithms
discard excess majority group data. To understand this phenomenon, we ask if
learning is fundamentally constrained by a lack of minority group samples. We
prove that this is indeed the case in the setting of nonparametric binary
classification. Our results show that in the worst case, an algorithm cannot
outperform undersampling unless there is a high degree of overlap between the
train and test distributions (which is unlikely to be the case in real-world
datasets), or if the algorithm leverages additional structure about the
distribution shift. In particular, in the case of label shift we show that
there is always an undersampling algorithm that is minimax optimal. In the case
of group-covariate shift we show that there is an undersampling algorithm that
is minimax optimal when the overlap between the group distributions is small.
We also perform an experimental case study on a label shift dataset and find
that in line with our theory, the test accuracy of robust neural network
classifiers is constrained by the number of minority samples.
- Abstract(参考訳): 分散シフトに取り組むために、幅広いテクニックが提案されているが、$\textit{undersampled}$ balancedデータセットのトレーニングの単純なベースラインは、しばしばいくつかの人気のあるベンチマークで最先端に近い精度を達成している。
アルゴリズムのアンサンプは、過剰な多数派データを排除している。
この現象を理解するために、学習が少数群のサンプル不足によって根本的に制約されているかどうかを問う。
これは実際には、非パラメトリック二項分類の設定におけるものであることを証明している。
以上の結果から,列車とテスト分布の重複度が高い場合(実世界のデータセットではありそうにない)や,アルゴリズムが分布シフトに関する付加的な構造を利用する場合,アンダーサンプリングをアルゴリズムが上回らないことが示唆された。
特にラベルシフトの場合、常にミニマックス最適であるアンダーサンプリングアルゴリズムが存在することを示す。
群共変量シフトの場合、群分布間の重なりが小さい場合に最小最適となるアンダーサンプリングアルゴリズムが存在することを示す。
また,ラベルシフトデータセットに関する実験ケーススタディを実施し,ロバストニューラルネットワーク分類器のテスト精度はマイノリティサンプル数によって制限されていることを確認した。
関連論文リスト
- Optimal Multi-Distribution Learning [88.3008613028333]
マルチディストリビューション学習は、$k$の異なるデータ分散における最悪のリスクを最小限に抑える共有モデルを学ぶことを目指している。
本稿では, (d+k)/varepsilon2の順に, サンプルの複雑さを伴って, ヴァレプシロン最適ランダム化仮説を導出するアルゴリズムを提案する。
論文 参考訳(メタデータ) (2023-12-08T16:06:29Z) - Bias Mimicking: A Simple Sampling Approach for Bias Mitigation [57.17709477668213]
本稿では,新しいクラス条件サンプリング手法であるBias Mimickingを紹介する。
Bias Mimickingは、4つのベンチマークで3%の精度でサンプリングの精度を向上する。
論文 参考訳(メタデータ) (2022-09-30T17:33:00Z) - Multi-granularity Relabeled Under-sampling Algorithm for Imbalanced Data [15.030895782548576]
不均衡な分類問題は、データマイニングと機械学習において重要かつ困難な問題の1つであることが判明した。
Tomek-Linkサンプリングアルゴリズムは、データ上のクラスオーバーラップを効果的に低減し、識別が難しい多数インスタンスを除去し、アルゴリズムの分類精度を向上させる。
しかし、Tomek-Linksアンダーサンプリングアルゴリズムは、世界中に最も近い隣り合う境界インスタンスのみを考慮し、潜在的に局所的な重複するインスタンスを無視している。
本稿では,データセットの局所的情報を完全に考慮した多粒度アンダーサンプリングアルゴリズム(MGRU)を提案する。
論文 参考訳(メタデータ) (2022-01-11T14:07:55Z) - Does Adversarial Oversampling Help us? [10.210871872870737]
本稿では,データセットのクラス不均衡を処理するために,3人のプレイヤーによるゲームベースのエンドツーエンド手法を提案する。
本稿では,敵対的マイノリティ・オーバーサンプリングではなく,敵対的オーバーサンプリング (AO) とデータ空間・オーバーサンプリング (DO) のアプローチを提案する。
提案手法の有効性を高次元・高不均衡・大規模マルチクラスデータセットを用いて検証した。
論文 参考訳(メタデータ) (2021-08-20T05:43:17Z) - A multi-schematic classifier-independent oversampling approach for
imbalanced datasets [0.0]
従来の研究から、異なるオーバーサンプリングアルゴリズムは異なる分類器で異なる効率の度合いを持つことが明らかである。
本稿では,マルチスキーマおよび分類器に依存しないオーバーサンプリング手法であるProWRASを用いて,この問題を克服する。
ProWRASはローカライズされたランダムアフィンシャドウサンプリング (LoRAS) アルゴリズムと Proximity Weighted Synthetic Oversampling (ProWSyn) アルゴリズムを統合している。
論文 参考訳(メタデータ) (2021-07-15T14:03:24Z) - Examining and Combating Spurious Features under Distribution Shift [94.31956965507085]
我々は、最小限の統計量という情報理論の概念を用いて、ロバストで刺激的な表現を定義し、分析する。
入力分布のバイアスしか持たない場合でも、モデルはトレーニングデータから急激な特徴を拾い上げることができることを証明しています。
分析から着想を得た結果,グループDROは,グループ同士の相関関係を直接考慮しない場合に失敗する可能性が示唆された。
論文 参考訳(メタデータ) (2021-06-14T05:39:09Z) - Synthesising Multi-Modal Minority Samples for Tabular Data [3.7311680121118345]
トレーニング前にデータセットに合成マイノリティサンプルを追加することは、この困難に対処するための一般的なテクニックである。
本稿では,多モードサンプルを高密度連続潜時空間にマッピングする潜時空間フレームワークを提案する。
我々のフレームワークは既存の手法よりも優れた合成データを生成する。
論文 参考訳(メタデータ) (2021-05-17T23:54:08Z) - Improved Algorithms for Agnostic Pool-based Active Classification [20.12178157010804]
プールに依存しない環境でのバイナリ分類のためのアクティブラーニングを検討する。
我々のアルゴリズムは、画像分類データセットにおけるアートアクティブな学習アルゴリズムの状況よりも優れている。
論文 参考訳(メタデータ) (2021-05-13T18:24:30Z) - Bandit Samplers for Training Graph Neural Networks [63.17765191700203]
グラフ畳み込みネットワーク(GCN)の訓練を高速化するために, ばらつきを低減したサンプリングアルゴリズムが提案されている。
これらのサンプリングアルゴリズムは、グラフ注意ネットワーク(GAT)のような固定重みよりも学習重量を含む、より一般的なグラフニューラルネットワーク(GNN)には適用できない。
論文 参考訳(メタデータ) (2020-06-10T12:48:37Z) - Computationally efficient sparse clustering [67.95910835079825]
我々はPCAに基づく新しいクラスタリングアルゴリズムの有限サンプル解析を行う。
ここでは,ミニマックス最適誤クラスタ化率を,体制$|theta infty$で達成することを示す。
論文 参考訳(メタデータ) (2020-05-21T17:51:30Z) - Compressing Large Sample Data for Discriminant Analysis [78.12073412066698]
判別分析フレームワーク内での大きなサンプルサイズに起因する計算問題を考察する。
線形および二次判別分析のためのトレーニングサンプル数を削減するための新しい圧縮手法を提案する。
論文 参考訳(メタデータ) (2020-05-08T05:09:08Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。