論文の概要: A statistical theory of overfitting for imbalanced classification
- arxiv url: http://arxiv.org/abs/2502.11323v1
- Date: Mon, 17 Feb 2025 00:21:33 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-02-18 14:14:10.632323
- Title: A statistical theory of overfitting for imbalanced classification
- Title(参考訳): 不均衡分類のためのオーバーフィッティングの統計理論
- Authors: Jingyang Lyu, Kangjie Zhou, Yiqiao Zhong,
- Abstract要約: 我々は高次元不均衡分類の統計理論を開発する。
次元性はロジット分布にトランケーションやスキューイング効果を誘導することがわかった。
この現象は、少数民族が過度な適合によってより深刻な影響を受けている理由を説明する。
- 参考スコア(独自算出の注目度): 0.6144680854063939
- License:
- Abstract: Classification with imbalanced data is a common challenge in data analysis, where certain classes (minority classes) account for a small fraction of the training data compared with other classes (majority classes). Classical statistical theory based on large-sample asymptotics and finite-sample corrections is often ineffective for high-dimensional data, leaving many overfitting phenomena in empirical machine learning unexplained. In this paper, we develop a statistical theory for high-dimensional imbalanced classification by investigating support vector machines and logistic regression. We find that dimensionality induces truncation or skewing effects on the logit distribution, which we characterize via a variational problem under high-dimensional asymptotics. In particular, for linearly separable data generated from a two-component Gaussian mixture model, the logits from each class follow a normal distribution $\mathsf{N}(0,1)$ on the testing set, but asymptotically follow a rectified normal distribution $\max\{\kappa, \mathsf{N}(0,1)\}$ on the training set -- which is a pervasive phenomenon we verified on tabular data, image data, and text data. This phenomenon explains why the minority class is more severely affected by overfitting. Further, we show that margin rebalancing, which incorporates class sizes into the loss function, is crucial for mitigating the accuracy drop for the minority class. Our theory also provides insights into the effects of overfitting on calibration and other uncertain quantification measures.
- Abstract(参考訳): 不均衡データの分類は、あるクラス(マイノリティクラス)が他のクラス(マイノリティクラス)と比較して、トレーニングデータのごく一部を占めるデータ分析において一般的な課題である。
大サンプル漸近と有限サンプル補正に基づく古典的統計理論は、高次元データには効果がなく、経験的機械学習における多くの過度な現象が説明できないままである。
本稿では,支援ベクトルマシンとロジスティック回帰を用いた高次元不均衡分類の統計的理論を開発する。
我々は,高次元漸近的条件下での変動問題によって特徴付けられるロジット分布に対して,次元性によって乱れや揺動効果が生じることを見出した。
特に、2成分のガウス混合モデルから生成される線形分離可能なデータに対して、各クラスのロジットは正規分布$\mathsf{N}(0,1)$をテストセット上で従うが、漸近的に正規分布$\max\{\kappa, \mathsf{N}(0,1)\}$をトレーニングセット上で従う。
この現象は、少数民族が過度な適合によってより深刻な影響を受けている理由を説明する。
さらに,損失関数にクラスサイズを組み込んだマージンリバランシングが,マイノリティクラスの精度低下を軽減する上で重要であることを示す。
我々の理論はまた、校正やその他の不確実な定量化対策に過剰適合が及ぼす影響に関する洞察を与える。
関連論文リスト
- It's an Alignment, Not a Trade-off: Revisiting Bias and Variance in Deep
Models [51.66015254740692]
深層学習に基づく分類モデルのアンサンブルでは, バイアスと分散がサンプルレベルで一致していることが示される。
我々はこの現象をキャリブレーションと神経崩壊という2つの理論的観点から研究する。
論文 参考訳(メタデータ) (2023-10-13T17:06:34Z) - Graph Out-of-Distribution Generalization with Controllable Data
Augmentation [51.17476258673232]
グラフニューラルネットワーク(GNN)は,グラフ特性の分類において異常な性能を示した。
トレーニングとテストデータの選択バイアスが原因で、分散偏差が広まっています。
仮想サンプルの分布偏差を測定するためのOODキャリブレーションを提案する。
論文 参考訳(メタデータ) (2023-08-16T13:10:27Z) - High-dimensional Measurement Error Models for Lipschitz Loss [2.6415509201394283]
リプシッツ損失関数のクラスに対する高次元計測誤差モデルを開発する。
我々の推定器は、適切な実現可能な集合に属するすべての推定器の中で、$L_1$ノルムを最小化するように設計されている。
有限標本統計誤差境界と符号の整合性の観点から理論的な保証を導出する。
論文 参考訳(メタデータ) (2022-10-26T20:06:05Z) - Gaussian Universality of Linear Classifiers with Random Labels in
High-Dimension [24.503842578208268]
高次元における生成モデルから得られるデータは、ガウスデータと対応するデータ共分散の最小限の訓練損失を持つことを示す。
特に,同質なガウス雲と多モード生成ニューラルネットワークの任意の混合によって生成されたデータについて述べる。
論文 参考訳(メタデータ) (2022-05-26T12:25:24Z) - Fluctuations, Bias, Variance & Ensemble of Learners: Exact Asymptotics
for Convex Losses in High-Dimension [25.711297863946193]
我々は、異なる、しかし相関のある特徴に基づいて訓練された一般化線形モデルの集合における揺らぎの研究の理論を開発する。
一般凸損失と高次元限界における正則化のための経験的リスク最小化器の結合分布の完全な記述を提供する。
論文 参考訳(メタデータ) (2022-01-31T17:44:58Z) - Harmless interpolation in regression and classification with structured
features [21.064512161584872]
過度にパラメータ化されたニューラルネットワークは、ノイズの多いトレーニングデータに完全に適合するが、テストデータではうまく一般化する。
再生カーネルヒルベルト空間における上界回帰と分類リスクの一般かつ柔軟な枠組みを提案する。
論文 参考訳(メタデータ) (2021-11-09T15:12:26Z) - Understanding the Under-Coverage Bias in Uncertainty Estimation [58.03725169462616]
量子レグレッションは、現実の望ましいカバレッジレベルよりもアンファンダーカバー(enmphunder-cover)する傾向がある。
我々は、量子レグレッションが固有のアンダーカバーバイアスに悩まされていることを証明している。
我々の理論は、この過大被覆バイアスが特定の高次元パラメータ推定誤差に起因することを明らかにしている。
論文 参考訳(メタデータ) (2021-06-10T06:11:55Z) - Learning Gaussian Mixtures with Generalised Linear Models: Precise
Asymptotics in High-dimensions [79.35722941720734]
多クラス分類問題に対する一般化線形モデルは、現代の機械学習タスクの基本的な構成要素の1つである。
実験的リスク最小化による高次元推定器の精度を実証する。
合成データの範囲を超えて我々の理論をどのように適用できるかを論じる。
論文 参考訳(メタデータ) (2021-06-07T16:53:56Z) - Theoretical Insights Into Multiclass Classification: A High-dimensional
Asymptotic View [82.80085730891126]
線形多クラス分類の最初の現代的精度解析を行う。
分析の結果,分類精度は分布に依存していることがわかった。
得られた洞察は、他の分類アルゴリズムの正確な理解の道を開くかもしれない。
論文 参考訳(メタデータ) (2020-11-16T05:17:29Z) - Good Classifiers are Abundant in the Interpolating Regime [64.72044662855612]
補間分類器間のテストエラーの完全な分布を正確に計算する手法を開発した。
テストエラーは、最悪の補間モデルのテストエラーから大きく逸脱する、小さな典型的な$varepsilon*$に集中する傾向にある。
以上の結果から,統計的学習理論における通常の解析手法は,実際に観測された優れた一般化性能を捉えるのに十分な粒度にはならない可能性が示唆された。
論文 参考訳(メタデータ) (2020-06-22T21:12:31Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。