論文の概要: A Theoretical and Empirical Taxonomy of Imbalance in Binary Classification
- arxiv url: http://arxiv.org/abs/2601.04149v1
- Date: Wed, 07 Jan 2026 18:02:11 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-01-08 18:12:46.225272
- Title: A Theoretical and Empirical Taxonomy of Imbalance in Binary Classification
- Title(参考訳): 二項分類における不均衡の理論的・実証的分類法
- Authors: Rose Yvette Bandolo Essomba, Ernest Fokoué,
- Abstract要約: 我々は、不均衡が差別境界をいかに変化させるかを示し、通常、マイルド、エクストリーム、カタストロフィの4つの状態を予測する劣化勾配を生じさせる。
パラメトリックモデルと非パラメトリックモデル全体で、経験的劣化は理論的な予測に密接に従う。
これらの結果は、三重項 $(,,)$ がモデルに依存しない幾何的基底を持つ不均衡による劣化の説明を提供することを示している。
- 参考スコア(独自算出の注目度): 0.0
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Class imbalance significantly degrades classification performance, yet its effects are rarely analyzed from a unified theoretical perspective. We propose a principled framework based on three fundamental scales: the imbalance coefficient $η$, the sample--dimension ratio $κ$, and the intrinsic separability $Δ$. Starting from the Gaussian Bayes classifier, we derive closed-form Bayes errors and show how imbalance shifts the discriminant boundary, yielding a deterioration slope that predicts four regimes: Normal, Mild, Extreme, and Catastrophic. Using a balanced high-dimensional genomic dataset, we vary only $η$ while keeping $κ$ and $Δ$ fixed. Across parametric and non-parametric models, empirical degradation closely follows theoretical predictions: minority Recall collapses once $\log(η)$ exceeds $Δ\sqrtκ$, Precision increases asymmetrically, and F1-score and PR-AUC decline in line with the predicted regimes. These results show that the triplet $(η,κ,Δ)$ provides a model-agnostic, geometrically grounded explanation of imbalance-induced deterioration.
- Abstract(参考訳): クラス不均衡は分類性能を著しく低下させるが、その効果は統一理論の観点からはほとんど分析されない。
不均衡係数$η$,サンプル次元比$κ$,本質分離性$Δ$の3つの基本尺度に基づく基本的枠組みを提案する。
ガウスベイズ分類器(英語版)から、閉形式のベイズ誤差を導出し、不均衡が差別境界をどのようにシフトするかを示し、正規、マイルド、エクストリーム、カタストロフィの4つの状態を予測する劣化勾配をもたらす。
バランスの取れた高次元ゲノムデータセットを使用して、$κ$と$Δ$を固定しながら、$η$だけを変える。
パラメトリックモデルと非パラメトリックモデル全体で、経験的劣化は理論的な予測に密接に従う: マイノリティリコールは$\log(η)$が$Δ\sqrtκ$を超え、精度は非対称的に増加し、F1スコアとPR-AUCは予測された体制に従って低下する。
これらの結果は、三重項 $(η,κ,Δ)$ がモデルに依存しない幾何的基底を持つ不均衡による劣化の説明を与えることを示している。
関連論文リスト
- Skewness-Robust Causal Discovery in Location-Scale Noise Models [47.09233752567902]
位置スケールノイズモデルに基づく因果発見のための確率に基づくアルゴリズムであるSkewDを提案する。
SkewDは通常の正規分布フレームワークをスキュー正規設定に拡張し、対称性と歪んだ雑音下での信頼性推論を可能にする。
我々は、スキューノイズを伴う新しい合成データセットと、確立されたベンチマークデータセットに基づいてSkewDを評価する。
論文 参考訳(メタデータ) (2025-11-18T12:40:41Z) - Understanding Robust Machine Learning for Nonparametric Regression with Heavy-Tailed Noise [10.844819221753042]
我々は、Tikhonov-regularized risk minimizationのクローズアップ例として、Huberレグレッションを使用している。
i)弱モーメント仮定下での標準濃度ツールの分解と,(ii)非有界仮説空間によってもたらされる解析的困難に対処する。
我々の研究は、原則化されたルールを提供し、ハマーを超えて他の堅牢な損失に拡張し、頑健な学習を分析するための基本的なレンズとして、過剰なリスクではなく予測エラーを強調します。
論文 参考訳(メタデータ) (2025-10-10T21:57:18Z) - Computational-Statistical Tradeoffs at the Next-Token Prediction Barrier: Autoregressive and Imitation Learning under Misspecification [50.717692060500696]
対数損失を伴う次のトーケン予測は自己回帰シーケンスモデリングの基盤となる。
次トーケン予測は、適度な誤差増幅を表す$C=tilde O(H)$を達成するために堅牢にすることができる。
C=e(log H)1-Omega(1)$。
論文 参考訳(メタデータ) (2025-02-18T02:52:00Z) - Scaling of Stochastic Normalizing Flows in $\mathrm{SU}(3)$ lattice gauge theory [44.99833362998488]
非平衡マルコフ連鎖モンテカルロシミュレーションは、ターゲット確率分布からのサンプルに対するジャージンスキーの等式に基づくよく理解されたフレームワークを提供する。
平衡外進化はフローベースアプローチの同じ枠組みを共有しており、自然に正規化フロー(SNF)と呼ばれる新しいアーキテクチャに結合することができる。
4次元における$mathrmSU(3)$の格子ゲージ理論に対するSNFの最初の実装は、非平衡モンテカルロ更新の間にゲージ同変層を導入することで定義される。
論文 参考訳(メタデータ) (2024-11-29T19:01:05Z) - Mind the Gap: A Causal Perspective on Bias Amplification in Prediction & Decision-Making [58.06306331390586]
本稿では,閾値演算による予測値がS$変化の程度を測るマージン補数の概念を導入する。
適切な因果仮定の下では、予測スコア$S$に対する$X$の影響は、真の結果$Y$に対する$X$の影響に等しいことを示す。
論文 参考訳(メタデータ) (2024-05-24T11:22:19Z) - Observable adjustments in single-index models for regularized
M-estimators [3.5353632767823506]
サンプルサイズが$n$ と dimension$p$ がともに増加するレジームでは、$hatbeta$ と予測値 $Xhatbeta$ の実証分布の振る舞いが以前特徴づけられた。
本稿では、$hatbeta$と$Xhatbeta$の実証分布を記述するために異なる理論を開発する。
論文 参考訳(メタデータ) (2022-04-14T14:32:02Z) - Single Trajectory Nonparametric Learning of Nonlinear Dynamics [8.438421942654292]
力学系の1つの軌道が与えられた場合、非パラメトリック最小二乗推定器(LSE)の性能を解析する。
我々は最近開発された情報理論手法を活用し、非仮説クラスに対するLSEの最適性を確立する。
我々は、リプシッツ力学、一般化線形モデル、再生ケルネルヒルベルト空間(RKHS)のある種のクラスで記述される関数によって記述される力学など、実用上の関心のあるいくつかのシナリオを専門とする。
論文 参考訳(メタデータ) (2022-02-16T19:38:54Z) - Analytic Characterization of the Hessian in Shallow ReLU Models: A Tale
of Symmetry [9.695960412426672]
我々は,スプリアスミニマの様々な家系でヘッセンを解析的に特徴付ける。
特に、$dge k$ 標準ガウス入力について、 (a) ヘッセンの $dk$ 固有値の内、$dk - O(d)$ が 0 に近づき、 (b) $Omega(d)$ 固有値は $k$ で線型的に増加することを証明している。
論文 参考訳(メタデータ) (2020-08-04T20:08:35Z) - A Precise High-Dimensional Asymptotic Theory for Boosting and
Minimum-$\ell_1$-Norm Interpolated Classifiers [3.167685495996986]
本稿では,分離可能なデータの強化に関する高精度な高次元理論を確立する。
統計モデルのクラスでは、ブースティングの普遍性誤差を正確に解析する。
また, 推力試験誤差と最適ベイズ誤差の関係を明示的に説明する。
論文 参考訳(メタデータ) (2020-02-05T00:24:53Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。