論文の概要: Statistical Theory for Imbalanced Binary Classification
- arxiv url: http://arxiv.org/abs/2107.01777v1
- Date: Mon, 5 Jul 2021 03:55:43 GMT
- ステータス: 処理完了
- システム内更新日: 2021-07-06 22:40:45.897849
- Title: Statistical Theory for Imbalanced Binary Classification
- Title(参考訳): 不均衡二分分類の統計理論
- Authors: Shashank Singh, Justin Khim
- Abstract要約: 最適分類性能は、これまで形式化されていなかったクラス不均衡の特定の性質に依存することを示す。
具体的には、一様クラス不均衡と呼ばれる新しいクラス不均衡のサブタイプを提案する。
これらの結果は、不均衡二項分類に対する最初の有意義な有限サンプル統計理論のいくつかを提供する。
- 参考スコア(独自算出の注目度): 8.93993657323783
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Within the vast body of statistical theory developed for binary
classification, few meaningful results exist for imbalanced classification, in
which data are dominated by samples from one of the two classes. Existing
theory faces at least two main challenges. First, meaningful results must
consider more complex performance measures than classification accuracy. To
address this, we characterize a novel generalization of the Bayes-optimal
classifier to any performance metric computed from the confusion matrix, and we
use this to show how relative performance guarantees can be obtained in terms
of the error of estimating the class probability function under uniform
($\mathcal{L}_\infty$) loss. Second, as we show, optimal classification
performance depends on certain properties of class imbalance that have not
previously been formalized. Specifically, we propose a novel sub-type of class
imbalance, which we call Uniform Class Imbalance. We analyze how Uniform Class
Imbalance influences optimal classifier performance and show that it
necessitates different classifier behavior than other types of class imbalance.
We further illustrate these two contributions in the case of $k$-nearest
neighbor classification, for which we develop novel guarantees. Together, these
results provide some of the first meaningful finite-sample statistical theory
for imbalanced binary classification.
- Abstract(参考訳): 二元分類のために開発された膨大な統計理論の中で、データが2つのクラスのうちの1つのサンプルによって支配される不均衡分類について有意義な結果がほとんど存在しない。
既存の理論は少なくとも2つの大きな課題に直面している。
第一に、有意義な結果は分類精度よりも複雑な性能測定を考慮しなければならない。
これに対処するために,混乱行列から計算された任意の性能指標に対するベイズ最適分類器の新規な一般化を特徴とし,一様 (\mathcal{l}_\infty$) 損失の下でクラス確率関数を推定する誤差の観点から,相対的な性能保証が得られることを示す。
第二に、我々が示すように、最適分類性能は、以前に形式化されていないクラス不均衡の特定の特性に依存する。
具体的には、一様クラス不均衡と呼ばれる新しいクラス不均衡のサブタイプを提案する。
統一クラス不均衡が最適クラス不均衡性能に与える影響を分析し,他のクラス不均衡と異なるクラス不均衡挙動を必要とすることを示した。
我々は、これらの2つの貢献をさらに説明し、k$-nearestの隣の分類の場合、新しい保証を開発する。
これらの結果は、不均衡二進分類に対する最初の有意義な有限サンプル統計理論を提供する。
関連論文リスト
- Improving the classification of extreme classes by means of loss regularisation and generalised beta distributions [8.640930010669042]
本稿では,一級・一級の分類性能を向上させるための一級正規化手法を提案する。
極端なクラスのパフォーマンスは、その感度を考慮に入れた新しいメトリクスを使って比較される。
提案手法により, 一般化されたベータ分布は, 極端なクラスにおける分類性能を向上することが示された。
論文 参考訳(メタデータ) (2024-07-17T08:57:42Z) - Balanced Classification: A Unified Framework for Long-Tailed Object
Detection [74.94216414011326]
従来の検出器は、分類バイアスによる長期データを扱う際の性能劣化に悩まされる。
本稿では,カテゴリ分布の格差に起因する不平等の適応的是正を可能にする,BAlanced CLassification (BACL) と呼ばれる統一フレームワークを提案する。
BACLは、さまざまなバックボーンとアーキテクチャを持つさまざまなデータセット間で、一貫してパフォーマンス改善を実現している。
論文 参考訳(メタデータ) (2023-08-04T09:11:07Z) - Parametric Classification for Generalized Category Discovery: A Baseline
Study [70.73212959385387]
Generalized Category Discovery (GCD)は、ラベル付きサンプルから学習した知識を用いて、ラベルなしデータセットで新しいカテゴリを発見することを目的としている。
パラメトリック分類器の故障を調査し,高品質な監視が可能であった場合の過去の設計選択の有効性を検証し,信頼性の低い疑似ラベルを重要課題として同定する。
エントロピー正規化の利点を生かし、複数のGCDベンチマークにおける最先端性能を実現し、未知のクラス数に対して強いロバスト性を示す、単純で効果的なパラメトリック分類法を提案する。
論文 参考訳(メタデータ) (2022-11-21T18:47:11Z) - Multi-class Classification with Fuzzy-feature Observations: Theory and
Algorithms [36.810603503167755]
我々は,MCIMO(Multi-class classification with Imprecise Observation)と呼ばれる新しい現実的問題に対処する新しい枠組みを提案する。
まず,ファジィラデマッハの複雑性に基づくMCIMO問題の理論的解析を行う。
そこで,提案した課題を解決するために,サポートベクタマシンとニューラルネットワークに基づく2つの実用的なアルゴリズムを構築した。
論文 参考訳(メタデータ) (2022-06-09T07:14:00Z) - Divide-and-Conquer Hard-thresholding Rules in High-dimensional
Imbalanced Classification [1.0312968200748118]
高次元の線形判別分析(LDA)における不均衡クラスサイズの影響について検討した。
マイノリティ・クラスと呼ばれる1つのクラスのデータの不足により、LDAはマイノリティ・クラスを無視し、最大誤分類率を得ることを示す。
そこで本研究では,不等式化率の大きな差を低減させる分割・対数法に基づくハードコンカレンスルールの新たな構成法を提案する。
論文 参考訳(メタデータ) (2021-11-05T07:44:28Z) - When in Doubt: Improving Classification Performance with Alternating
Normalization [57.39356691967766]
分類のための非パラメトリック後処理ステップである交互正規化(CAN)を用いた分類を導入する。
CANは、予測されたクラス確率分布を再調整することで、挑戦的な例の分類精度を向上させる。
多様な分類課題にまたがってその効果を実証的に示す。
論文 参考訳(メタデータ) (2021-09-28T02:55:42Z) - Binary Classification: Counterbalancing Class Imbalance by Applying
Regression Models in Combination with One-Sided Label Shifts [0.4970364068620607]
クラス不均衡の問題に対処する新しい手法を提案する。
我々は、対応する回帰タスクが均衡するように、負と正の目標ラベルのセットを生成する。
我々は,複数の公開データセットに対するアプローチを評価し,提案手法を最もポピュラーなオーバーサンプリング手法と比較した。
論文 参考訳(メタデータ) (2020-11-30T13:24:47Z) - Theoretical Insights Into Multiclass Classification: A High-dimensional
Asymptotic View [82.80085730891126]
線形多クラス分類の最初の現代的精度解析を行う。
分析の結果,分類精度は分布に依存していることがわかった。
得られた洞察は、他の分類アルゴリズムの正確な理解の道を開くかもしれない。
論文 参考訳(メタデータ) (2020-11-16T05:17:29Z) - Learning and Evaluating Representations for Deep One-class
Classification [59.095144932794646]
ディープワンクラス分類のための2段階フレームワークを提案する。
まず,一級データから自己教師付き表現を学習し,学習した表現に基づいて一級分類器を構築する。
実験では、視覚領域の1クラス分類ベンチマークで最先端の性能を示す。
論文 参考訳(メタデータ) (2020-11-04T23:33:41Z) - Appropriateness of Performance Indices for Imbalanced Data
Classification: An Analysis [15.85259386116784]
性能指標が満たさなければならない2つの基本的な条件は、各クラスからのテストインスタンスの数とテストセット内のクラス数を変更することでそれぞれ回復力を持つ必要がある。
分類器がいくつかのクラスに対して極端な性能を示す場合でも,すべてのクラスに対して分類性能に関する情報を保持する指標の能力について検討する。
論文 参考訳(メタデータ) (2020-08-26T18:23:36Z) - M2m: Imbalanced Classification via Major-to-minor Translation [79.09018382489506]
ほとんどの実世界のシナリオでは、ラベル付きトレーニングデータセットは非常にクラス不均衡であり、ディープニューラルネットワークは、バランスの取れたテスト基準への一般化に苦しむ。
本稿では,より頻度の低いクラスを,より頻度の低いクラスからのサンプルを翻訳することによって,この問題を緩和する新しい方法を提案する。
提案手法は,従来の再サンプリング法や再重み付け法と比較して,マイノリティクラスの一般化を著しく改善することを示す。
論文 参考訳(メタデータ) (2020-04-01T13:21:17Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。