論文の概要: Divide-and-Conquer Hard-thresholding Rules in High-dimensional
Imbalanced Classification
- arxiv url: http://arxiv.org/abs/2111.03306v1
- Date: Fri, 5 Nov 2021 07:44:28 GMT
- ステータス: 処理完了
- システム内更新日: 2021-11-08 15:44:58.662353
- Title: Divide-and-Conquer Hard-thresholding Rules in High-dimensional
Imbalanced Classification
- Title(参考訳): 高次元不均衡分類における除算およびコンカレント閾値規則
- Authors: Arezou Mojiri, Abbas Khalili, Ali Zeinal Hamadani
- Abstract要約: 高次元の線形判別分析(LDA)における不均衡クラスサイズの影響について検討した。
マイノリティ・クラスと呼ばれる1つのクラスのデータの不足により、LDAはマイノリティ・クラスを無視し、最大誤分類率を得ることを示す。
そこで本研究では,不等式化率の大きな差を低減させる分割・対数法に基づくハードコンカレンスルールの新たな構成法を提案する。
- 参考スコア(独自算出の注目度): 1.0312968200748118
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: In binary classification, imbalance refers to situations in which one class
is heavily under-represented. This issue is due to either a data collection
process or because one class is indeed rare in a population. Imbalanced
classification frequently arises in applications such as biology, medicine,
engineering, and social sciences. In this manuscript, for the first time, we
theoretically study the impact of imbalance class sizes on the linear
discriminant analysis (LDA) in high dimensions. We show that due to data
scarcity in one class, referred to as the minority class, and
high-dimensionality of the feature space, the LDA ignores the minority class
yielding a maximum misclassification rate. We then propose a new construction
of a hard-thresholding rule based on a divide-and-conquer technique that
reduces the large difference between the misclassification rates. We show that
the proposed method is asymptotically optimal. We further study two well-known
sparse versions of the LDA in imbalanced cases. We evaluate the finite-sample
performance of different methods using simulations and by analyzing two real
data sets. The results show that our method either outperforms its competitors
or has comparable performance based on a much smaller subset of selected
features, while being computationally more efficient.
- Abstract(参考訳): 二項分類において、不均衡とは、1つのクラスが非常に過小評価されている状況を指す。
この問題の原因は、データ収集プロセスか、あるいは1つのクラスが人口で実際にまれであるからである。
不均衡な分類はしばしば生物学、医学、工学、社会科学などの応用に現れる。
本論文では,高次元の線形判別分析(lda)におけるクラスサイズの不均衡の影響を初めて理論的に検討する。
特徴空間の高次元性やマイノリティクラスと呼ばれる1つのクラスにおけるデータの不足により、LDAはマイノリティクラスを無視し、最大誤分類率を得ることを示した。
そこで本研究では, 分割・分割法に基づく強固化ルールを新たに構築し, 誤分類率の差を大きく低減する手法を提案する。
提案手法は漸近的に最適であることを示す。
さらに,不均衡症例におけるLDAのスパースバージョンについて検討した。
我々はシミュレーションと2つの実データ解析により,異なる手法の有限サンプル性能を評価する。
その結果,提案手法は競合より優れているか,選択した特徴のより小さなサブセットに基づいて同等の性能を示す一方,計算効率は向上した。
関連論文リスト
- Compound Batch Normalization for Long-tailed Image Classification [77.42829178064807]
本稿では,ガウス混合に基づく複合バッチ正規化法を提案する。
機能空間をより包括的にモデル化し、ヘッドクラスの優位性を減らすことができる。
提案手法は,画像分類における既存の手法よりも優れている。
論文 参考訳(メタデータ) (2022-12-02T07:31:39Z) - Parametric Classification for Generalized Category Discovery: A Baseline
Study [70.73212959385387]
Generalized Category Discovery (GCD)は、ラベル付きサンプルから学習した知識を用いて、ラベルなしデータセットで新しいカテゴリを発見することを目的としている。
パラメトリック分類器の故障を調査し,高品質な監視が可能であった場合の過去の設計選択の有効性を検証し,信頼性の低い疑似ラベルを重要課題として同定する。
エントロピー正規化の利点を生かし、複数のGCDベンチマークにおける最先端性能を実現し、未知のクラス数に対して強いロバスト性を示す、単純で効果的なパラメトリック分類法を提案する。
論文 参考訳(メタデータ) (2022-11-21T18:47:11Z) - Throwing Away Data Improves Worst-Class Error in Imbalanced
Classification [36.91428748713018]
クラス不均衡は分類問題に悪影響を及ぼすが、その治療は理論と実践において異なる。
本稿では,線形分離可能なデータに対する分類器の誤りを記述できる学習理論の開発に挑戦する。
論文 参考訳(メタデータ) (2022-05-23T23:43:18Z) - An Empirical Study on the Joint Impact of Feature Selection and Data
Resampling on Imbalance Classification [4.506770920842088]
本研究では,不均衡分類のための特徴選択とデータ再サンプリングの相乗性に着目した。
9つの特徴選択手法、クラス不均衡学習のための6つの再サンプリング手法、および3つのよく知られた分類アルゴリズムを用いて、52の公開データセットに対して多数の実験を行った。
論文 参考訳(メタデータ) (2021-09-01T06:01:51Z) - Statistical Theory for Imbalanced Binary Classification [8.93993657323783]
最適分類性能は、これまで形式化されていなかったクラス不均衡の特定の性質に依存することを示す。
具体的には、一様クラス不均衡と呼ばれる新しいクラス不均衡のサブタイプを提案する。
これらの結果は、不均衡二項分類に対する最初の有意義な有限サンプル統計理論のいくつかを提供する。
論文 参考訳(メタデータ) (2021-07-05T03:55:43Z) - Theoretical Insights Into Multiclass Classification: A High-dimensional
Asymptotic View [82.80085730891126]
線形多クラス分類の最初の現代的精度解析を行う。
分析の結果,分類精度は分布に依存していることがわかった。
得られた洞察は、他の分類アルゴリズムの正確な理解の道を開くかもしれない。
論文 参考訳(メタデータ) (2020-11-16T05:17:29Z) - Self-Weighted Robust LDA for Multiclass Classification with Edge Classes [111.5515086563592]
SWRLDAと呼ばれる,l21ノルムを基準とした新しい自己重み付き頑健なLDAを提案する。
提案するSWRLDAは実装が容易で,実際に高速に収束する。
論文 参考訳(メタデータ) (2020-09-24T12:32:55Z) - Population structure-learned classifier for high-dimension
low-sample-size class-imbalanced problem [3.411873646414169]
集団構造学習型分類器(PSC)を提案する。
PSCは、IHDLSS上でのより優れた一般化性能を得ることができる。
PSCはIHDLSSの最先端手法よりも優れている。
論文 参考訳(メタデータ) (2020-09-10T08:33:39Z) - High-Dimensional Quadratic Discriminant Analysis under Spiked Covariance
Model [101.74172837046382]
そこで本研究では,魚の識別比を最大化する2次分類手法を提案する。
数値シミュレーションにより,提案した分類器は,合成データと実データの両方において古典的R-QDAよりも優れるだけでなく,計算量の削減も要求されることがわかった。
論文 参考訳(メタデータ) (2020-06-25T12:00:26Z) - M2m: Imbalanced Classification via Major-to-minor Translation [79.09018382489506]
ほとんどの実世界のシナリオでは、ラベル付きトレーニングデータセットは非常にクラス不均衡であり、ディープニューラルネットワークは、バランスの取れたテスト基準への一般化に苦しむ。
本稿では,より頻度の低いクラスを,より頻度の低いクラスからのサンプルを翻訳することによって,この問題を緩和する新しい方法を提案する。
提案手法は,従来の再サンプリング法や再重み付け法と比較して,マイノリティクラスの一般化を著しく改善することを示す。
論文 参考訳(メタデータ) (2020-04-01T13:21:17Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。