論文の概要: Classification of Imbalanced Credit scoring data sets Based on Ensemble
Method with the Weighted-Hybrid-Sampling
- arxiv url: http://arxiv.org/abs/2102.04721v1
- Date: Tue, 9 Feb 2021 09:32:50 GMT
- ステータス: 処理完了
- システム内更新日: 2021-02-10 15:15:29.368039
- Title: Classification of Imbalanced Credit scoring data sets Based on Ensemble
Method with the Weighted-Hybrid-Sampling
- Title(参考訳): 重みHybrid-Samplingを用いたエンサンブル法に基づく不均衡信用スコアリングデータセットの分類
- Authors: Xiaofan Liua, Zuoquan Zhanga, Di Wanga
- Abstract要約: ビッグデータの時代になると、受験者の信用リスクを正確に判断する信用スコアモデルの利用が、将来的にはトレンドとなる。
クレジットスコアリングデータセットにおける従来の機械学習は、マイノリティクラスの分類が乏しい傾向にある。
Weighted-Hybrid-Sampling-Boost (WHSBoost) という新しいアンサンブルアルゴリズムを提案する。
- 参考スコア(独自算出の注目度): 0.0
- License: http://creativecommons.org/licenses/by-nc-nd/4.0/
- Abstract: In the era of big data, the utilization of credit-scoring models to determine
the credit risk of applicants accurately becomes a trend in the future. The
conventional machine learning on credit scoring data sets tends to have poor
classification for the minority class, which may bring huge commercial harm to
banks. In order to classify imbalanced data sets, we propose a new ensemble
algorithm, namely, Weighted-Hybrid-Sampling-Boost (WHSBoost). In data sampling,
we process the imbalanced data sets with weights by the Weighted-SMOTE method
and the Weighted-Under-Sampling method, and thus obtain a balanced training
sample data set with equal weight. In ensemble algorithm, each time we train
the base classifier, the balanced data set is given by the method above. In
order to verify the applicability and robustness of the WHSBoost algorithm, we
performed experiments on the simulation data sets, real benchmark data sets and
real credit scoring data sets, comparing WHSBoost with SMOTE, SMOTEBoost and
HSBoost based on SVM, BPNN, DT and KNN.
- Abstract(参考訳): ビッグデータの時代には、申請者の信用リスクを正確に判断するためのクレジット・スケーリング・モデルの利用がトレンドとなっている。
従来のクレジットスコアデータセットでの機械学習はマイノリティクラスの分類に乏しい傾向にあり、銀行にとって大きな商業的被害をもたらす可能性がある。
不均衡データセットを分類するために,重み付きハイブリッドサンプリングブースト(whsboost)という新しいアンサンブルアルゴリズムを提案する。
データサンプリングでは、重み付き不均衡データセットをWeighted-SMOTE法とWeighted-Under-Sampling法で処理し、同重のバランス付きトレーニングサンプルデータセットを得る。
アンサンブルアルゴリズムでは、ベース分類器を訓練するたびに、上記の方法によってバランスの取れたデータセットが与えられる。
whsboostアルゴリズムの適用性とロバスト性を検証するために,svm,bpnn,dt,knに基づくsmote,smoteboost,hsboostとwhsboostを比較し,シミュレーションデータセット,実ベンチマークデータセット,実クレジットスコアデータセットについて実験を行った。
関連論文リスト
- Improving SMOTE via Fusing Conditional VAE for Data-adaptive Noise Filtering [0.5735035463793009]
変分オートエンコーダ(VAE)を用いたSMOTEアルゴリズムの拡張フレームワークを提案する。
本稿では,VAEを用いて低次元潜在空間におけるデータ点密度を体系的に定量化し,クラスラベル情報と分類困難度を同時に統合する手法を提案する。
いくつかの不均衡データセットに関する実証的研究は、この単純なプロセスが、ディープラーニングモデルよりも従来のSMOTEアルゴリズムを革新的に改善することを示している。
論文 参考訳(メタデータ) (2024-05-30T07:06:02Z) - Revisiting Long-tailed Image Classification: Survey and Benchmarks with
New Evaluation Metrics [88.39382177059747]
メトリクスのコーパスは、長い尾の分布で学習するアルゴリズムの正確性、堅牢性、およびバウンダリを測定するために設計されている。
ベンチマークに基づいて,CIFAR10およびCIFAR100データセット上での既存手法の性能を再評価する。
論文 参考訳(メタデータ) (2023-02-03T02:40:54Z) - On Pseudo-Labeling for Class-Mismatch Semi-Supervised Learning [50.48888534815361]
本稿では,クラスミスマッチSSLにおけるPseudo-Labeling(PL)を実証的に解析する。
PLは、SSL問題を教師あり学習に変換する、単純で代表的なSSLメソッドである。
RPL(Re- Balanced Pseudo-Labeling)とSEC(Semantic Exploration Clustering)の2つのコンポーネントによるクラスミスマッチSSLにおけるPLの改善を提案する。
論文 参考訳(メタデータ) (2023-01-15T03:21:59Z) - An Embarrassingly Simple Baseline for Imbalanced Semi-Supervised
Learning [103.65758569417702]
半教師付き学習(SSL)は、ラベルのないデータを活用してモデルのパフォーマンスを向上させるという大きな約束を示している。
我々は、ラベル付きデータとラベルなしデータの両方で不均衡なクラス分散が発生する不均衡SSLという、より現実的で困難な設定について検討する。
我々は、ラベル付きデータを擬似ラベルで単純に補うことで、データの不均衡に取り組む単純なベースライン、SimiSについて研究する。
論文 参考訳(メタデータ) (2022-11-20T21:18:41Z) - A Novel Hybrid Sampling Framework for Imbalanced Learning [0.0]
SMOTE-RUS-NC」は他の最先端サンプリング技術と比較されている。
26個の不均衡なデータセットで厳密な実験が行われた。
論文 参考訳(メタデータ) (2022-08-20T07:04:00Z) - BASIL: Balanced Active Semi-supervised Learning for Class Imbalanced
Datasets [14.739359755029353]
現在の半教師付き学習(SSL)メソッドは、ラベル付きデータセットとラベルなしデータセットの両方で、各クラスで利用可能なデータポイントの数の間のバランスを前提としている。
本研究では,サブモジュール相互情報(SMI)関数をクラスごとに最適化し,アクティブな学習ループにおけるバランスの取れたデータセットを徐々に選択するアルゴリズムであるBASILを提案する。
論文 参考訳(メタデータ) (2022-03-10T21:34:08Z) - Class-Aware Contrastive Semi-Supervised Learning [51.205844705156046]
本研究では,擬似ラベル品質を向上し,実環境におけるモデルの堅牢性を高めるため,CCSSL(Class-Aware Contrastive Semi-Supervised Learning)と呼ばれる一般的な手法を提案する。
提案するCCSSLは,標準データセットCIFAR100とSTL10の最先端SSLメソッドに対して,大幅な性能向上を実現している。
論文 参考訳(メタデータ) (2022-03-04T12:18:23Z) - ABC: Auxiliary Balanced Classifier for Class-imbalanced Semi-supervised
Learning [6.866717993664787]
既存の半教師付き学習(SSL)アルゴリズムは、クラスバランスのデータセットを仮定する。
ラベルのないデータを効果的に活用できるスケーラブルなクラス不均衡SSLアルゴリズムを提案する。
提案アルゴリズムは,4つのベンチマークデータセットを用いて,様々なクラス不均衡SSL実験における最先端性能を実現する。
論文 参考訳(メタデータ) (2021-10-20T04:07:48Z) - Hybrid Ensemble optimized algorithm based on Genetic Programming for
imbalanced data classification [0.0]
本稿では,2種類の不均衡データ分類のための遺伝的プログラミング(GP)に基づくハイブリッドアンサンブルアルゴリズムを提案する。
実験結果から,提案手法をトレーニングセットのサイズで指定したデータセット上での性能は,マイノリティクラス予測の他の次元よりも40%,50%高い精度を示した。
論文 参考訳(メタデータ) (2021-06-02T14:14:38Z) - Distribution Aligning Refinery of Pseudo-label for Imbalanced
Semi-supervised Learning [126.31716228319902]
Pseudo-label (DARP) アルゴリズムの分散アライメント・リファナリーを開発する。
DARPは最先端のSSLスキームと有効かつ効率的に互換性があることを示す。
論文 参考訳(メタデータ) (2020-07-17T09:16:05Z) - Data Augmentation Imbalance For Imbalanced Attribute Classification [60.71438625139922]
本稿では,データ拡張不均衡(DAI)と呼ばれる新しい再サンプリングアルゴリズムを提案する。
我々のDAIアルゴリズムは歩行者属性のデータセットに基づいて最先端の結果を得る。
論文 参考訳(メタデータ) (2020-04-19T20:43:29Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。