論文の概要: Enhancing Credit Default Prediction Using Boruta Feature Selection and DBSCAN Algorithm with Different Resampling Techniques
- arxiv url: http://arxiv.org/abs/2509.19408v1
- Date: Tue, 23 Sep 2025 13:43:18 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-09-25 20:53:19.547003
- Title: Enhancing Credit Default Prediction Using Boruta Feature Selection and DBSCAN Algorithm with Different Resampling Techniques
- Title(参考訳): 異なるサンプリング手法を用いたボルタ特徴選択とDBSCANアルゴリズムによる信用デフォルト予測の強化
- Authors: Obu-Amoah Ampomah, Edmund Agyemang, Kofi Acheampong, Louis Agyekum,
- Abstract要約: 本研究では,SMOTE,SMOTE-Tomek,ADASYNの3つの手法を比較し,信用デフォルト予測について検討した。
クレジットデフォルトデータセットが通常歪んでいることを認識して、不均衡なデータ上で機械学習(ML)モデルを評価することから分析を始めました。
- 参考スコア(独自算出の注目度): 0.0
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: This study examines credit default prediction by comparing three techniques, namely SMOTE, SMOTE-Tomek, and ADASYN, that are commonly used to address the class imbalance problem in credit default situations. Recognizing that credit default datasets are typically skewed, with defaulters comprising a much smaller proportion than non-defaulters, we began our analysis by evaluating machine learning (ML) models on the imbalanced data without any resampling to establish baseline performance. These baseline results provide a reference point for understanding the impact of subsequent balancing methods. In addition to traditional classifiers such as Naive Bayes and K-Nearest Neighbors (KNN), our study also explores the suitability of advanced ensemble boosting algorithms, including Extreme Gradient Boosting (XGBoost), AdaBoost, Gradient Boosting Machines (GBM), and Light GBM for credit default prediction using Boruta feature selection and DBSCAN-based outlier detection, both before and after resampling. A real-world credit default data set sourced from the University of Cleveland ML Repository was used to build ML classifiers, and their performances were tested. The criteria chosen to measure model performance are the area under the receiver operating characteristic curve (ROC-AUC), area under the precision-recall curve (PR-AUC), G-mean, and F1-scores. The results from this empirical study indicate that the Boruta+DBSCAN+SMOTE-Tomek+GBM classifier outperformed the other ML models (F1-score: 82.56%, G-mean: 82.98%, ROC-AUC: 90.90%, PR-AUC: 91.85%) in a credit default context. The findings establish a foundation for future progress in creating more resilient and adaptive credit default systems, which will be essential as credit-based transactions continue to rise worldwide.
- Abstract(参考訳): 本研究では,SMOTE,SMOTE-Tomek,ADASYNの3つの手法を比較し,信用デフォルト予測について検討した。
デフォルトのデータセットは非デフォルトのデータセットよりもはるかに少ないパーセンテージで構成されており、不均衡なデータ上で機械学習(ML)モデルを評価し、ベースラインのパフォーマンスを確立するために再サンプリングを行わずに分析を開始した。
これらのベースライン結果は、その後のバランス手法の影響を理解するための基準点を提供する。
Naive Bayes や K-Nearest Neighbors (KNN) といった従来の分類器に加えて,本研究では,Boruta 特徴選択と DBSCAN に基づく外乱検出を用いたクレジットデフォルト予測のための Extreme Gradient Boosting (XGBoost), AdaBoost, Gradient Boosting Machines (GBM), Light GBM など,高度なアンサンブル促進アルゴリズムの適合性についても検討した。
クリーブランド大学MLリポジトリからソースされた実世界のデフォルトデータセットを使用して、ML分類器を構築し、そのパフォーマンスをテストした。
モデル性能を測定するために選択された基準は、受信機動作特性曲線(ROC-AUC)以下の領域、高精度リコール曲線(PR-AUC)下の領域、G平均、F1スコアである。
この実証研究の結果、Boruta+DBSCAN+SMOTE-Tomek+GBM分類器は他のMLモデル(F1スコア: 82.56%、G平均:82.98%、ROC-AUC: 90.90%、PR-AUC: 91.85%)よりも優れていた。
この発見は、よりレジリエントで適応的な信用デフォルトシステムを構築するための将来の進歩の基礎を確立します。
関連論文リスト
- Preference Learning Algorithms Do Not Learn Preference Rankings [62.335733662381884]
選好学習は、好ましくない出力よりも、好ましくない出力により高い確率を割り当てるようにモデルを訓練する、という従来の知恵を考察する。
多くの最先端の選好調整モデルでは、一般的な選好データセットでは60%未満のランキング精度が得られている。
論文 参考訳(メタデータ) (2024-05-29T21:29:44Z) - Monte Carlo Tree Search Boosts Reasoning via Iterative Preference Learning [55.96599486604344]
本稿では,Large Language Models (LLMs) の推論能力向上を目的とした,反復的な選好学習プロセスによるアプローチを提案する。
我々は、MCTS(Monte Carlo Tree Search)を用いて好みデータを反復的に収集し、そのルックアヘッド機能を利用して、インスタンスレベルの報酬をよりきめ細かいステップレベルの信号に分解する。
提案アルゴリズムはDPO(Direct Preference Optimization)を用いて,新たに生成されたステップレベルの優先度データを用いてLCMポリシーを更新する。
論文 参考訳(メタデータ) (2024-05-01T11:10:24Z) - Credit card score prediction using machine learning models: A new
dataset [2.099922236065961]
本研究では、クレジットカードのデフォルト予測システムにおける機械学習(ML)モデルの利用について検討する。
ここでの主な目標は、新しく提案されたクレジットカードスコアリングデータセットにおいて、最高のパフォーマンスのMLモデルを調査することである。
論文 参考訳(メタデータ) (2023-10-04T16:46:26Z) - When Does Confidence-Based Cascade Deferral Suffice? [69.28314307469381]
カスケードは、推論コストをサンプル毎に適応的に変化させる古典的な戦略である。
deferralルールは、シーケンス内の次の分類子を呼び出すか、または予測を終了するかを決定する。
カスケードの構造に執着しているにもかかわらず、信頼に基づく推論は実際は極めてうまく機能することが多い。
論文 参考訳(メタデータ) (2023-07-06T04:13:57Z) - Estimating oil recovery factor using machine learning: Applications of
XGBoost classification [0.0]
石油工学では、極端回復因子であるRFを決定することが不可欠である。
そこで,本研究では,手軽に利用できる特徴を用いた機械学習(ML)を用いて,10種類の油圧RFを推定する。
論文 参考訳(メタデータ) (2022-10-28T18:21:25Z) - Open-Set Recognition: A Good Closed-Set Classifier is All You Need [146.6814176602689]
分類器が「ゼロ・オブ・ア・ア・ア・ベ」決定を行う能力は、閉集合クラスにおける精度と高い相関関係があることが示される。
この相関を利用して、閉セット精度を向上させることにより、クロスエントロピーOSR'ベースライン'の性能を向上させる。
また、セマンティックノベルティを検出するタスクをより尊重する新しいベンチマークを構築した。
論文 参考訳(メタデータ) (2021-10-12T17:58:59Z) - Predicting Credit Risk for Unsecured Lending: A Machine Learning
Approach [0.0]
本研究は、無担保貸付(クレディットカード)の信用デフォルトを予測するための、同時代の信用評価モデルを構築することを目的とする。
本研究は,光グラディエントブースティングマシン(LGBM)モデルにより,学習速度の向上,効率の向上,データボリュームの大規模化を実現していることを示す。
このモデルの導入により、商業融資機関や銀行の意思決定者に対する信用デフォルトのより良いタイムリーな予測が可能になると期待している。
論文 参考訳(メタデータ) (2021-10-05T17:54:56Z) - Machine Learning approach for Credit Scoring [0.0]
我々は、最先端の信用格付けとデフォルト予測システムを構築することを目的とした、機械学習モデルのスタックを構築します。
私たちのアプローチは、最新のML/AI概念を駆使したものです。
論文 参考訳(メタデータ) (2020-07-20T21:29:06Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。