論文の概要: Finding the Sweet Spot: Optimal Data Augmentation Ratio for Imbalanced Credit Scoring Using ADASYN
- arxiv url: http://arxiv.org/abs/2510.18252v1
- Date: Tue, 21 Oct 2025 03:22:43 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-10-25 03:08:12.834357
- Title: Finding the Sweet Spot: Optimal Data Augmentation Ratio for Imbalanced Credit Scoring Using ADASYN
- Title(参考訳): 甘味スポットの発見:ADASYNを用いた不均衡信用スコーリングのための最適データ増大率
- Authors: Luis H. Chia,
- Abstract要約: 本研究は,Give Me Some Credit データセット (97,243 観測,7% デフォルトレート) を用いて,10データ拡張シナリオを体系的に評価する。
最適クラス不均衡比は6.6:1であり、バランスの一般的な慣習は1:1と矛盾していた。
この研究は、クレジットスコアリングにおけるデータ拡張に最適な「スイートスポット」が与えられた最初の実証的な証拠を提供し、業界実践者や不均衡なデータセットを扱う研究者のための実践的ガイドラインを提供する。
- 参考スコア(独自算出の注目度): 0.0
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Credit scoring models face a critical challenge: severe class imbalance, with default rates typically below 10%, which hampers model learning and predictive performance. While synthetic data augmentation techniques such as SMOTE and ADASYN have been proposed to address this issue, the optimal augmentation ratio remains unclear, with practitioners often defaulting to full balancing (1:1 ratio) without empirical justification. This study systematically evaluates 10 data augmentation scenarios using the Give Me Some Credit dataset (97,243 observations, 7% default rate), comparing SMOTE, BorderlineSMOTE, and ADASYN at different multiplication factors (1x, 2x, 3x). All models were trained using XGBoost and evaluated on a held-out test set of 29,173 real observations. Statistical significance was assessed using bootstrap testing with 1,000 iterations. Key findings reveal that ADASYN with 1x multiplication (doubling the minority class) achieved optimal performance with AUC of 0.6778 and Gini coefficient of 0.3557, representing statistically significant improvements of +0.77% and +3.00% respectively (p = 0.017, bootstrap test). Higher multiplication factors (2x and 3x) resulted in performance degradation, with 3x showing a -0.48% decrease in AUC, suggesting a "law of diminishing returns" for synthetic oversampling. The optimal class imbalance ratio was found to be 6.6:1 (majority:minority), contradicting the common practice of balancing to 1:1. This work provides the first empirical evidence of an optimal "sweet spot" for data augmentation in credit scoring, with practical guidelines for industry practitioners and researchers working with imbalanced datasets. While demonstrated on a single representative dataset, the methodology provides a reproducible framework for determining optimal augmentation ratios in other imbalanced domains.
- Abstract(参考訳): 信用スコアモデルは、厳しいクラス不均衡、通常10%未満のデフォルトレート、モデル学習と予測パフォーマンスを損なう、という重大な課題に直面します。
SMOTEやADASYNのような合成データ拡張技術がこの問題に対処するために提案されているが、最適な拡張比は未だ明らかではない。
本研究は,Give Me Some Creditデータセット(97,243件,デフォルトレート7%)を用いて,異なる乗算因子(1x,2x,3x)におけるSMOTE,BorderlineSMOTE,ADASYNを比較し,10種類のデータ拡張シナリオを体系的に評価した。
全てのモデルはXGBoostを用いて訓練され、29,173個の実観測実験で評価された。
統計的意義は1000回のブートストラップテストで評価された。
鍵となる発見は、ADASYNと1x乗算(マイノリティクラスを2倍にする)は、AUCが0.6778、Gini係数が0.3557であり、それぞれ+0.77%、+3.00%の統計的に有意な改善(p = 0.017、ブートストラップテスト)を示したことである。
高い乗算因子(2xと3x)は性能が低下し、3xはAUCの-0.48%が減少し、合成オーバーサンプリングの「リターンの低下の法則」が示唆された。
最適クラス不均衡比は6.6:1 (majority:minority) であることが判明した。
この研究は、クレジットスコアリングにおけるデータ拡張に最適な「スイートスポット」が与えられた最初の実証的な証拠を提供し、業界実践者や不均衡なデータセットを扱う研究者のための実践的ガイドラインを提供する。
1つの代表的データセットで実証されているが、この方法論は、他の不均衡領域における最適な拡張比を決定するための再現可能なフレームワークを提供する。
関連論文リスト
- Reinforcement Learning for Reasoning in Large Language Models with One Training Example [133.018487956408]
1つのトレーニング例(1ショットRLVR)を用いた強化学習は,大規模言語モデル(LLM)の数学的推論能力の向上に有効であることを示す。
1ショットRLVRにおける興味深い現象として、クロスドメインの一般化、自己回帰の頻度の増大、トレーニング精度が飽和した後もテスト性能の向上が維持されていることを挙げる。
論文 参考訳(メタデータ) (2025-04-29T09:24:30Z) - Electroencephalogram Emotion Recognition via AUC Maximization [0.0]
不均衡データセットは神経科学、認知科学、医学診断などの分野で大きな課題を提起する。
本研究は,DEAPデータセットにおけるライキングラベルを例として,イシュークラスの不均衡に対処する。
論文 参考訳(メタデータ) (2024-08-16T19:08:27Z) - GREAT Score: Global Robustness Evaluation of Adversarial Perturbation using Generative Models [60.48306899271866]
GREATスコア(GREAT Score)と呼ばれる新しいフレームワークを提案する。
我々は,ロバストベンチにおける攻撃ベースモデルと比較し,高い相関性を示し,GREATスコアのコストを大幅に削減した。
GREAT Scoreは、プライバシーに敏感なブラックボックスモデルのリモート監査に使用することができる。
論文 参考訳(メタデータ) (2023-04-19T14:58:27Z) - On the Theories Behind Hard Negative Sampling for Recommendation [51.64626293229085]
ハードネガティブサンプリング(HNS)を効果的に活用するための2つの洞察に富んだガイドラインを提供する。
パーソナライズされたランク付け(BPR)学習者におけるHNSの利用は、一方通行部分AUC(OPAUC)の最適化と等価であることを示す。
これらの分析は、初めてトップKレコメンデーションパフォーマンスを最適化するHNSの理論的基盤を確立する。
論文 参考訳(メタデータ) (2023-02-07T13:57:03Z) - Efficient, Uncertainty-based Moderation of Neural Networks Text
Classifiers [8.883733362171034]
本稿では,分類器の出力を効率よく操作できるフレームワークを提案する。
予測の不確実性を利用して、不確実で、おそらく不正確な分類を人間のモデレーターに渡す半自動化アプローチを提案する。
一連のベンチマーク実験により、我々のフレームワークは分類F1スコアを5.1から11.2%改善できることが示された。
論文 参考訳(メタデータ) (2022-04-04T09:07:54Z) - Newer is not always better: Rethinking transferability metrics, their
peculiarities, stability and performance [5.650647159993238]
小さなカスタマイズされたデータセット上で、大規模で事前訓練された画像と言語モデルの微調整が人気を集めている。
共分散推定における統計的問題により,Hスコアの性能が低下することが示唆された。
そこで我々は,そのような設定における相対的精度に対する相関性能を補正し,評価することを推奨する。
論文 参考訳(メタデータ) (2021-10-13T17:24:12Z) - Re-TACRED: Addressing Shortcomings of the TACRED Dataset [5.820381428297218]
TACREDは、最大かつ最も広く使われている文レベルの関係抽出データセットの1つである。
このデータセットを用いて評価された提案モデルは、新しい最先端のパフォーマンスを一貫して設定する。
しかし、彼らはまだ大規模なテキストコーポラで外部の知識と教師なしの事前訓練を利用しながら大きなエラー率を示しています。
論文 参考訳(メタデータ) (2021-04-16T22:55:11Z) - Bootstrapping Your Own Positive Sample: Contrastive Learning With
Electronic Health Record Data [62.29031007761901]
本稿では,新しいコントラスト型正規化臨床分類モデルを提案する。
EHRデータに特化した2つのユニークなポジティブサンプリング戦略を紹介します。
私たちのフレームワークは、現実世界のCOVID-19 EHRデータの死亡リスクを予測するために、競争の激しい実験結果をもたらします。
論文 参考訳(メタデータ) (2021-04-07T06:02:04Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。