論文の概要: Fighting Sampling Bias: A Framework for Training and Evaluating Credit Scoring Models
- arxiv url: http://arxiv.org/abs/2407.13009v1
- Date: Wed, 17 Jul 2024 20:59:54 GMT
- ステータス: 処理完了
- システム内更新日: 2024-07-19 19:23:28.046469
- Title: Fighting Sampling Bias: A Framework for Training and Evaluating Credit Scoring Models
- Title(参考訳): Fighting Smpling Bias: クレジットスコアモデルのトレーニングと評価のためのフレームワーク
- Authors: Nikita Kozodoi, Stefan Lessmann, Morteza Alamgir, Luis Moreira-Matias, Konstantinos Papakonstantinou,
- Abstract要約: 本稿では,サンプリングバイアスがモデルトレーニングおよび評価に与える影響について考察する。
スコアカード評価のためのバイアス認識型自己学習と拒絶推論フレームワークを提案する。
その結果,ベイズ評価を用いて受入率を決定する場合,利益率が約8%向上することが示唆された。
- 参考スコア(独自算出の注目度): 2.918530881730374
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Scoring models support decision-making in financial institutions. Their estimation and evaluation are based on the data of previously accepted applicants with known repayment behavior. This creates sampling bias: the available labeled data offers a partial picture of the distribution of candidate borrowers, which the model is supposed to score. The paper addresses the adverse effect of sampling bias on model training and evaluation. To improve scorecard training, we propose bias-aware self-learning - a reject inference framework that augments the biased training data by inferring labels for selected rejected applications. For scorecard evaluation, we propose a Bayesian framework that extends standard accuracy measures to the biased setting and provides a reliable estimate of future scorecard performance. Extensive experiments on synthetic and real-world data confirm the superiority of our propositions over various benchmarks in predictive performance and profitability. By sensitivity analysis, we also identify boundary conditions affecting their performance. Notably, we leverage real-world data from a randomized controlled trial to assess the novel methodologies on holdout data that represent the true borrower population. Our findings confirm that reject inference is a difficult problem with modest potential to improve scorecard performance. Addressing sampling bias during scorecard evaluation is a much more promising route to improve scoring practices. For example, our results suggest a profit improvement of about eight percent, when using Bayesian evaluation to decide on acceptance rates.
- Abstract(参考訳): Scoring Modelは金融機関の意思決定を支援する。
評価と評価は、既定の返済行動の既知の申請者のデータに基づいて行われる。
利用可能なラベル付きデータは、モデルがスコアするはずの候補借主の分布の部分的な図を提供する。
モデル学習と評価におけるサンプリングバイアスの悪影響について検討した。
スコアカード学習を改善するために,選択された拒否アプリケーションに対してラベルを推測することでバイアス付きトレーニングデータを増大させる,バイアス対応型自己学習(reject-aware self-learning)を提案する。
スコアカード評価には,標準精度尺度をバイアス設定に拡張し,将来のスコアカード性能を推定するベイズフレームワークを提案する。
合成および実世界のデータに対する大規模な実験により、予測性能と収益性において、様々なベンチマークよりも提案が優れていることが確認された。
感度解析により,その性能に影響を及ぼす境界条件も同定する。
特に、ランダムに制御された試行錯誤から得られた実世界のデータを利用して、真の借主人口を表すホールドアウトデータに基づいて、新しい手法を評価する。
以上の結果から,リジェクション推論は,スコアカードの性能向上に欠かせない問題であることが明らかとなった。
スコアカード評価中にサンプリングバイアスに対処することは、スコアリングプラクティスを改善するためのずっと有望な方法です。
例えば,ベイズ評価を用いて受入率を決定する場合,利益率が約8%向上することが示唆された。
関連論文リスト
- Rejection via Learning Density Ratios [50.91522897152437]
拒絶による分類は、モデルを予測しないことを許容する学習パラダイムとして現れます。
そこで我々は,事前学習したモデルの性能を最大化する理想的なデータ分布を求める。
私たちのフレームワークは、クリーンでノイズの多いデータセットで実証的にテストされます。
論文 参考訳(メタデータ) (2024-05-29T01:32:17Z) - Learning with Imbalanced Noisy Data by Preventing Bias in Sample
Selection [82.43311784594384]
実世界のデータセットには、ノイズの多いラベルだけでなく、クラス不均衡も含まれている。
不均衡なデータセットにおけるノイズラベルに対処する,単純かつ効果的な手法を提案する。
論文 参考訳(メタデータ) (2024-02-17T10:34:53Z) - Noisy Correspondence Learning with Self-Reinforcing Errors Mitigation [63.180725016463974]
クロスモーダル検索は、実際は精力的な、十分に整合した大規模データセットに依存している。
我々は、新しい雑音対応学習フレームワーク、textbfSelf-textbfReinforcing textbfErrors textbfMitigation(SREM)を導入する。
論文 参考訳(メタデータ) (2023-12-27T09:03:43Z) - Leveraging Uncertainty Estimates To Improve Classifier Performance [4.4951754159063295]
バイナリ分類では、正のクラスのモデルスコアが、アプリケーション要求に基づいて選択されたしきい値を超えるかどうかに基づいて、インスタンスのラベルを予測する。
しかし、モデルスコアは真の肯定率と一致しないことが多い。
これは特に、クラス間の差分サンプリングを含むトレーニングや、トレインとテスト設定間の分散ドリフトがある場合に当てはまる。
論文 参考訳(メタデータ) (2023-11-20T12:40:25Z) - Unbiased Decisions Reduce Regret: Adversarial Domain Adaptation for the
Bank Loan Problem [21.43618923706602]
データポイントがプリンシパルによって正のラベルを割り当てられた場合にのみ、真のラベルが観察される。
本稿では、対向ドメイン適応を用いたトレーニングセットのバイアスに直接対処するために、対向最適化(AdOpt)を導入する。
論文 参考訳(メタデータ) (2023-08-15T21:35:44Z) - Exploring validation metrics for offline model-based optimisation with
diffusion models [50.404829846182764]
モデルベース最適化(MBO)では、マシンラーニングを使用して、(基底真理)オラクルと呼ばれるブラックボックス関数に対する報酬の尺度を最大化する候補を設計することに興味があります。
モデル検証中に基底オラクルに対する近似をトレーニングし、その代わりに使用することができるが、その評価は近似的であり、敵の例に対して脆弱である。
本手法は,外挿量を測定するために提案した評価フレームワークにカプセル化されている。
論文 参考訳(メタデータ) (2022-11-19T16:57:37Z) - Augmentation by Counterfactual Explanation -- Fixing an Overconfident
Classifier [11.233334009240947]
極めて正確だが過信的なモデルは、ヘルスケアや自動運転といった重要なアプリケーションへのデプロイには不適である。
本稿では,過度に信頼された分類器の修正に反事実的説明を適用することを提案する。
論文 参考訳(メタデータ) (2022-10-21T18:53:16Z) - Rethinking InfoNCE: How Many Negative Samples Do You Need? [54.146208195806636]
半定量的理論フレームワークを用いて, InfoNCE に最適化された負のサンプル数について検討した。
トレーニングの有効性関数を最大化する$K$値を用いて,最適負サンプリング比を推定する。
論文 参考訳(メタデータ) (2021-05-27T08:38:29Z) - Robust Fairness-aware Learning Under Sample Selection Bias [17.09665420515772]
サンプル選択バイアス下での頑健で公正な学習のための枠組みを提案する。
テストデータが利用可能で、利用できない場合に、サンプル選択バイアスを処理する2つのアルゴリズムを開発した。
論文 参考訳(メタデータ) (2021-05-24T23:23:36Z) - Towards Model-Agnostic Post-Hoc Adjustment for Balancing Ranking
Fairness and Algorithm Utility [54.179859639868646]
Bipartiteランキングは、ラベル付きデータから正の個人よりも上位の個人をランク付けするスコアリング機能を学ぶことを目的としている。
学習したスコアリング機能が、異なる保護グループ間で体系的な格差を引き起こすのではないかという懸念が高まっている。
本稿では、二部構成のランキングシナリオにおいて、それらのバランスをとるためのモデル後処理フレームワークを提案する。
論文 参考訳(メタデータ) (2020-06-15T10:08:39Z) - Active Bayesian Assessment for Black-Box Classifiers [20.668691047355072]
本稿では,信頼性とラベル効率の両面でのデシラタを満たすため,分類器の性能を評価するためのベイズ的手法を提案する。
まず、精度、誤分類コスト、校正誤差などの一般的な評価指標の不確かさを定量化する推論手法を開発する。
次に、推論不確実性を用いたベイズ評価のための一般的な枠組みを提案し、ラベリングのための効率的なインスタンス選択を導出する。
論文 参考訳(メタデータ) (2020-02-16T08:08:42Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。