論文の概要: Managing dataset shift by adversarial validation for credit scoring
- arxiv url: http://arxiv.org/abs/2112.10078v1
- Date: Sun, 19 Dec 2021 07:07:15 GMT
- ステータス: 処理完了
- システム内更新日: 2021-12-22 07:22:24.060832
- Title: Managing dataset shift by adversarial validation for credit scoring
- Title(参考訳): 信用スコアの検証によるデータセットシフトの管理
- Authors: Hongyi Qian, Baohui Wang, Ping Ma, Lei Peng, Songfeng Gao, You Song
- Abstract要約: トレーニングデータの分布と実際に予測する必要があるデータとの矛盾は、モデルパフォーマンスの低下を引き起こす可能性がある。
本稿では,クレジットスコアリングシナリオにおけるデータセットシフト問題を軽減するための,逆検証に基づく手法を提案する。
- 参考スコア(独自算出の注目度): 5.560471251954645
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Dataset shift is common in credit scoring scenarios, and the inconsistency
between the distribution of training data and the data that actually needs to
be predicted is likely to cause poor model performance. However, most of the
current studies do not take this into account, and they directly mix data from
different time periods when training the models. This brings about two
problems. Firstly, there is a risk of data leakage, i.e., using future data to
predict the past. This can result in inflated results in offline validation,
but unsatisfactory results in practical applications. Secondly, the
macroeconomic environment and risk control strategies are likely to be
different in different time periods, and the behavior patterns of borrowers may
also change. The model trained with past data may not be applicable to the
recent stage. Therefore, we propose a method based on adversarial validation to
alleviate the dataset shift problem in credit scoring scenarios. In this
method, partial training set samples with the closest distribution to the
predicted data are selected for cross-validation by adversarial validation to
ensure the generalization performance of the trained model on the predicted
samples. In addition, through a simple splicing method, samples in the training
data that are inconsistent with the test data distribution are also involved in
the training process of cross-validation, which makes full use of all the data
and further improves the model performance. To verify the effectiveness of the
proposed method, comparative experiments with several other data split methods
are conducted with the data provided by Lending Club. The experimental results
demonstrate the importance of dataset shift in the field of credit scoring and
the superiority of the proposed method.
- Abstract(参考訳): クレジットスコアリングのシナリオではデータセットのシフトが一般的であり、トレーニングデータと実際に予測する必要があるデータの分布の不整合は、モデルのパフォーマンスを低下させる可能性がある。
しかし、現在の研究のほとんどは、これを考慮しておらず、モデルをトレーニングする異なる期間のデータを直接混ぜている。
これは2つの問題を引き起こす。
第一に、データ漏洩のリスク、すなわち、過去の予測に将来のデータを使用する。
この結果、オフライン検証の結果は膨らむが、実用アプリケーションでは満足できない結果になる。
第二に、マクロ経済環境とリスクコントロール戦略は、異なる期間に異なる傾向があり、借主の行動パターンも変化する可能性がある。
過去のデータで訓練されたモデルは、最近の段階では適用できないかもしれない。
そこで本稿では,クレジットスコアリングシナリオにおけるデータセットシフト問題を軽減するための,逆検証に基づく手法を提案する。
本手法では, 予測データに最も近い分布を持つ部分トレーニングセットサンプルを, 逆検証によりクロスバリデーションに選択し, 予測サンプル上でのトレーニングモデルの一般化性能を確保する。
また、簡単なスプライシング手法により、テストデータ分布に矛盾するトレーニングデータのサンプルもクロスバリデーションのトレーニングプロセスに関与し、すべてのデータをフル活用し、さらにモデル性能を向上させる。
提案手法の有効性を検証するため,レンディングクラブのデータを用いて,他のデータ分割法との比較実験を行った。
実験結果から,クレジットスコアリング分野におけるデータセットシフトの重要性と,提案手法の優位性を示す。
関連論文リスト
- Distilled Datamodel with Reverse Gradient Matching [74.75248610868685]
オフライントレーニングとオンライン評価段階を含む,データ影響評価のための効率的なフレームワークを提案する。
提案手法は, 直接再学習法と比較して, プロセスの大幅な高速化を図りながら, 同等のモデル行動評価を実現する。
論文 参考訳(メタデータ) (2024-04-22T09:16:14Z) - The Mirrored Influence Hypothesis: Efficient Data Influence Estimation by Harnessing Forward Passes [30.30769701138665]
我々は、訓練データとテストデータの間の相互影響を浮き彫りにして、ミラーレッド影響仮説を導入し、探求する。
具体的には、テスト予測に対するトレーニングデータの影響を評価することは、等価だが逆問題として再定義することができることを示唆している。
トレーニングポイント毎に前方パスとペアを組むことで,特定のテストサンプルの勾配を計算し,トレーニングデータの影響を推定する新しい手法を提案する。
論文 参考訳(メタデータ) (2024-02-14T03:43:05Z) - Online Performance Estimation with Unlabeled Data: A Bayesian Application of the Hui-Walter Paradigm [0.0]
我々は、伝統的に疫学や医学に応用されたHui-Walterパラダイムを機械学習の分野に適用する。
根拠のないシナリオでは、偽陽性率、偽陰性率、先行といった重要なパフォーマンス指標を推定する。
オンラインデータを扱うためのこのパラダイムを拡張し、動的データ環境の新しい可能性を広げます。
論文 参考訳(メタデータ) (2024-01-17T17:46:10Z) - Adapting to Continuous Covariate Shift via Online Density Ratio Estimation [64.8027122329609]
分散シフトへの対処は、現代の機械学習における中心的な課題の1つだ。
歴史的情報を適切に再利用するオンライン手法を提案する。
我々の密度比推定法は, ダイナミックなリセットバウンドを楽しむことにより, 良好に動作できることが証明された。
論文 参考訳(メタデータ) (2023-02-06T04:03:33Z) - CAFA: Class-Aware Feature Alignment for Test-Time Adaptation [50.26963784271912]
テスト時間適応(TTA)は、テスト時にラベルのないデータにモデルを適応させることによって、この問題に対処することを目的としている。
本稿では,クラス認識特徴アライメント(CAFA, Class-Aware Feature Alignment)と呼ばれる単純な機能アライメント損失を提案する。
論文 参考訳(メタデータ) (2022-06-01T03:02:07Z) - Data-SUITE: Data-centric identification of in-distribution incongruous
examples [81.21462458089142]
Data-SUITEは、ID(In-distriion)データの不連続領域を特定するためのデータ中心のフレームワークである。
我々は,Data-SUITEの性能保証とカバレッジ保証を実証的に検証する。
論文 参考訳(メタデータ) (2022-02-17T18:58:31Z) - Conformal prediction for the design problem [72.14982816083297]
機械学習の現実的な展開では、次にテストすべきデータを選択するために予測アルゴリズムを使用します。
このような設定では、トレーニングデータとテストデータの間には、異なるタイプの分散シフトがある。
このような環境で予測の不確実性を定量化する手法を提案する。
論文 参考訳(メタデータ) (2022-02-08T02:59:12Z) - Leveraging Unlabeled Data to Predict Out-of-Distribution Performance [63.740181251997306]
実世界の機械学習デプロイメントは、ソース(トレーニング)とターゲット(テスト)ディストリビューションのミスマッチによって特徴づけられる。
本研究では,ラベル付きソースデータとラベルなしターゲットデータのみを用いて,対象領域の精度を予測する手法を検討する。
本稿では,モデルの信頼度をしきい値として学習し,精度をラベルなし例のごく一部として予測する実践的手法である平均閾値保持信頼度(ATC)を提案する。
論文 参考訳(メタデータ) (2022-01-11T23:01:12Z) - Self Training with Ensemble of Teacher Models [8.257085583227695]
堅牢なディープラーニングモデルのトレーニングには,大量のラベル付きデータが必要である。
このようなラベル付きデータの大規模なリポジトリがなければ、ラベルなしのデータも同様に利用することができる。
準スーパービジョン学習は、そのようなラベルのないデータを分類モデルの訓練に活用することを目的としている。
論文 参考訳(メタデータ) (2021-07-17T09:44:09Z) - Robust Fairness-aware Learning Under Sample Selection Bias [17.09665420515772]
サンプル選択バイアス下での頑健で公正な学習のための枠組みを提案する。
テストデータが利用可能で、利用できない場合に、サンプル選択バイアスを処理する2つのアルゴリズムを開発した。
論文 参考訳(メタデータ) (2021-05-24T23:23:36Z) - Robust Validation: Confident Predictions Even When Distributions Shift [19.327409270934474]
本稿では,モデルが点予測ではなく,その予測に対して不確実な推定を行うような,頑健な予測推論の手順について述べる。
本稿では, トレーニング集団の周囲に$f$-divergence のボールを用いて, 任意のテスト分布に対して適切なカバレッジレベルを与える予測セットを生成する手法を提案する。
私たちの方法論の重要な構成要素は、将来のデータシフトの量を見積り、それに対する堅牢性を構築することです。
論文 参考訳(メタデータ) (2020-08-10T17:09:16Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。