論文の概要: How Data Quality Affects Machine Learning Models for Credit Risk Assessment
- arxiv url: http://arxiv.org/abs/2511.10964v1
- Date: Fri, 14 Nov 2025 05:18:43 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-11-17 22:42:18.438595
- Title: How Data Quality Affects Machine Learning Models for Credit Risk Assessment
- Title(参考訳): データ品質が信用リスク評価のための機械学習モデルに与える影響
- Authors: Andrea Maurino,
- Abstract要約: 信用リスク評価に使用される機械学習モデルの予測精度に及ぼすデータ品質問題の影響について検討する。
実験により,データ劣化の性質と重大性に基づくモデルロバスト性に有意な差異が認められた。
- 参考スコア(独自算出の注目度): 1.1878820609988696
- License: http://creativecommons.org/licenses/by-sa/4.0/
- Abstract: Machine Learning (ML) models are being increasingly employed for credit risk evaluation, with their effectiveness largely hinging on the quality of the input data. In this paper we investigate the impact of several data quality issues, including missing values, noisy attributes, outliers, and label errors, on the predictive accuracy of the machine learning model used in credit risk assessment. Utilizing an open-source dataset, we introduce controlled data corruption using the Pucktrick library to assess the robustness of 10 frequently used models like Random Forest, SVM, and Logistic Regression and so on. Our experiments show significant differences in model robustness based on the nature and severity of the data degradation. Moreover, the proposed methodology and accompanying tools offer practical support for practitioners seeking to enhance data pipeline robustness, and provide researchers with a flexible framework for further experimentation in data-centric AI contexts.
- Abstract(参考訳): マシンラーニング(ML)モデルは、入力データの品質に大きく依存して、信用リスク評価にますます採用されている。
本稿では,信頼リスク評価に使用される機械学習モデルの予測精度に及ぼす,ノイズ特性,外乱特性,ラベル誤差などのデータ品質問題の影響について検討する。
オープンソースデータセットを利用することで、Pucktrickライブラリを使用して、ランダムフォレストやSVM、ロジスティック回帰といった、頻繁に使用される10のモデルの堅牢性を評価する、制御されたデータ破損を導入します。
実験により,データ劣化の性質と重大性に基づくモデルロバスト性に有意な差異が認められた。
さらに、提案した方法論と付属ツールは、データパイプラインの堅牢性向上を目指す実践者に対して実践的なサポートを提供し、データ中心のAIコンテキストにおけるさらなる実験のための柔軟なフレームワークを研究者に提供する。
関連論文リスト
- Interpretable Credit Default Prediction with Ensemble Learning and SHAP [3.948008559977866]
本研究では、信用デフォルト予測の問題に焦点をあて、機械学習に基づくモデリングフレームワークを構築し、様々な主流分類アルゴリズムの比較実験を行う。
その結果、アンサンブル学習法は、特に特徴とデータ不均衡問題の間の複雑な非線形関係を扱う際に、予測性能に明らかな利点があることが示唆された。
外部クレジットスコア変数はモデル決定において主要な役割を担い、モデルの解釈可能性と実用的な応用価値を改善するのに役立ちます。
論文 参考訳(メタデータ) (2025-05-27T07:23:22Z) - Efficient Multi-Agent System Training with Data Influence-Oriented Tree Search [59.75749613951193]
木探索とデータ選択の両方をガイドするデータインフルエンス指向木探索(DITS)を提案する。
インフルエンススコアを活用することで、システム改善のための最も影響力のあるデータを効果的に特定する。
非微分不可能な指標に適した影響スコア推定法を導出する。
論文 参考訳(メタデータ) (2025-02-02T23:20:16Z) - Quality Matters: Evaluating Synthetic Data for Tool-Using LLMs [11.24476329991465]
外部ツール使用のための大規模言語モデル(LLM)のトレーニングは、急速に拡大する分野である。
体系的なデータ品質チェックの欠如は、モデルを適切にトレーニングし、テストするための複雑さを引き起こす。
外部ツールを用いたLCMのトレーニングにおいて,データの信頼性を評価するための2つの手法を提案する。
論文 参考訳(メタデータ) (2024-09-24T17:20:02Z) - Assessing Robustness of Machine Learning Models using Covariate Perturbations [0.6749750044497732]
本稿では,機械学習モデルの堅牢性を評価するための包括的フレームワークを提案する。
本研究では、ロバスト性の評価とモデル予測への影響を検討するために、様々な摂動戦略を検討する。
モデル間のロバスト性の比較、モデルの不安定性同定、モデルのロバスト性向上におけるアプローチの有効性を実証する。
論文 参考訳(メタデータ) (2024-08-02T14:41:36Z) - Robustness and Generalization Performance of Deep Learning Models on
Cyber-Physical Systems: A Comparative Study [71.84852429039881]
調査は、センサーの故障やノイズなど、様々な摂動を扱うモデルの能力に焦点を当てている。
我々は,これらのモデルの一般化と伝達学習能力を,アウト・オブ・ディストリビューション(OOD)サンプルに公開することによって検証する。
論文 参考訳(メタデータ) (2023-06-13T12:43:59Z) - Towards Robust Dataset Learning [90.2590325441068]
本稿では,頑健なデータセット学習問題を定式化するための三段階最適化法を提案する。
ロバストな特徴と非ロバストな特徴を特徴付ける抽象モデルの下で,提案手法はロバストなデータセットを確実に学習する。
論文 参考訳(メタデータ) (2022-11-19T17:06:10Z) - Striving for data-model efficiency: Identifying data externalities on
group performance [75.17591306911015]
信頼できる、効果的で責任ある機械学習システムの構築は、トレーニングデータとモデリング決定の違いが、予測パフォーマンスにどのように影響するかを理解することに集中する。
我々は、特定のタイプのデータモデル非効率性に注目し、一部のソースからトレーニングデータを追加することで、集団の重要なサブグループで評価されるパフォーマンスを実際に低下させることができる。
以上の結果から,データ効率が正確かつ信頼性の高い機械学習の鍵となることが示唆された。
論文 参考訳(メタデータ) (2022-11-11T16:48:27Z) - ALT-MAS: A Data-Efficient Framework for Active Testing of Machine
Learning Algorithms [58.684954492439424]
少量のラベル付きテストデータのみを用いて機械学習モデルを効率的にテストする新しいフレームワークを提案する。
ベイズニューラルネットワーク(bnn)を用いたモデルアンダーテストの関心指標の推定が目的である。
論文 参考訳(メタデータ) (2021-04-11T12:14:04Z) - Auto-weighted Robust Federated Learning with Corrupted Data Sources [7.475348174281237]
フェデレーション学習はコミュニケーション効率とプライバシ保護のトレーニングプロセスを提供する。
平均損失関数をナイーブに最小化する標準的なフェデレーション学習技術は、データの破損に弱い。
破損したデータソースに対して堅牢性を提供するために、自動重み付けロバストフェデレーテッドラーニング(arfl)を提案します。
論文 参考訳(メタデータ) (2021-01-14T21:54:55Z) - How Training Data Impacts Performance in Learning-based Control [67.7875109298865]
本稿では,トレーニングデータの密度と制御性能の関係を考察する。
データセットの品質尺度を定式化し、$rho$-gap と呼ぶ。
フィードバック線形化制御法に$rho$-gapを適用する方法を示す。
論文 参考訳(メタデータ) (2020-05-25T12:13:49Z) - On the Role of Dataset Quality and Heterogeneity in Model Confidence [27.657631193015252]
安全クリティカルなアプリケーションは、正確で校正された確率を出力する機械学習モデルを必要とする。
未分類のディープネットワークは、過度に信頼された予測をすることが知られている。
本研究では,データセットサイズとラベルノイズがモデルの信頼性に与える影響について検討した。
論文 参考訳(メタデータ) (2020-02-23T05:13:12Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。