論文の概要: Loss Given Default Prediction Under Measurement-Induced Mixture Distributions: An Information-Theoretic Approach
- arxiv url: http://arxiv.org/abs/2511.11596v1
- Date: Wed, 29 Oct 2025 10:11:38 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-12-07 19:06:32.181503
- Title: Loss Given Default Prediction Under Measurement-Induced Mixture Distributions: An Information-Theoretic Approach
- Title(参考訳): 測定誘起混合分布におけるデフォルト予測の損失:情報理論的アプローチ
- Authors: Javier Marín,
- Abstract要約: Loss given Default (LGD)モデリングは、基本的なデータ品質の制約に直面します。
利用可能なトレーニングデータの90%は、完了した破産手続きの実際の回復結果ではなく、プレディストレストバランスシートに基づくプロキシ推定で構成されている。
- 参考スコア(独自算出の注目度): 0.2538209532048866
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Loss Given Default (LGD) modeling faces a fundamental data quality constraint: 90% of available training data consists of proxy estimates based on pre-distress balance sheets rather than actual recovery outcomes from completed bankruptcy proceedings. We demonstrate that this mixture-contaminated training structure causes systematic failure of recursive partitioning methods, with Random Forest achieving negative r-squared (-0.664, worse than predicting the mean) on held-out test data. Information-theoretic approaches based on Shannon entropy and mutual information provide superior generalization, achieving r-squared of 0.191 and RMSE of 0.284 on 1,218 corporate bankruptcies (1980-2023). Analysis reveals that leverage-based features contain 1.510 bits of mutual information while size effects contribute only 0.086 bits, contradicting regulatory assumptions about scale-dependent recovery. These results establish practical guidance for financial institutions deploying LGD models under Basel III requirements when representative outcome data is unavailable at sufficient scale. The findings generalize to medical outcomes research, climate forecasting, and technology reliability-domains where extended observation periods create unavoidable mixture structure in training data.
- Abstract(参考訳): 利用可能なトレーニングデータの90%は、完了した破産手続きの実際の回復結果ではなく、プレストレスバランスシートに基づくプロキシ推定で構成されています。
我々は,この混合汚染されたトレーニング構造が再帰的分割法を体系的に失敗させ,Random Forest は保持試験データに対して負の r-二乗(-0.664, 平均よりも悪い)を達成していることを示した。
シャノンエントロピーと相互情報に基づく情報理論的アプローチは、1,218社の倒産(1980-2023)において0.191のr二乗と0.284のRMSEを達成し、優れた一般化をもたらす。
分析によると、レバレッジベースの特徴には1.510ビットの相互情報が含まれており、サイズ効果は0.086ビットしか寄与しない。
これらの結果は,代表結果データが十分な規模で利用できない場合に,バーゼルIII要件の下でLGDモデルをデプロイする金融機関に対して,実用的なガイダンスを確立するものである。
この結果は、医学的な結果、気候予報、および長期にわたる観測期間がトレーニングデータに避けられない混合構造を形成する技術信頼性ドメインに一般化される。
関連論文リスト
- Revisiting Multivariate Time Series Forecasting with Missing Values [65.30332997607141]
現実の時系列では欠落値が一般的である。
現在のアプローチでは、計算モジュールを使用して、不足した値を補う、計算済みの予測フレームワークが開発されている。
このフレームワークは、致命的な問題を見落としている: 欠落した値に対して基礎的な真理は存在せず、予測精度を劣化させる可能性のあるエラーの影響を受けやすいようにしている。
本稿では,Information Bottleneck原則に基づく新しいフレームワークであるConsistency-Regularized Information Bottleneck(CRIB)を紹介する。
論文 参考訳(メタデータ) (2025-09-27T20:57:48Z) - A Contrastive Learning-Guided Confident Meta-learning for Zero Shot Anomaly Detection [17.73056562717683]
CoZADは、新しいゼロショット異常検出フレームワークである。
ソフト・インテリジェンス・ラーニングとメタラーニングとコントラスト的特徴表現を統合している。
7つの産業ベンチマークのうち6つで既存の手法を上回ります。
論文 参考訳(メタデータ) (2025-08-25T09:27:31Z) - Robust Molecular Property Prediction via Densifying Scarce Labeled Data [53.24886143129006]
薬物発見において、研究を進める上で最も重要な化合物は、しばしば訓練セットを越えている。
本稿では, ラベル付きデータを利用して, 分布内データ(ID)と分布外データ(OOD)を補間する2段階最適化手法を提案する。
論文 参考訳(メタデータ) (2025-06-13T15:27:40Z) - Assumption-Lean Post-Integrated Inference with Surrogate Control Outcomes [6.448728765953916]
制御結果を用いて遅延不均一性を調整する頑健なポストインテグレート推論(PII)手法を提案する。
我々は、予測された直接効果推定に関する半パラメトリック推論を開発し、隠された仲介者、共同設立者、モデレーターを考慮に入れた。
提案された二重頑健な推定器は、最小の仮定と潜在的な不特定性の下で一貫性があり、効率的である。
論文 参考訳(メタデータ) (2024-10-07T12:52:38Z) - Measuring and Mitigating Local Instability in Deep Neural Networks [23.342675028217762]
モデルが同じデータ上で再トレーニングされた場合でも,トレーニングプロセスにおける原理性の結果,モデルがどう変化するかを検討する。
自然言語理解(NLU)タスクでは,クエリのかなりの部分の予測が不安定であることがわかった。
局所的な安定性を推定する新たなデータ中心手法を提案する。
論文 参考訳(メタデータ) (2023-05-18T00:34:15Z) - An Epistemic and Aleatoric Decomposition of Arbitrariness to Constrain the Set of Good Models [7.620967781722717]
最近の研究では、機械学習(ML)モデルがトレーニング手順の微妙な変更に対して非常に敏感であることが示されている。
安定性は, てんかん成分と動脈成分に分解され, 予測の一貫性と信頼性を捉える。
そこで本研究では,既存の精度と公平性の基準と合わせて,てんかんおよび失読の基準を含むモデル選択手法を提案し,良質なモデルの集合を絞り込むことに成功したことを示す。
論文 参考訳(メタデータ) (2023-02-09T09:35:36Z) - UNITE: Uncertainty-based Health Risk Prediction Leveraging Multi-sourced
Data [81.00385374948125]
我々はUNcertaInTyベースのhEalth Risk Prediction(UNITE)モデルを提案する。
UNITEは、複数ソースの健康データを活用した正確な疾患リスク予測と不確実性推定を提供する。
非アルコール性脂肪肝疾患(NASH)とアルツハイマー病(AD)の実態予測タスクにおけるUNITEの評価を行った。
UNITEはAD検出のF1スコアで最大0.841点、NASH検出のPR-AUCで最大0.609点を達成し、最高のベースラインで最大19%の高パフォーマンスを達成している。
論文 参考訳(メタデータ) (2020-10-22T02:28:11Z) - Unlabelled Data Improves Bayesian Uncertainty Calibration under
Covariate Shift [100.52588638477862]
後続正則化に基づく近似ベイズ推定法を開発した。
前立腺癌の予後モデルを世界規模で導入する上で,本手法の有用性を実証する。
論文 参考訳(メタデータ) (2020-06-26T13:50:19Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。