論文の概要: Enhancing Data Quality through Self-learning on Imbalanced Financial Risk Data
- arxiv url: http://arxiv.org/abs/2409.09792v1
- Date: Sun, 15 Sep 2024 16:59:15 GMT
- ステータス: 処理完了
- システム内更新日: 2024-09-17 17:20:56.630468
- Title: Enhancing Data Quality through Self-learning on Imbalanced Financial Risk Data
- Title(参考訳): 不均衡金融リスクデータに基づく自己学習によるデータ品質向上
- Authors: Xu Sun, Zixuan Qin, Shun Zhang, Yuexian Wang, Li Huang,
- Abstract要約: 本研究では、既存の金融リスクデータセットを強化するためのデータ前処理手法について検討する。
本稿では,(1)マイノリティクラスに特化された合成サンプルを生成すること,(2)バイナリフィードバックを用いてサンプルを精製すること,(3)擬似ラベルを用いた自己学習を行うこと,の3つを紹介する。
我々の実験は、より堅牢な金融リスク予測システムを開発する上で重要な要素であるマイノリティ・クラス・キャリブレーションの改善に焦点を当てたTriEnhanceの有効性を明らかにした。
- 参考スコア(独自算出の注目度): 11.910955398918444
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: In the financial risk domain, particularly in credit default prediction and fraud detection, accurate identification of high-risk class instances is paramount, as their occurrence can have significant economic implications. Although machine learning models have gained widespread adoption for risk prediction, their performance is often hindered by the scarcity and diversity of high-quality data. This limitation stems from factors in datasets such as small risk sample sizes, high labeling costs, and severe class imbalance, which impede the models' ability to learn effectively and accurately forecast critical events. This study investigates data pre-processing techniques to enhance existing financial risk datasets by introducing TriEnhance, a straightforward technique that entails: (1) generating synthetic samples specifically tailored to the minority class, (2) filtering using binary feedback to refine samples, and (3) self-learning with pseudo-labels. Our experiments across six benchmark datasets reveal the efficacy of TriEnhance, with a notable focus on improving minority class calibration, a key factor for developing more robust financial risk prediction systems.
- Abstract(参考訳): 金融リスク領域、特に信用デフォルト予測や不正検出では、リスクの高いクラスインスタンスの正確な識別が最重要である。
マシンラーニングモデルは、リスク予測のために広く採用されているが、そのパフォーマンスは、高品質なデータの不足と多様性によって妨げられていることが多い。
この制限は、小さなリスクサンプルサイズ、高いラベリングコスト、厳しいクラス不均衡といったデータセットの要素に起因しており、モデルが効果的に学習し、重要な事象を正確に予測する能力を妨げている。
本研究では,(1)マイノリティクラスに特化された合成サンプルを生成し,(2)バイナリフィードバックを用いてサンプルを精査し,(3)擬似ラベルを用いた自己学習を行うことで,既存の金融リスクデータセットを強化するためのデータ前処理技術について検討する。
6つのベンチマークデータセットを対象とした実験により、より堅牢な金融リスク予測システムを開発する上で重要な要素であるマイノリティクラスキャリブレーションの改善に焦点を当てたTriEnhanceの有効性が明らかにされた。
関連論文リスト
- Provably Unlearnable Data Examples [27.24152626809928]
原文(投稿日:2012/09/19)へのリンク 未許可のモデルでは、共有データを学習不能にするための努力が続けられている。
本稿では、学習不能データセットのいわゆる$(q, eta)$-Learnabilityを認証するためのメカニズムを提案する。
認証の低い$(q, eta)$-Learnabilityは、データセットに対するより堅牢で効果的な保護を示している。
論文 参考訳(メタデータ) (2024-05-06T09:48:47Z) - Uncertainty for Active Learning on Graphs [70.44714133412592]
不確実性サンプリングは、機械学習モデルのデータ効率を改善することを目的とした、アクティブな学習戦略である。
予測の不確実性を超えた不確実性サンプリングをベンチマークし、他のアクティブラーニング戦略に対する大きなパフォーマンスギャップを強調します。
提案手法は,データ生成プロセスの観点から基幹的ベイズ不確実性推定法を開発し,不確実性サンプリングを最適クエリへ導く上での有効性を実証する。
論文 参考訳(メタデータ) (2024-05-02T16:50:47Z) - The Risk of Federated Learning to Skew Fine-Tuning Features and
Underperform Out-of-Distribution Robustness [50.52507648690234]
フェデレートされた学習は、微調整された特徴をスキイングし、モデルの堅牢性を損なうリスクがある。
3つのロバスト性指標を導入し、多様なロバストデータセットで実験を行う。
提案手法は,パラメータ効率のよい微調整手法を含む多種多様なシナリオにまたがるロバスト性を著しく向上させる。
論文 参考訳(メタデータ) (2024-01-25T09:18:51Z) - DeRisk: An Effective Deep Learning Framework for Credit Risk Prediction
over Real-World Financial Data [13.480823015283574]
実世界の金融データに対する信用リスク予測のための効果的なディープラーニングリスク予測フレームワークであるDeRiskを提案する。
DeRiskは、当社のプロダクションシステムにデプロイされた統計的学習アプローチよりも優れた、最初のディープリスク予測モデルです。
論文 参考訳(メタデータ) (2023-08-07T16:22:59Z) - Learning for Counterfactual Fairness from Observational Data [62.43249746968616]
公正な機械学習は、人種、性別、年齢などの特定の保護された(感受性のある)属性によって記述されるある種のサブグループに対して、学習モデルのバイアスを取り除くことを目的としている。
カウンターファクトフェアネスを達成するための既存の手法の前提条件は、データに対する因果モデルの事前の人間の知識である。
本研究では,新しいフレームワークCLAIREを提案することにより,因果関係を付与せずに観測データから対実的に公正な予測を行う問題に対処する。
論文 参考訳(メタデータ) (2023-07-17T04:08:29Z) - Fair Active Learning: Solving the Labeling Problem in Insurance [2.5470832667329213]
本報告では, 各種アクティブラーニングサンプリング手法について検討し, 総合的および実保険データセットに与える影響について検討する。
提案手法は,予測性能と公正性のバランスを良好に保ちながら,情報および公正な事例を抽出する。
論文 参考訳(メタデータ) (2021-12-17T12:07:04Z) - Detecting and Mitigating Test-time Failure Risks via Model-agnostic
Uncertainty Learning [30.86992077157326]
本稿では,すでに訓練済みのブラックボックス分類モデルの失敗リスクと予測的不確かさを推定するための,ポストホックメタラーナーであるリスクアドバイザを紹介する。
リスクアドバイザは、リスクスコアの提供に加えて、不確実性見積を、アレタリックおよびエピステマティックな不確実性コンポーネントに分解する。
ブラックボックス分類モデルおよび実世界および合成データセットのさまざまなファミリーの実験は、リスクアドバイザーがデプロイメント時の障害リスクを確実に予測していることを示している。
論文 参考訳(メタデータ) (2021-09-09T17:23:31Z) - Learning from Similarity-Confidence Data [94.94650350944377]
類似度信頼性(Sconf)データから学習する新しい弱監督学習問題について検討する。
本研究では,Sconfデータのみから計算可能な分類リスクの非バイアス推定器を提案し,推定誤差境界が最適収束率を達成することを示す。
論文 参考訳(メタデータ) (2021-02-13T07:31:16Z) - Provable tradeoffs in adversarially robust classification [96.48180210364893]
我々は、ロバストなイソペリメトリに関する確率論の最近のブレークスルーを含む、新しいツールを開発し、活用する。
この結果から,データの不均衡時に増加する標準精度とロバスト精度の基本的なトレードオフが明らかになった。
論文 参考訳(メタデータ) (2020-06-09T09:58:19Z) - Precise Tradeoffs in Adversarial Training for Linear Regression [55.764306209771405]
本稿では,ガウス的特徴を伴う線形回帰の文脈における対人訓練の役割を,正確かつ包括的に理解する。
我々は,同時代のミニマックス対逆訓練手法によって達成された標準/ロバスト精度とそれに対応するトレードオフを正確に特徴づける。
逆行訓練アルゴリズムの理論は、様々な要因(トレーニングデータのサイズや品質、モデルの過度化など)がこれらの2つの競合するアキュラシー間のトレードオフにどのように影響するかを厳密に研究する上で役立ちます。
論文 参考訳(メタデータ) (2020-02-24T19:01:47Z) - On the Role of Dataset Quality and Heterogeneity in Model Confidence [27.657631193015252]
安全クリティカルなアプリケーションは、正確で校正された確率を出力する機械学習モデルを必要とする。
未分類のディープネットワークは、過度に信頼された予測をすることが知られている。
本研究では,データセットサイズとラベルノイズがモデルの信頼性に与える影響について検討した。
論文 参考訳(メタデータ) (2020-02-23T05:13:12Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。