論文の概要: CatBoost model with synthetic features in application to loan risk
assessment of small businesses
- arxiv url: http://arxiv.org/abs/2106.07954v1
- Date: Tue, 15 Jun 2021 08:17:00 GMT
- ステータス: 処理完了
- システム内更新日: 2021-06-16 14:57:49.281171
- Title: CatBoost model with synthetic features in application to loan risk
assessment of small businesses
- Title(参考訳): 合成特徴をもつキャットブースモデルによる中小企業のローンリスク評価
- Authors: Liexing Cheng, Haoxue Wang
- Abstract要約: CatBoostは強力な機械学習アルゴリズムであり、多くのカテゴリ変数を持つデータセットに適している。
本稿では,ローン状況の分類問題に寄与する重要なリスク要因を同定する。
関連研究の文献と比較すると,95.74%の精度,98.59%の精度のAUCが得られる。
- 参考スコア(独自算出の注目度): 0.0
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Loan risk for small business has long been a complex problem worthy of
exploring. Predicting the loan risk approximately can benefit entrepreneurship
by developing more jobs for the society. CatBoost (Categorical Boosting) is a
powerful machine learning algorithm that is suitable for dataset with many
categorical variables like the dataset for forecasting loan risk. In this
paper, we identify the important risk factors that contribute to loan status
classification problem. Then we compare the the performance between
boosting-type algorithms(especially CatBoost) with other traditional yet
popular ones. The dataset we adopt in the research comes from the U.S. Small
Business Administration (SBA) and holds a very large sample size (899,164
observations and 27 features). We obtain a high accuracy of 95.74% and
well-performed AUC of 98.59% compared with the existent literature of related
research. In order to make best use of the important features in the dataset,
we propose a technique named "synthetic generation" to develop more combined
features based on arithmetic operation, which ends up improving the accuracy
and AUC of original CatBoost model.
- Abstract(参考訳): 小さなビジネスに対するローンのリスクは、探究する価値のある複雑な問題でした。
ローンリスクの予測は、社会のためにより多くの仕事を開発することで、起業にほぼ貢献できる。
CatBoost(Categorical Boosting)は強力な機械学習アルゴリズムで、ローンリスクを予測するためにデータセットのような多くのカテゴリ変数を持つデータセットに適している。
本稿では,ローン状況の分類問題に寄与する重要なリスク要因を同定する。
次に、ブーピング型アルゴリズム(特にCatBoost)と従来の人気の高いアルゴリズムのパフォーマンスを比較します。
調査で採用したデータセットは、米国中小企業管理局(SBA)が提供し、非常に大きなサンプルサイズ(899,164の観測と27の特徴)を持っている。
関連研究の文献と比較すると,95.74%の精度,98.59%の良好なAUCが得られる。
データセットの重要な特徴を最大限に活用するために,算術演算に基づく複合機能を開発するための「合成生成」という手法を提案し,その結果,元のcatboostモデルの精度とaucを向上させる。
関連論文リスト
- Zero-shot Retrieval: Augmenting Pre-trained Models with Search Engines [83.65380507372483]
大規模で事前訓練されたモデルは、問題を解決するのに必要なタスク固有のデータの量を劇的に削減するが、多くの場合、ドメイン固有のニュアンスを箱から取り出すのに失敗する。
本稿では,NLPとマルチモーダル学習の最近の進歩を活用して,検索エンジン検索による事前学習モデルを強化する方法について述べる。
論文 参考訳(メタデータ) (2023-11-29T05:33:28Z) - Credit card score prediction using machine learning models: A new
dataset [2.099922236065961]
本研究では、クレジットカードのデフォルト予測システムにおける機械学習(ML)モデルの利用について検討する。
ここでの主な目標は、新しく提案されたクレジットカードスコアリングデータセットにおいて、最高のパフォーマンスのMLモデルを調査することである。
論文 参考訳(メタデータ) (2023-10-04T16:46:26Z) - Efficient Commercial Bank Customer Credit Risk Assessment Based on
LightGBM and Feature Engineering [5.6081706361236865]
本論文は、カグルの外国商業銀行の顧客情報データセットに基づくものである。
私たちはLightGBMアルゴリズムを使用して、顧客を分類する分類器を構築し、銀行が顧客の信用デフォルトの可能性を判断する手助けをします。
論文 参考訳(メタデータ) (2023-08-17T03:32:38Z) - Enhanced Gradient Boosting for Zero-Inflated Insurance Claims and
Comparative Analysis of CatBoost, XGBoost, and LightGBM [0.0]
CatBoostは、予測性能に基づいた自動クレーム頻度モデルを開発するための最良のライブラリである。
そこで我々は, インフレ確率$p$と分布平均$mu$の関係を仮定した, ゼロ膨張ポアソン強化木モデルを提案する。
論文 参考訳(メタデータ) (2023-07-15T10:54:46Z) - Does Synthetic Data Generation of LLMs Help Clinical Text Mining? [51.205078179427645]
臨床テキストマイニングにおけるOpenAIのChatGPTの可能性を検討する。
本稿では,高品質な合成データを大量に生成する新たな学習パラダイムを提案する。
提案手法により,下流タスクの性能が大幅に向上した。
論文 参考訳(メタデータ) (2023-03-08T03:56:31Z) - Towards Robust Dataset Learning [90.2590325441068]
本稿では,頑健なデータセット学習問題を定式化するための三段階最適化法を提案する。
ロバストな特徴と非ロバストな特徴を特徴付ける抽象モデルの下で,提案手法はロバストなデータセットを確実に学習する。
論文 参考訳(メタデータ) (2022-11-19T17:06:10Z) - Machine Learning Models Evaluation and Feature Importance Analysis on
NPL Dataset [0.0]
エチオピアのプライベートバンクが提供するデータセット上で、異なる機械学習モデルがどのように機能するかを評価する。
XGBoostは、KMeans SMOTEオーバーサンプリングデータ上で最高F1スコアを達成する。
論文 参考訳(メタデータ) (2022-08-28T17:09:44Z) - SAIS: Supervising and Augmenting Intermediate Steps for Document-Level
Relation Extraction [51.27558374091491]
本稿では,関係抽出のための中間ステップ(SAIS)を監督し,拡張することにより,関連コンテキストやエンティティタイプをキャプチャするモデルを明示的に教えることを提案する。
そこで本提案手法は,より効果的な管理を行うため,より優れた品質の関係を抽出するだけでなく,それに対応する証拠をより正確に抽出する。
論文 参考訳(メタデータ) (2021-09-24T17:37:35Z) - Risk Minimization from Adaptively Collected Data: Guarantees for
Supervised and Policy Learning [57.88785630755165]
経験的リスク最小化(Empirical Risk Minimization, ERM)は、機械学習のワークホースであるが、適応的に収集されたデータを使用すると、そのモデルに依存しない保証が失敗する可能性がある。
本研究では,仮説クラス上での損失関数の平均値を最小限に抑えるため,適応的に収集したデータを用いた一般的な重み付きERMアルゴリズムについて検討する。
政策学習では、探索がゼロになるたびに既存の文献のオープンギャップを埋める率-最適後悔保証を提供する。
論文 参考訳(メタデータ) (2021-06-03T09:50:13Z) - Risk-Constrained Thompson Sampling for CVaR Bandits [82.47796318548306]
CVaR(Conditional Value at Risk)として知られる量的ファイナンスにおける一般的なリスク尺度について考察する。
本稿では,トンプソンサンプリングに基づくCVaR-TSアルゴリズムの性能について検討する。
論文 参考訳(メタデータ) (2020-11-16T15:53:22Z) - The value of text for small business default prediction: A deep learning
approach [9.023847175654602]
限られたデータの可用性を損なうために、融資担当者がテキストによるローン評価を提供することは、標準的な方針である。
我々は、ディープラーニングと自然言語処理の分野からの最近の進歩を活用して、貸し手が提供する60万件のテキストアセスメントから情報を抽出する。
テキストだけでは、デフォルトを予測するのに驚くほど効果的であることがわかったが、従来のデータと組み合わせると、追加の予測能力は得られない。
しかし,本提案したディープラーニングモデルは,テキストの品質に頑健であり,mSME貸出プロセスの自動化に適していると考えられる。
論文 参考訳(メタデータ) (2020-03-19T18:15:05Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。