Fugu-MT 論文翻訳(概要): CatBoost model with synthetic features in application to loan risk assessment of small businesses

論文の概要: CatBoost model with synthetic features in application to loan risk assessment of small businesses

arxiv url: http://arxiv.org/abs/2106.07954v1
Date: Tue, 15 Jun 2021 08:17:00 GMT
ステータス: 翻訳完了
システム内更新日: 2021-06-16 14:57:49.281171
Title: CatBoost model with synthetic features in application to loan risk assessment of small businesses
Title（参考訳）: 合成特徴をもつキャットブースモデルによる中小企業のローンリスク評価
Authors: Liexing Cheng, Haoxue Wang
Abstract要約: CatBoostは強力な機械学習アルゴリズムであり、多くのカテゴリ変数を持つデータセットに適している。本稿では,ローン状況の分類問題に寄与する重要なリスク要因を同定する。関連研究の文献と比較すると,95.74%の精度,98.59%の精度のAUCが得られる。
参考スコア（独自算出の注目度）: 0.0
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: Loan risk for small business has long been a complex problem worthy of exploring. Predicting the loan risk approximately can benefit entrepreneurship by developing more jobs for the society. CatBoost (Categorical Boosting) is a powerful machine learning algorithm that is suitable for dataset with many categorical variables like the dataset for forecasting loan risk. In this paper, we identify the important risk factors that contribute to loan status classification problem. Then we compare the the performance between boosting-type algorithms(especially CatBoost) with other traditional yet popular ones. The dataset we adopt in the research comes from the U.S. Small Business Administration (SBA) and holds a very large sample size (899,164 observations and 27 features). We obtain a high accuracy of 95.74% and well-performed AUC of 98.59% compared with the existent literature of related research. In order to make best use of the important features in the dataset, we propose a technique named "synthetic generation" to develop more combined features based on arithmetic operation, which ends up improving the accuracy and AUC of original CatBoost model.
Abstract（参考訳）: 小さなビジネスに対するローンのリスクは、探究する価値のある複雑な問題でした。ローンリスクの予測は、社会のためにより多くの仕事を開発することで、起業にほぼ貢献できる。 CatBoost(Categorical Boosting)は強力な機械学習アルゴリズムで、ローンリスクを予測するためにデータセットのような多くのカテゴリ変数を持つデータセットに適している。本稿では,ローン状況の分類問題に寄与する重要なリスク要因を同定する。次に、ブーピング型アルゴリズム(特にCatBoost)と従来の人気の高いアルゴリズムのパフォーマンスを比較します。調査で採用したデータセットは、米国中小企業管理局(SBA)が提供し、非常に大きなサンプルサイズ(899,164の観測と27の特徴)を持っている。関連研究の文献と比較すると,95.74%の精度,98.59%の良好なAUCが得られる。データセットの重要な特徴を最大限に活用するために,算術演算に基づく複合機能を開発するための「合成生成」という手法を提案し,その結果,元のcatboostモデルの精度とaucを向上させる。

関連論文リスト

AI Generated Text Detection [0.0]
本稿では,従来の機械学習モデルとトランスフォーマーベースアーキテクチャの両方を含む,AIテキスト検出手法の評価を行う。我々は、HC3とDAIGT v2という2つのデータセットを使用して、統一されたベンチマークを構築し、情報漏洩を防止するためにトピックベースのデータ分割を適用する。その結果、文脈モデリングは語彙的特徴よりもはるかに優れていることが示され、話題記憶の緩和の重要性が強調された。
論文参考訳（メタデータ） (2026-01-07T11:18:10Z)
Step-DeepResearch Technical Report [90.50586290399683]
コスト効率のよいエンドツーエンドエージェントである Step-DeepResearch を紹介する。我々は、計画とレポート作成を強化するために、アトミック能力に基づくデータ合成戦略を提案する。中国における評価ギャップを埋めるため,現実的な深層研究シナリオのためのADR-Benchを構築した。
論文参考訳（メタデータ） (2025-12-23T16:32:27Z)
Toward Quantitative Modeling of Cybersecurity Risks Due to AI Misuse [50.87630846876635]
我々は9つの詳細なサイバーリスクモデルを開発する。各モデルはMITRE ATT&CKフレームワークを使用して攻撃をステップに分解する。個々の見積もりはモンテカルロシミュレーションによって集約される。
論文参考訳（メタデータ） (2025-12-09T17:54:17Z)
Learning More with Less: A Generalizable, Self-Supervised Framework for Privacy-Preserving Capacity Estimation with EV Charging Data [84.37348569981307]
自己教師付き事前学習に基づく第一種能力推定モデルを提案する。我々のモデルは一貫して最先端のベースラインを上回っている。
論文参考訳（メタデータ） (2025-10-05T08:58:35Z)
Optimizing Fintech Marketing: A Comparative Study of Logistic Regression and XGBoost [0.0]
本研究は、消費者行動を分析し、ダイレクトメールキャンペーンに対する反応を予測するための高度な機械学習技術を用いている。 XGBoostは、特にカテゴリ別バイナリとカスタム計算を使用したシナリオにおいて、さまざまなメトリクスのロジスティックレグレッションを一貫して上回る。
論文参考訳（メタデータ） (2024-12-20T20:45:42Z)
Unleashing LLM Reasoning Capability via Scalable Question Synthesis from Scratch [54.12139707822201]
本稿では,新しい,スケーラブルで費用対効果の高いデータ合成手法であるScaleQuestを提案する。スクラッチから多様な質問を生成することで、100万の問題解決ペアのデータセットを生成します。私たちの実験では、データに基づいてトレーニングされたモデルが、既存のオープンソースデータセットより優れています。
論文参考訳（メタデータ） (2024-10-24T12:42:04Z)
Application of AI in Credit Risk Scoring for Small Business Loans: A case study on how AI-based random forest model improves a Delphi model outcome in the case of Azerbaijani SMEs [0.0]
本研究は,機械学習ランダム森林モデルの適用により,デルフィモデルの精度と精度が向上することを示す。この研究は、両方のモデルの精度、精度、リコール、F-1スコアを使用して、それらを比較し、アルゴリズムをPythonで実行した。
論文参考訳（メタデータ） (2024-10-05T23:07:13Z)
What are the Essential Factors in Crafting Effective Long Context Multi-Hop Instruction Datasets? Insights and Best Practices [91.71951459594074]
拡張コンテキストウィンドウを持つLong Language Model (LLM) は、情報抽出、質問応答、複雑な計画シナリオなどのタスクを大幅に改善した。既存のメソッドは通常、Self-Instructフレームワークを使用して、長いコンテキスト能力を改善するために命令チューニングデータを生成する。本稿では,品質検証エージェント,シングルホップ質問生成エージェント,複数質問サンプリング戦略,マルチホップ質問マーガーエージェントを組み込んだマルチエージェント対話型マルチホップ生成フレームワークを提案する。以上の結果から,我々の合成高品位長文指導データにより,多量の人体で訓練したモデルよりも,モデル性能が著しく向上することが示唆された。
論文参考訳（メタデータ） (2024-09-03T13:30:00Z)
Zero-Inflated Tweedie Boosted Trees with CatBoost for Insurance Loss Analytics [0.8287206589886881]
我々はTweedie回帰モデルを変更し、様々なタイプの保険の集合的請求をモデル化する際の限界に対処する。我々の推奨するアプローチは、0-claimプロセスの洗練されたモデリングとブースティング手法の統合である。モデル化の結果,モデルの性能が著しく向上し,より正確な予測を行う可能性が示された。
論文参考訳（メタデータ） (2024-06-23T20:03:55Z)
Use of Boosting Algorithms in Household-Level Poverty Measurement: A Machine Learning Approach to Predict and Classify Household Wealth Quintiles in the Philippines [0.0]
本研究では,フィリピンにおける貧困水準予測における機械学習モデルの有効性について検討した。 CatBoostは優れたモデルとして登場し、精度、精度、リコール、F1スコアの最高スコアを91%で達成した。
論文参考訳（メタデータ） (2024-05-28T03:29:08Z)
Monte Carlo Tree Search Boosts Reasoning via Iterative Preference Learning [55.96599486604344]
本稿では,Large Language Models (LLMs) の推論能力向上を目的とした,反復的な選好学習プロセスによるアプローチを提案する。我々は、MCTS(Monte Carlo Tree Search)を用いて好みデータを反復的に収集し、そのルックアヘッド機能を利用して、インスタンスレベルの報酬をよりきめ細かいステップレベルの信号に分解する。提案アルゴリズムはDPO(Direct Preference Optimization)を用いて,新たに生成されたステップレベルの優先度データを用いてLCMポリシーを更新する。
論文参考訳（メタデータ） (2024-05-01T11:10:24Z)
Zero-shot Retrieval: Augmenting Pre-trained Models with Search Engines [83.65380507372483]
大規模で事前訓練されたモデルは、問題を解決するのに必要なタスク固有のデータの量を劇的に削減するが、多くの場合、ドメイン固有のニュアンスを箱から取り出すのに失敗する。本稿では,NLPとマルチモーダル学習の最近の進歩を活用して,検索エンジン検索による事前学習モデルを強化する方法について述べる。
論文参考訳（メタデータ） (2023-11-29T05:33:28Z)
Credit card score prediction using machine learning models: A new dataset [2.099922236065961]
本研究では、クレジットカードのデフォルト予測システムにおける機械学習(ML)モデルの利用について検討する。ここでの主な目標は、新しく提案されたクレジットカードスコアリングデータセットにおいて、最高のパフォーマンスのMLモデルを調査することである。
論文参考訳（メタデータ） (2023-10-04T16:46:26Z)
Enhanced Gradient Boosting for Zero-Inflated Insurance Claims and Comparative Analysis of CatBoost, XGBoost, and LightGBM [0.0]
CatBoostは、予測性能に基づいた自動クレーム頻度モデルを開発するための最良のライブラリである。そこで我々は, インフレ確率$p$と分布平均$mu$の関係を仮定した, ゼロ膨張ポアソン強化木モデルを提案する。
論文参考訳（メタデータ） (2023-07-15T10:54:46Z)
Does Synthetic Data Generation of LLMs Help Clinical Text Mining? [51.205078179427645]
臨床テキストマイニングにおけるOpenAIのChatGPTの可能性を検討する。本稿では,高品質な合成データを大量に生成する新たな学習パラダイムを提案する。提案手法により,下流タスクの性能が大幅に向上した。
論文参考訳（メタデータ） (2023-03-08T03:56:31Z)
SAIS: Supervising and Augmenting Intermediate Steps for Document-Level Relation Extraction [51.27558374091491]
本稿では,関係抽出のための中間ステップ(SAIS)を監督し,拡張することにより,関連コンテキストやエンティティタイプをキャプチャするモデルを明示的に教えることを提案する。そこで本提案手法は,より効果的な管理を行うため,より優れた品質の関係を抽出するだけでなく,それに対応する証拠をより正確に抽出する。
論文参考訳（メタデータ） (2021-09-24T17:37:35Z)
Risk-Constrained Thompson Sampling for CVaR Bandits [82.47796318548306]
CVaR(Conditional Value at Risk)として知られる量的ファイナンスにおける一般的なリスク尺度について考察する。本稿では,トンプソンサンプリングに基づくCVaR-TSアルゴリズムの性能について検討する。
論文参考訳（メタデータ） (2020-11-16T15:53:22Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。