論文の概要: Credit Risk Estimation with Non-Financial Features: Evidence from a Synthetic Istanbul Dataset
- arxiv url: http://arxiv.org/abs/2512.12783v1
- Date: Sun, 14 Dec 2025 17:48:13 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-12-16 17:54:56.435435
- Title: Credit Risk Estimation with Non-Financial Features: Evidence from a Synthetic Istanbul Dataset
- Title(参考訳): 非金融的特徴を用いた信用リスク推定:合成イスタンブールデータセットからの証拠
- Authors: Atalay Denknalbant, Emre Sezdi, Zeki Furkan Kutlu, Polat Goktas,
- Abstract要約: イスタンブールのアンダーバンクの消費者は、収入と支払いが非公式のチャンネルを流れるため、しばしば局のファイルを持っていない。
我々は10万人のイスタンブール住民の合成データセットを作成し、TK調査の限界と通信利用パターンを再現する。
Retrievalの拡張現実は、これらの公開統計データをOpenAI o3モデルに供給し、リアルだがプライベートなレコードを合成する。
- 参考スコア(独自算出の注目度): 0.6299766708197883
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Financial exclusion constrains entrepreneurship, increases income volatility, and widens wealth gaps. Underbanked consumers in Istanbul often have no bureau file because their earnings and payments flow through informal channels. To study how such borrowers can be evaluated we create a synthetic dataset of one hundred thousand Istanbul residents that reproduces first quarter 2025 TÜİK census marginals and telecom usage patterns. Retrieval augmented generation feeds these public statistics into the OpenAI o3 model, which synthesises realistic yet private records. Each profile contains seven socio demographic variables and nine alternative attributes that describe phone specifications, online shopping rhythm, subscription spend, car ownership, monthly rent, and a credit card flag. To test the impact of the alternative financial data CatBoost, LightGBM, and XGBoost are each trained in two versions. Demo models use only the socio demographic variables; Full models include both socio demographic and alternative attributes. Across five fold stratified validation the alternative block raises area under the curve by about one point three percentage and lifts balanced \(F_{1}\) from roughly 0.84 to 0.95, a fourteen percent gain. We contribute an open Istanbul 2025 Q1 synthetic dataset, a fully reproducible modeling pipeline, and empirical evidence that a concise set of behavioural attributes can approach bureau level discrimination power while serving borrowers who lack formal credit records. These findings give lenders and regulators a transparent blueprint for extending fair and safe credit access to the underbanked.
- Abstract(参考訳): 金融排除は起業家精神を制約し、収入のボラティリティを高め、富のギャップを広げる。
イスタンブールのアンダーバンクの消費者は、収入と支払いが非公式のチャンネルを流れるため、しばしば局のファイルを持っていない。
こうした借り手がどのように評価されるかを研究するため、我々は、2025年第1四半期の国勢調査境界と通信利用パターンを再現する10万人のイスタンブール住民の合成データセットを作成します。
Retrievalの拡張現実は、これらの公開統計データをOpenAI o3モデルに供給し、リアルだがプライベートなレコードを合成する。
それぞれのプロフィールには、電話の仕様、オンラインショッピングリズム、サブスクリプションの支出、車の所有、月々のレンタル、クレジットカードのフラグを記述した7つの社会人口統計変数と9つの代替属性が含まれている。
代替金融データであるCatBoost、LightGBM、XGBoostの影響をテストするために、それぞれ2つのバージョンでトレーニングされている。
デモモデルは、社会人口統計学の変数のみを使用し、完全なモデルには、社会人口統計学と代替属性の両方が含まれる。
5倍の層状検証で、代替ブロックは曲線下の面積を約1ポイント3パーセント上昇させ、約0.84から0.95まで上昇させる。
我々は、オープンなIstanbul 2025 Q1合成データセット、完全に再現可能なモデリングパイプライン、そして、簡潔な行動特性セットが、正式な信用記録を欠いた借主に提供しながら、局レベルの差別力にアプローチできるという実証的な証拠を貢献する。
これらの発見は、金融機関や規制当局に、アンダーバンクへの公正かつ安全な信用アクセスを拡大するための透明な青写真を与える。
関連論文リスト
- Sell Data to AI Algorithms Without Revealing It: Secure Data Valuation and Sharing via Homomorphic Encryption [10.12846924939717]
原資産を復号することなく外部データの有用性を定量化するための,プライバシ保護フレームワークであるTrustworthy Influence Protocol(TIP)を導入する。
均質暗号化と勾配に基づく影響関数を統合することで、当社のアプローチは、購入者の特定のAIモデルに対して、正確で盲目なデータポイントのスコア付けを可能にします。
医療と生成AIドメインにおける実証シミュレーションは、フレームワークの経済的ポテンシャルを検証する。
論文 参考訳(メタデータ) (2025-12-04T16:35:09Z) - Who's Asking? Investigating Bias Through the Lens of Disability Framed Queries in LLMs [2.722784054643991]
大規模言語モデル(LLM)は、ユーザの人口統計特性を、単独で推測する。
これらの推論を形作る際の障害の手がかりは、ほとんど未発見のままである。
そこで本研究では,障害条件による人口統計バイアスを,最先端の8つのLLMに対して,初めて体系的に評価した。
論文 参考訳(メタデータ) (2025-08-18T21:03:09Z) - Label Inference Attacks against Federated Unlearning [52.102277522089814]
Federated Unlearning(FU)は、クライアントを忘れる権利に対応するための有望なソリューションとして登場した。
我々は、FUに対する新たなプライバシー脅威を導入・分析し、新しいラベル推論攻撃であるULIAを提案する。
論文 参考訳(メタデータ) (2025-08-09T02:38:24Z) - Not All Clients Are Equal: Collaborative Model Personalization on Heterogeneous Multi-Modal Clients [59.52341877720199]
計算コストを伴わずに異種アーキテクチャ間の知識共有を可能にするFedMosaicを提案する。
実世界のタスクの多様性を模倣するために,40の異なるタスクにまたがるマルチモーダルPFLベンチマークを提案する。
実証研究は、FedMosaicが最先端のPFL法より優れていることを示している。
論文 参考訳(メタデータ) (2025-05-20T09:17:07Z) - Uncovering the Sociodemographic Fabric of Reddit [5.915947588383603]
本稿では,Reddit上での社会デマログラフ推論の原理的枠組みを紹介する。
我々は、年齢、性別、およびパルチザン関連に関する85万以上のユーザー自己宣言を活用している。
ROC AUCでは,最先端の分類性能を最大19%向上させる。
論文 参考訳(メタデータ) (2025-02-07T16:11:39Z) - Fairness-enhancing mixed effects deep learning improves fairness on in- and out-of-distribution clustered (non-iid) data [6.596656267996196]
フェア・ミックスド・エフェクト・ディープ・ラーニング(Fair MEDL)フレームワークを提案する。
本フレームワークは,1)不変なFEを学習するためのクラスタ逆効果,2)REのためのベイズニューラルネットワーク,3)最終的な予測のためにFEとREを組み合わせた混合関数,を通じて,クラスタ不変な固定効果(FE)とクラスタ固有ランダムエフェクト(RE)を定量化する。
公正なMEDLフレームワークは、年齢で86.4%、人種で64.9%、性で57.8%、結婚で36.2%の公正性を向上し、堅牢な予測性能を維持している。
論文 参考訳(メタデータ) (2023-10-04T20:18:45Z) - Finding Stakeholder-Material Information from 10-K Reports using
Fine-Tuned BERT and LSTM Models [0.0]
すべての公開企業は、連邦証券法により、毎年10-Kの報告書で事業と金融活動の開示を義務付けられている。
この問題を解決するため、ステークホルダー・マテリアル情報を特定するため、LSTM層を用いたBERTモデルとRNNモデルを微調整した。
最良モデルは0.904、F1スコアは0.899で、それぞれベースラインモデルの0.781と0.749を大きく上回っている。
論文 参考訳(メタデータ) (2023-08-15T01:25:34Z) - Learning Fair Node Representations with Graph Counterfactual Fairness [56.32231787113689]
以上の事実から導かれるバイアスを考慮したグラフ反事実公正性を提案する。
我々は各ノードとその周辺住民の感度特性の摂動に対応する反事実を生成する。
我々のフレームワークはグラフの反ファクトフェアネスにおける最先端のベースラインよりも優れています。
論文 参考訳(メタデータ) (2022-01-10T21:43:44Z) - Representative & Fair Synthetic Data [68.8204255655161]
公平性制約を自己監督学習プロセスに組み込むためのフレームワークを提示する。
私たちはuci成人国勢調査データセットの代表者および公正版を作成します。
我々は、代表的かつ公正な合成データを将来有望なビルディングブロックとみなし、歴史的世界ではなく、私たちが生きようとしている世界についてアルゴリズムを教える。
論文 参考訳(メタデータ) (2021-04-07T09:19:46Z) - Supporting Financial Inclusion with Graph Machine Learning and Super-App
Alternative Data [63.942632088208505]
スーパーアプリは、ユーザーとコマースの相互作用についての考え方を変えました。
本稿では,スーパーアプリ内のユーザ間のインタラクションの違いが,借り手行動を予測する新たな情報源となるかを検討する。
論文 参考訳(メタデータ) (2021-02-19T15:13:06Z) - Fair Densities via Boosting the Sufficient Statistics of Exponential
Families [72.34223801798422]
フェアネスのためのデータ前処理にブースティングアルゴリズムを導入する。
私たちのアプローチは、最小限の公平性を確保しながら、より良いデータフィッティングへとシフトします。
実世界のデータに結果の質を示す実験結果が提示される。
論文 参考訳(メタデータ) (2020-12-01T00:49:17Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。