論文の概要: Empowering Many, Biasing a Few: Generalist Credit Scoring through Large
Language Models
- arxiv url: http://arxiv.org/abs/2310.00566v3
- Date: Sun, 18 Feb 2024 01:24:17 GMT
- ステータス: 処理完了
- システム内更新日: 2024-02-21 05:47:51.432482
- Title: Empowering Many, Biasing a Few: Generalist Credit Scoring through Large
Language Models
- Title(参考訳): 多数の権限を与え、バイアスを負う: 大規模言語モデルによるジェネラリストクレジットスコアリング
- Authors: Duanyu Feng, Yongfu Dai, Jimin Huang, Yifang Zhang, Qianqian Xie,
Weiguang Han, Zhengyu Chen, Alejandro Lopez-Lira, Hao Wang
- Abstract要約: 大規模言語モデル(LLM)は、複数のタスクにまたがる強力な一般化能力を持つ信用スコアリングタスクにおいて大きな可能性を秘めている。
クレジットスコアリングのための LLM を探索する,初のオープンソース包括的フレームワークを提案する。
そこで我々は,各種金融リスク評価タスクの煩雑な要求に合わせて,指導チューニングによる最初の信用・リスク評価大言語モデル(CALM)を提案する。
- 参考スコア(独自算出の注目度): 53.620827459684094
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: In the financial industry, credit scoring is a fundamental element, shaping
access to credit and determining the terms of loans for individuals and
businesses alike. Traditional credit scoring methods, however, often grapple
with challenges such as narrow knowledge scope and isolated evaluation of
credit tasks. Our work posits that Large Language Models (LLMs) have great
potential for credit scoring tasks, with strong generalization ability across
multiple tasks. To systematically explore LLMs for credit scoring, we propose
the first open-source comprehensive framework. We curate a novel benchmark
covering 9 datasets with 14K samples, tailored for credit assessment and a
critical examination of potential biases within LLMs, and the novel instruction
tuning data with over 45k samples. We then propose the first Credit and Risk
Assessment Large Language Model (CALM) by instruction tuning, tailored to the
nuanced demands of various financial risk assessment tasks. We evaluate CALM,
existing state-of-art (SOTA) methods, open source and closed source LLMs on the
build benchmark. Our empirical results illuminate the capability of LLMs to not
only match but surpass conventional models, pointing towards a future where
credit scoring can be more inclusive, comprehensive, and unbiased. We
contribute to the industry's transformation by sharing our pioneering
instruction-tuning datasets, credit and risk assessment LLM, and benchmarks
with the research community and the financial industry.
- Abstract(参考訳): 金融業界では、クレジットスコアリングが基本的な要素であり、クレジットへのアクセスを形成し、個人やビジネスのローン条件を決定する。
しかし、伝統的なクレジットスコアリング手法は、狭い知識範囲や独立したクレジットタスクの評価といった課題にしばしば対処している。
我々の研究は、Large Language Models (LLM) が複数のタスクにまたがる強力な一般化能力を持つ信用スコアリングタスクに大きな可能性を持っていることを示唆している。
クレジットスコアリングのためのLCMを体系的に探索するために,我々は,最初のオープンソース包括的フレームワークを提案する。
筆者らは,14Kサンプルを用いた9つのデータセットを対象とし,LLM内の潜在的なバイアスに対する評価と評価を行うとともに,45k以上のサンプルを用いた新しいインストラクションチューニングデータについて検証した。
そこで我々は,各種金融リスク評価タスクの煩雑な要求に合わせて,指導チューニングによる最初の信用リスク評価大言語モデル(CALM)を提案する。
ビルドベンチマークでは,CALM,既存の最先端(SOTA)メソッド,オープンソースおよびクローズドソースのLCMを評価した。
我々の経験的結果は、LLMが従来のモデルに適合するだけでなく、信用スコアがより包括的で包括的で偏見のない未来へ向けて、従来のモデルを上回る能力を示す。
我々は、先駆的なインストラクションチューニングデータセット、信用とリスクアセスメントLLM、および研究コミュニティと金融業界とのベンチマークを共有することで、業界変革に貢献する。
関連論文リスト
- Credit Risk Meets Large Language Models: Building a Risk Indicator from
Loan Descriptions in P2P Lending [1.4141453107129398]
ピアツーピア(P2P)融資は、借り手と貸し手とをオンラインプラットフォームを通じて結びつける独特の融資メカニズムとして登場した。
しかしながら、P2P貸与は情報非対称性の課題に直面している。
本稿では,ローン申請プロセスにおいて,借主が提供したテキスト記述を活用することで,この問題に対処する新たなアプローチを提案する。
論文 参考訳(メタデータ) (2024-01-29T10:11:05Z) - TrustLLM: Trustworthiness in Large Language Models [446.5220130390284]
本稿では,大規模言語モデル(LLM)における信頼度に関する総合的研究であるTrustLLMを紹介する。
まず、8つの異なる次元にまたがる信頼性の高いLCMの原則を提案する。
これらの原則に基づいて、真理性、安全性、公正性、堅牢性、プライバシ、機械倫理を含む6つの次元にわたるベンチマークを確立します。
論文 参考訳(メタデータ) (2024-01-10T22:07:21Z) - Are Large Language Models Reliable Judges? A Study on the Factuality
Evaluation Capabilities of LLMs [8.526956860672698]
大きな言語モデル(LLM)は、その顕著な能力のために注目を集めている。
本研究では,テキスト生成モデルにより生成された要約における事実整合性の信頼性評価としてのLCMの可能性について検討する。
論文 参考訳(メタデータ) (2023-11-01T17:42:45Z) - Survey on Factuality in Large Language Models: Knowledge, Retrieval and
Domain-Specificity [61.54815512469125]
本調査は,大規模言語モデル(LLM)における事実性の重要課題に対処する。
LLMが様々な領域にまたがる応用を見出すにつれ、その出力の信頼性と正確性は重要となる。
論文 参考訳(メタデータ) (2023-10-11T14:18:03Z) - Through the Lens of Core Competency: Survey on Evaluation of Large
Language Models [27.271533306818732]
大規模言語モデル(LLM)は優れた性能と幅広い実用性を持っている。
既存の評価タスクは、現実世界のシナリオにおける幅広いアプリケーションに追いつくのは難しい。
LLMの4つのコア能力は、推論、知識、信頼性、安全性などである。
この能力アーキテクチャの下では、類似したタスクを組み合わせて対応する能力を反映し、新しいタスクをシステムに簡単に追加することができる。
論文 参考訳(メタデータ) (2023-08-15T17:40:34Z) - L-Eval: Instituting Standardized Evaluation for Long Context Language
Models [91.05820785008527]
長い文脈言語モデル(LCLM)のより標準化された評価を行うためにL-Evalを提案する。
20のサブタスク、508の長いドキュメント、2000以上の人間ラベルのクエリ応答対を含む新しい評価スイートを構築した。
その結果、一般的なn-gramマッチングの指標は人間の判断とよく相関しないことがわかった。
論文 参考訳(メタデータ) (2023-07-20T17:59:41Z) - A Survey on Evaluation of Large Language Models [87.60417393701331]
大規模言語モデル(LLM)は、学術と産業の両方で人気が高まっている。
本稿では,評価方法,評価方法,評価方法の3つの重要な側面に焦点をあてる。
論文 参考訳(メタデータ) (2023-07-06T16:28:35Z) - KoLA: Carefully Benchmarking World Knowledge of Large Language Models [56.672981891304005]
我々は知識指向LLMアセスメントベンチマーク(KoLA)を構築した。
能力モデリングでは、人間の認知を模倣して知識関連能力の4段階の分類を作成し、19ドルのタスクをカバーしている。
データには、LLMによって事前訓練されたコーパスであるウィキペディアと、継続的に収集される新興コーパスの両方を使用し、目に見えないデータを扱う能力と知識の進化を評価することを目的としています。
論文 参考訳(メタデータ) (2023-06-15T17:20:46Z) - Bagging Supervised Autoencoder Classifier for Credit Scoring [3.5977219275318166]
クレジットスコアリングデータセットの不均衡の性質と、クレジットスコアリングデータセットの特徴の不均一性は、効果的なクレジットスコアリングモデルの開発と実装に困難をもたらす。
本稿では,主にスーパービジョンオートエンコーダの性能を活かしたBaging Supervised Autoencoder (BSAC)を提案する。
BSACはまた、過半数クラスのアンサンプに基づいて、Bagingプロセスの変種を採用することで、データ不均衡の問題にも対処する。
論文 参考訳(メタデータ) (2021-08-12T17:49:08Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。