論文の概要: Interpreting LLMs as Credit Risk Classifiers: Do Their Feature Explanations Align with Classical ML?
- arxiv url: http://arxiv.org/abs/2510.25701v1
- Date: Wed, 29 Oct 2025 17:05:00 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-10-30 15:50:45.813664
- Title: Interpreting LLMs as Credit Risk Classifiers: Do Their Feature Explanations Align with Classical ML?
- Title(参考訳): LLMを信用リスク分類器として解釈する:それらの特徴説明は古典的MLと一致しているか?
- Authors: Saeed AlMarri, Kristof Juhasz, Mathieu Ravaut, Gautier Marti, Hamdan Al Ahbabi, Ibrahim Elfadel,
- Abstract要約: 大言語モデル(LLM)は、ゼロショットプロンプトによる分類タスクのための古典的な機械学習モデルの柔軟な代替品として、ますます研究されている。
本研究では,ゼロショットLPMに基づく分類器と,現実のローンデフォルト予測タスクにおいて,最先端の勾配ブースティングモデルであるLightGBMとを体系的に比較する。
我々は,それらの予測性能を評価し,SHAPを用いて特徴属性を分析し,LLM生成自己説明の信頼性を評価する。
- 参考スコア(独自算出の注目度): 4.0057196015831495
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Large Language Models (LLMs) are increasingly explored as flexible alternatives to classical machine learning models for classification tasks through zero-shot prompting. However, their suitability for structured tabular data remains underexplored, especially in high-stakes financial applications such as financial risk assessment. This study conducts a systematic comparison between zero-shot LLM-based classifiers and LightGBM, a state-of-the-art gradient-boosting model, on a real-world loan default prediction task. We evaluate their predictive performance, analyze feature attributions using SHAP, and assess the reliability of LLM-generated self-explanations. While LLMs are able to identify key financial risk indicators, their feature importance rankings diverge notably from LightGBM, and their self-explanations often fail to align with empirical SHAP attributions. These findings highlight the limitations of LLMs as standalone models for structured financial risk prediction and raise concerns about the trustworthiness of their self-generated explanations. Our results underscore the need for explainability audits, baseline comparisons with interpretable models, and human-in-the-loop oversight when deploying LLMs in risk-sensitive financial environments.
- Abstract(参考訳): 大言語モデル(LLM)は、ゼロショットプロンプトによる分類タスクのための古典的な機械学習モデルの柔軟な代替品として、ますます研究されている。
しかし、構造化表データに対する適合性は、特に金融リスク評価のような高額の金融アプリケーションにおいて、未定のままである。
本研究では,ゼロショットLPMに基づく分類器と,現実のローンデフォルト予測タスクにおいて,最先端の勾配ブースティングモデルであるLightGBMとを体系的に比較する。
我々は,それらの予測性能を評価し,SHAPを用いて特徴属性を分析し,LLM生成自己説明の信頼性を評価する。
LLMは主要な金融リスク指標を特定できるが、その特徴的重要性のランキングはLightGBMとは特に異なり、自己説明は実証的なSHAP属性と一致しないことが多い。
これらの知見は、構造的金融リスク予測のためのスタンドアロンモデルとしてのLCMの限界を強調し、自己生成的説明の信頼性に関する懸念を提起する。
この結果から,リスクに敏感な金融環境にLSMを配置する場合,説明可能性監査,解釈可能なモデルとのベースライン比較,ループ内監視の必要性が示唆された。
関連論文リスト
- LLM-Lasso: A Robust Framework for Domain-Informed Feature Selection and Regularization [59.75242204923353]
LLM-Lassoは大規模言語モデル(LLM)を利用してラッソ回帰における特徴選択を導くフレームワークである。
LLMは各特徴に対してペナルティ因子を生成し、単純でチューニング可能なモデルを用いてラスソペナルティの重みに変換される。
LLMによりより関連づけられた特徴は、より低い罰を受け、最終モデルに保持される可能性を高める。
論文 参考訳(メタデータ) (2025-02-15T02:55:22Z) - Cycles of Thought: Measuring LLM Confidence through Stable Explanations [53.15438489398938]
大規模言語モデル(LLM)は、様々なベンチマークで人間レベルの精度に到達し、さらに超えることができるが、不正確な応答における過度な自信は、依然として十分に文書化された障害モードである。
本稿では,LLMの不確実性を測定するためのフレームワークを提案する。
論文 参考訳(メタデータ) (2024-06-05T16:35:30Z) - Unveiling the Misuse Potential of Base Large Language Models via In-Context Learning [61.2224355547598]
大規模言語モデル(LLM)のオープンソース化は、アプリケーション開発、イノベーション、科学的進歩を加速させる。
我々の調査は、この信念に対する重大な監視を露呈している。
我々の研究は、慎重に設計されたデモを配置することにより、ベースLSMが悪意のある命令を効果的に解釈し実行できることを実証する。
論文 参考訳(メタデータ) (2024-04-16T13:22:54Z) - Enhancing Financial Sentiment Analysis via Retrieval Augmented Large
Language Models [11.154814189699735]
大規模な言語モデル (LLM) は様々なNLPタスクにおいて優れた性能を示した。
本稿では,金融感情分析のためのLLMフレームワークを提案する。
提案手法の精度は15%から48%向上し,F1得点を得た。
論文 参考訳(メタデータ) (2023-10-06T05:40:23Z) - Empowering Many, Biasing a Few: Generalist Credit Scoring through Large
Language Models [53.620827459684094]
大規模言語モデル(LLM)は、複数のタスクにまたがる強力な一般化能力を持つ信用スコアリングタスクにおいて大きな可能性を秘めている。
クレジットスコアリングのための LLM を探索する,初のオープンソース包括的フレームワークを提案する。
そこで我々は,各種金融リスク評価タスクの煩雑な要求に合わせて,指導チューニングによる最初の信用・リスク評価大言語モデル(CALM)を提案する。
論文 参考訳(メタデータ) (2023-10-01T03:50:34Z) - Fairness of ChatGPT and the Role Of Explainable-Guided Prompts [6.079011829257036]
本研究では,大規模言語モデル(LLM),特に OpenAI の GPT の信用リスク評価における可能性について検討する。
この結果から,LLMは従来の機械学習(ML)モデルの性能を並列化できる可能性が示唆された。
論文 参考訳(メタデータ) (2023-07-14T09:20:16Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。