論文の概要: Measuring What LLMs Think They Do: SHAP Faithfulness and Deployability on Financial Tabular Classification
- arxiv url: http://arxiv.org/abs/2512.00163v1
- Date: Fri, 28 Nov 2025 19:04:25 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-12-02 19:46:34.095064
- Title: Measuring What LLMs Think They Do: SHAP Faithfulness and Deployability on Financial Tabular Classification
- Title(参考訳): LLMが何をするかを測る: SHAPの忠実度と金融タブラル分類への展開可能性
- Authors: Saeed AlMarri, Mathieu Ravaut, Kristof Juhasz, Gautier Marti, Hamdan Al Ahbabi, Ibrahim Elfadel,
- Abstract要約: 大規模言語モデル(LLM)は分類タスクに大きな注目を集めている。
構造化データに対する信頼性は、特に金融リスク評価のような高リスクアプリケーションにおいて、まだ不明である。
本研究では, LLMを体系的に評価し, 財務分類タスクのSHAP値を生成する。
- 参考スコア(独自算出の注目度): 4.0057196015831495
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Large Language Models (LLMs) have attracted significant attention for classification tasks, offering a flexible alternative to trusted classical machine learning models like LightGBM through zero-shot prompting. However, their reliability for structured tabular data remains unclear, particularly in high stakes applications like financial risk assessment. Our study systematically evaluates LLMs and generates their SHAP values on financial classification tasks. Our analysis shows a divergence between LLMs self-explanation of feature impact and their SHAP values, as well as notable differences between LLMs and LightGBM SHAP values. These findings highlight the limitations of LLMs as standalone classifiers for structured financial modeling, but also instill optimism that improved explainability mechanisms coupled with few-shot prompting will make LLMs usable in risk-sensitive domains.
- Abstract(参考訳): 大きな言語モデル(LLM)は分類タスクに大きな注目を集めており、ゼロショットプロンプトを通じてLightGBMのような信頼できる古典的機械学習モデルに代わる柔軟な代替手段を提供する。
しかし、構造化された表データに対する信頼性は、特に金融リスク評価のような高リスクなアプリケーションにおいて不明確である。
本研究では, LLMを体系的に評価し, 財務分類タスクのSHAP値を生成する。
本分析では,LLMの自己説明とSHAP値,およびLLMとLightGBM SHAP値の相違について検討した。
これらの知見は、構造化金融モデリングのためのスタンドアロン分類器としてのLLMの限界を浮き彫りにしただけでなく、数発のプロンプトと組み合わせた説明可能性メカニズムを改善する楽観主義を取り入れることで、LLMがリスクに敏感なドメインで利用できるようになることを示唆している。
関連論文リスト
- Interpreting LLMs as Credit Risk Classifiers: Do Their Feature Explanations Align with Classical ML? [4.0057196015831495]
大言語モデル(LLM)は、ゼロショットプロンプトによる分類タスクのための古典的な機械学習モデルの柔軟な代替品として、ますます研究されている。
本研究では,ゼロショットLPMに基づく分類器と,現実のローンデフォルト予測タスクにおいて,最先端の勾配ブースティングモデルであるLightGBMとを体系的に比較する。
我々は,それらの予測性能を評価し,SHAPを用いて特徴属性を分析し,LLM生成自己説明の信頼性を評価する。
論文 参考訳(メタデータ) (2025-10-29T17:05:00Z) - On the Performance of LLMs for Real Estate Appraisal [5.812129569528997]
本研究では,Large Language Models (LLMs) が,競争力と解釈可能な住宅価格推定を生成することによって,不動産情報へのアクセスを民主化する方法について検討する。
我々は,多種多様な国際住宅データを用いて,ゼロショット,少数ショット,市場レポート強化,ハイブリッドプロンプト技術の比較を行った。
この結果から, LLMは, 特性サイズやアメニティなどのヘドニック変数を有効利用し, 有意義な推定値が得られることがわかった。
論文 参考訳(メタデータ) (2025-06-13T14:14:40Z) - LLM-Lasso: A Robust Framework for Domain-Informed Feature Selection and Regularization [59.75242204923353]
LLM-Lassoは大規模言語モデル(LLM)を利用してラッソ回帰における特徴選択を導くフレームワークである。
LLMは各特徴に対してペナルティ因子を生成し、単純でチューニング可能なモデルを用いてラスソペナルティの重みに変換される。
LLMによりより関連づけられた特徴は、より低い罰を受け、最終モデルに保持される可能性を高める。
論文 参考訳(メタデータ) (2025-02-15T02:55:22Z) - Cycles of Thought: Measuring LLM Confidence through Stable Explanations [53.15438489398938]
大規模言語モデル(LLM)は、様々なベンチマークで人間レベルの精度に到達し、さらに超えることができるが、不正確な応答における過度な自信は、依然として十分に文書化された障害モードである。
本稿では,LLMの不確実性を測定するためのフレームワークを提案する。
論文 参考訳(メタデータ) (2024-06-05T16:35:30Z) - Benchmarking LLMs via Uncertainty Quantification [91.72588235407379]
オープンソースのLarge Language Models(LLM)の普及は、包括的な評価方法の緊急の必要性を強調している。
我々は不確実性定量化を統合した LLM のための新しいベンチマーク手法を提案する。
以上の結果より, 精度の高いLSMでは, 精度が低下する可能性があり, II) より大規模なLSMでは, より小型のLSMに比べて不確実性が高いこと, III) 命令ファインタニングではLCMの不確実性が高くなる傾向が示唆された。
論文 参考訳(メタデータ) (2024-01-23T14:29:17Z) - Enhancing Financial Sentiment Analysis via Retrieval Augmented Large
Language Models [11.154814189699735]
大規模な言語モデル (LLM) は様々なNLPタスクにおいて優れた性能を示した。
本稿では,金融感情分析のためのLLMフレームワークを提案する。
提案手法の精度は15%から48%向上し,F1得点を得た。
論文 参考訳(メタデータ) (2023-10-06T05:40:23Z) - Fairness of ChatGPT and the Role Of Explainable-Guided Prompts [6.079011829257036]
本研究では,大規模言語モデル(LLM),特に OpenAI の GPT の信用リスク評価における可能性について検討する。
この結果から,LLMは従来の機械学習(ML)モデルの性能を並列化できる可能性が示唆された。
論文 参考訳(メタデータ) (2023-07-14T09:20:16Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。