論文の概要: Evaluating AI for Finance: Is AI Credible at Assessing Investment Risk?
- arxiv url: http://arxiv.org/abs/2505.18953v1
- Date: Sun, 25 May 2025 02:56:19 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-05-27 16:58:42.777005
- Title: Evaluating AI for Finance: Is AI Credible at Assessing Investment Risk?
- Title(参考訳): AIをファイナンスとして評価する - AIは投資リスクを評価することは可能か?
- Authors: Divij Chawla, Ashita Bhutada, Do Duc Anh, Abhinav Raghunathan, Vinod SP, Cathy Guo, Dar Win Liew, Prannaya Gupta, Rishabh Bhardwaj, Rajat Bhardwaj, Soujanya Poria,
- Abstract要約: 我々は、投資リスク食欲の評価において、主要なAIモデルの信頼性を評価する。
分析対象はプロプライエタリモデル(GPT-4, Claude 3.7, Gemini 1.5)とオープンウェイトモデル(LLaMA 3.1/3.3, DeepSeek-V3, Mistral-small)である。
スコア分布と人口統計感度のモデル間で有意な差異が観察された。
- 参考スコア(独自算出の注目度): 16.160277262192764
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: We evaluate the credibility of leading AI models in assessing investment risk appetite. Our analysis spans proprietary (GPT-4, Claude 3.7, Gemini 1.5) and open-weight models (LLaMA 3.1/3.3, DeepSeek-V3, Mistral-small), using 1,720 user profiles constructed with 16 risk-relevant features across 10 countries and both genders. We observe significant variance across models in score distributions and demographic sensitivity. For example, GPT-4o assigns higher risk scores to Nigerian and Indonesian profiles, while LLaMA and DeepSeek show opposite gender tendencies in risk classification. While some models (e.g., GPT-4o, LLaMA 3.1) align closely with expected scores in low- and mid-risk ranges, none maintain consistent performance across regions and demographics. Our findings highlight the need for rigorous, standardized evaluations of AI systems in regulated financial contexts to prevent bias, opacity, and inconsistency in real-world deployment.
- Abstract(参考訳): 我々は、投資リスク食欲の評価において、主要なAIモデルの信頼性を評価する。
我々の分析はプロプライエタリなモデル(GPT-4、Claude 3.7、Gemini 1.5)とオープンウェイトモデル(LLaMA 3.1/3.3、DeepSeek-V3、Mistral-small)にまたがっており、10か国と両方の性別で16のリスク関連機能を備えた1,720のユーザープロファイルを使用している。
スコア分布と人口統計感度のモデル間で有意な差異が観察された。
例えば、GPT-4oはナイジェリアとインドネシアのプロフィールに高いリスクスコアを割り当てているが、LLaMAとDeepSeekはリスク分類において反対の性別傾向を示している。
いくつかのモデル(例えば、GPT-4o、LLaMA 3.1)は低リスクと中リスクの範囲で期待されるスコアと密接に一致しているが、地域や人口統計において一貫性のあるパフォーマンスを維持するものはない。
我々の発見は、現実のデプロイメントにおけるバイアス、不透明性、不整合を防止するために、規制された金融状況におけるAIシステムの厳格で標準化された評価の必要性を強調した。
関連論文リスト
- Mapping AI Benchmark Data to Quantitative Risk Estimates Through Expert Elicitation [0.7889270818022226]
我々は、リスク見積の作成を容易にするために、既存のAIベンチマークをどのように利用できるかを示す。
本稿では、AIベンチマークであるCybenchからの情報を用いて確率推定を生成するパイロット研究の結果について述べる。
論文 参考訳(メタデータ) (2025-03-06T10:39:47Z) - AILuminate: Introducing v1.0 of the AI Risk and Reliability Benchmark from MLCommons [62.374792825813394]
本稿ではAI製品リスクと信頼性を評価するための業界標準ベンチマークとして,AIluminate v1.0を紹介する。
このベンチマークは、危険、違法、または望ましくない行動を12の危険カテゴリーで引き起こすように設計されたプロンプトに対するAIシステムの抵抗を評価する。
論文 参考訳(メタデータ) (2025-02-19T05:58:52Z) - CRiskEval: A Chinese Multi-Level Risk Evaluation Benchmark Dataset for Large Language Models [46.93425758722059]
CRiskEvalは、大規模言語モデル(LLM)に固有のリスク確率を正確に計測するために設計された中国のデータセットである。
7種類のフロンティアリスクと4つの安全性レベルを持つ新たなリスク分類を定義する。
データセットは、事前に定義された7種類のフロンティアリスクに関連するシナリオをシミュレートする14,888の質問で構成されている。
論文 参考訳(メタデータ) (2024-06-07T08:52:24Z) - Llamas Know What GPTs Don't Show: Surrogate Models for Confidence
Estimation [70.27452774899189]
大規模言語モデル(LLM)は、ユーザを誤解させるのではなく、不正な例に対して低い信頼を示さなければならない。
2023年11月現在、最先端のLLMはこれらの確率へのアクセスを提供していない。
言語的信頼度と代理モデル確率を構成する最良の方法は、12データセットすべてに対して最先端の信頼度推定を与える。
論文 参考訳(メタデータ) (2023-11-15T11:27:44Z) - From Transcripts to Insights: Uncovering Corporate Risks Using Generative AI [0.0]
我々は、政治的、気候的、AI関連のリスクに曝露する、しっかりとしたレベルのリスク対策を開発し、検証する。
GPT 3.5 モデルを用いてリスクサマリーとアセスメントを生成することにより,GPT ベースの尺度が重要な情報内容を有することを示す。
また、生成的AIは、近年の四半期で急増しているAIリスクのような、新たなリスクを検出するのに効果的であることもわかっています。
論文 参考訳(メタデータ) (2023-10-26T18:30:37Z) - DecodingTrust: A Comprehensive Assessment of Trustworthiness in GPT
Models [92.6951708781736]
本稿では,GPT-4とGPT-3.5に着目した大規模言語モデルの総合的信頼性評価を提案する。
GPTモデルは、有害で偏りのある出力を生成し、個人情報を漏らすために、容易に誤解され得る。
我々の研究は、GPTモデルの総合的な信頼性評価を示し、信頼性のギャップに光を当てている。
論文 参考訳(メタデータ) (2023-06-20T17:24:23Z) - Prompting GPT-3 To Be Reliable [117.23966502293796]
この研究は信頼性を一般化可能性、公平性、校正性、事実性という4つの側面に分解する。
GPT-3はこれらすべての面において,より小型の教師付きモデルよりも優れた性能を示す。
論文 参考訳(メタデータ) (2022-10-17T14:52:39Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。