論文の概要: Evaluating AI for Finance: Is AI Credible at Assessing Investment Risk?
- arxiv url: http://arxiv.org/abs/2505.18953v2
- Date: Sat, 05 Jul 2025 12:39:19 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-07-08 15:46:34.364693
- Title: Evaluating AI for Finance: Is AI Credible at Assessing Investment Risk?
- Title(参考訳): AIをファイナンスとして評価する - AIは投資リスクを評価することは可能か?
- Authors: Divij Chawla, Ashita Bhutada, Do Duc Anh, Abhinav Raghunathan, Vinod SP, Cathy Guo, Dar Win Liew, Prannaya Gupta, Rishabh Bhardwaj, Rajat Bhardwaj, Soujanya Poria,
- Abstract要約: 我々は、AIシステムが投資リスクの食欲を確実に評価できるかどうかを評価する。
我々の分析は,プロプライエタリシステム (GPT, Claude, Gemini) とオープンウェイトモデル (LLaMA, DeepSeek, Mistral) を用いて行った。
- 参考スコア(独自算出の注目度): 16.160277262192764
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: We assess whether AI systems can credibly evaluate investment risk appetite-a task that must be thoroughly validated before automation. Our analysis was conducted on proprietary systems (GPT, Claude, Gemini) and open-weight models (LLaMA, DeepSeek, Mistral), using carefully curated user profiles that reflect real users with varying attributes such as country and gender. As a result, the models exhibit significant variance in score distributions when user attributes-such as country or gender-that should not influence risk computation are changed. For example, GPT-4o assigns higher risk scores to Nigerian and Indonesian profiles. While some models align closely with expected scores in the Low- and Mid-risk ranges, none maintain consistent scores across regions and demographics, thereby violating AI and finance regulations.
- Abstract(参考訳): 我々は、AIシステムが投資リスクを確実に評価できるかどうかを評価する。
分析は,国や性別などさまざまな属性を持つ実際のユーザを反映した,厳格なユーザプロファイルを用いて,プロプライエタリシステム(GPT,Claude,Gemini)とオープンウェイトモデル(LLaMA,DeepSeek,Mistral)を用いて行った。
その結果, リスク計算に影響を及ぼさない国や性別などの属性が変更された場合, スコア分布に有意な差異が認められた。
例えば、GPT-4oはナイジェリアとインドネシアのプロフィールに高いリスクスコアを割り当てている。
一部のモデルは、低リスクと中リスクの範囲で期待されるスコアと密接に一致しているが、地域や人口層間で一貫したスコアを維持していないため、AIや金融規制に違反している。
関連論文リスト
- Mapping AI Benchmark Data to Quantitative Risk Estimates Through Expert Elicitation [0.7889270818022226]
我々は、リスク見積の作成を容易にするために、既存のAIベンチマークをどのように利用できるかを示す。
本稿では、AIベンチマークであるCybenchからの情報を用いて確率推定を生成するパイロット研究の結果について述べる。
論文 参考訳(メタデータ) (2025-03-06T10:39:47Z) - AILuminate: Introducing v1.0 of the AI Risk and Reliability Benchmark from MLCommons [62.374792825813394]
本稿ではAI製品リスクと信頼性を評価するための業界標準ベンチマークとして,AIluminate v1.0を紹介する。
このベンチマークは、危険、違法、または望ましくない行動を12の危険カテゴリーで引き起こすように設計されたプロンプトに対するAIシステムの抵抗を評価する。
論文 参考訳(メタデータ) (2025-02-19T05:58:52Z) - CRiskEval: A Chinese Multi-Level Risk Evaluation Benchmark Dataset for Large Language Models [46.93425758722059]
CRiskEvalは、大規模言語モデル(LLM)に固有のリスク確率を正確に計測するために設計された中国のデータセットである。
7種類のフロンティアリスクと4つの安全性レベルを持つ新たなリスク分類を定義する。
データセットは、事前に定義された7種類のフロンティアリスクに関連するシナリオをシミュレートする14,888の質問で構成されている。
論文 参考訳(メタデータ) (2024-06-07T08:52:24Z) - Llamas Know What GPTs Don't Show: Surrogate Models for Confidence
Estimation [70.27452774899189]
大規模言語モデル(LLM)は、ユーザを誤解させるのではなく、不正な例に対して低い信頼を示さなければならない。
2023年11月現在、最先端のLLMはこれらの確率へのアクセスを提供していない。
言語的信頼度と代理モデル確率を構成する最良の方法は、12データセットすべてに対して最先端の信頼度推定を与える。
論文 参考訳(メタデータ) (2023-11-15T11:27:44Z) - From Transcripts to Insights: Uncovering Corporate Risks Using Generative AI [0.0]
我々は、政治的、気候的、AI関連のリスクに曝露する、しっかりとしたレベルのリスク対策を開発し、検証する。
GPT 3.5 モデルを用いてリスクサマリーとアセスメントを生成することにより,GPT ベースの尺度が重要な情報内容を有することを示す。
また、生成的AIは、近年の四半期で急増しているAIリスクのような、新たなリスクを検出するのに効果的であることもわかっています。
論文 参考訳(メタデータ) (2023-10-26T18:30:37Z) - DecodingTrust: A Comprehensive Assessment of Trustworthiness in GPT
Models [92.6951708781736]
本稿では,GPT-4とGPT-3.5に着目した大規模言語モデルの総合的信頼性評価を提案する。
GPTモデルは、有害で偏りのある出力を生成し、個人情報を漏らすために、容易に誤解され得る。
我々の研究は、GPTモデルの総合的な信頼性評価を示し、信頼性のギャップに光を当てている。
論文 参考訳(メタデータ) (2023-06-20T17:24:23Z) - Prompting GPT-3 To Be Reliable [117.23966502293796]
この研究は信頼性を一般化可能性、公平性、校正性、事実性という4つの側面に分解する。
GPT-3はこれらすべての面において,より小型の教師付きモデルよりも優れた性能を示す。
論文 参考訳(メタデータ) (2022-10-17T14:52:39Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。