論文の概要: Evaluating AI for Finance: Is AI Credible at Assessing Investment Risk?
- arxiv url: http://arxiv.org/abs/2505.18953v1
- Date: Sun, 25 May 2025 02:56:19 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-05-27 16:58:42.777005
- Title: Evaluating AI for Finance: Is AI Credible at Assessing Investment Risk?
- Title(参考訳): AIをファイナンスとして評価する - AIは投資リスクを評価することは可能か?
- Authors: Divij Chawla, Ashita Bhutada, Do Duc Anh, Abhinav Raghunathan, Vinod SP, Cathy Guo, Dar Win Liew, Prannaya Gupta, Rishabh Bhardwaj, Rajat Bhardwaj, Soujanya Poria,
- Abstract要約: 我々は、投資リスク食欲の評価において、主要なAIモデルの信頼性を評価する。
分析対象はプロプライエタリモデル(GPT-4, Claude 3.7, Gemini 1.5)とオープンウェイトモデル(LLaMA 3.1/3.3, DeepSeek-V3, Mistral-small)である。
スコア分布と人口統計感度のモデル間で有意な差異が観察された。
- 参考スコア(独自算出の注目度): 16.160277262192764
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: We evaluate the credibility of leading AI models in assessing investment risk appetite. Our analysis spans proprietary (GPT-4, Claude 3.7, Gemini 1.5) and open-weight models (LLaMA 3.1/3.3, DeepSeek-V3, Mistral-small), using 1,720 user profiles constructed with 16 risk-relevant features across 10 countries and both genders. We observe significant variance across models in score distributions and demographic sensitivity. For example, GPT-4o assigns higher risk scores to Nigerian and Indonesian profiles, while LLaMA and DeepSeek show opposite gender tendencies in risk classification. While some models (e.g., GPT-4o, LLaMA 3.1) align closely with expected scores in low- and mid-risk ranges, none maintain consistent performance across regions and demographics. Our findings highlight the need for rigorous, standardized evaluations of AI systems in regulated financial contexts to prevent bias, opacity, and inconsistency in real-world deployment.
- Abstract(参考訳): 我々は、投資リスク食欲の評価において、主要なAIモデルの信頼性を評価する。
我々の分析はプロプライエタリなモデル(GPT-4、Claude 3.7、Gemini 1.5)とオープンウェイトモデル(LLaMA 3.1/3.3、DeepSeek-V3、Mistral-small)にまたがっており、10か国と両方の性別で16のリスク関連機能を備えた1,720のユーザープロファイルを使用している。
スコア分布と人口統計感度のモデル間で有意な差異が観察された。
例えば、GPT-4oはナイジェリアとインドネシアのプロフィールに高いリスクスコアを割り当てているが、LLaMAとDeepSeekはリスク分類において反対の性別傾向を示している。
いくつかのモデル(例えば、GPT-4o、LLaMA 3.1)は低リスクと中リスクの範囲で期待されるスコアと密接に一致しているが、地域や人口統計において一貫性のあるパフォーマンスを維持するものはない。
我々の発見は、現実のデプロイメントにおけるバイアス、不透明性、不整合を防止するために、規制された金融状況におけるAIシステムの厳格で標準化された評価の必要性を強調した。
関連論文リスト
- Anchoring AI Capabilities in Market Valuations: The Capability Realization Rate Model and Valuation Misalignment Risk [2.1142253753427402]
人工知能の最近の進歩は、AI関連企業の市場評価の急上昇を引き起こしている。
本稿では,AIポテンシャルと実現された性能のギャップを定量化する能力実現率モデルを提案する。
透明性を改善し、投機的バブルを緩和し、AIイノベーションを持続可能な市場価値と整合させる政策推奨で締めくくります。
論文 参考訳(メタデータ) (2025-05-15T01:06:06Z) - Mapping AI Benchmark Data to Quantitative Risk Estimates Through Expert Elicitation [0.7889270818022226]
我々は、リスク見積の作成を容易にするために、既存のAIベンチマークをどのように利用できるかを示す。
本稿では、AIベンチマークであるCybenchからの情報を用いて確率推定を生成するパイロット研究の結果について述べる。
論文 参考訳(メタデータ) (2025-03-06T10:39:47Z) - PredictaBoard: Benchmarking LLM Score Predictability [50.47497036981544]
大きな言語モデル(LLM)は予測不能に失敗することが多い。
これは、安全なデプロイメントを保証する上で、大きな課題となる。
PredictaBoardは,新しいベンチマークフレームワークである。
論文 参考訳(メタデータ) (2025-02-20T10:52:38Z) - AILuminate: Introducing v1.0 of the AI Risk and Reliability Benchmark from MLCommons [62.374792825813394]
本稿ではAI製品リスクと信頼性を評価するための業界標準ベンチマークとして,AIluminate v1.0を紹介する。
このベンチマークは、危険、違法、または望ましくない行動を12の危険カテゴリーで引き起こすように設計されたプロンプトに対するAIシステムの抵抗を評価する。
論文 参考訳(メタデータ) (2025-02-19T05:58:52Z) - Fully Autonomous AI Agents Should Not be Developed [58.88624302082713]
本稿では,完全自律型AIエージェントを開発すべきではないと主張している。
この立場を支持するために、我々は、従来の科学文献と現在の製品マーケティングから、異なるAIエージェントレベルを規定するために構築する。
分析の結果,システムの自律性によって人へのリスクが増大することが明らかとなった。
論文 参考訳(メタデータ) (2025-02-04T19:00:06Z) - Mapping Public Perception of Artificial Intelligence: Expectations, Risk-Benefit Tradeoffs, and Value As Determinants for Societal Acceptance [0.20971479389679332]
ドイツからの1100人の参加者の代表的サンプルを用いて,AIの精神モデルについて検討した。
参加者はAIの将来能力に関する71のステートメントを定量的に評価した。
我々は、これらの予測のランキングを、公共のリスクと利益のトレードオフを示す視覚マッピングと共に提示する。
論文 参考訳(メタデータ) (2024-11-28T20:03:01Z) - Engineering Trustworthy AI: A Developer Guide for Empirical Risk Minimization [53.80919781981027]
信頼できるAIのための重要な要件は、経験的リスク最小化のコンポーネントの設計選択に変換できる。
私たちは、AIの信頼性の新たな標準を満たすAIシステムを構築するための実用的なガイダンスを提供したいと思っています。
論文 参考訳(メタデータ) (2024-10-25T07:53:32Z) - Risks and NLP Design: A Case Study on Procedural Document QA [52.557503571760215]
より具体的なアプリケーションやユーザに対して分析を専門化すれば,ユーザに対するリスクや害の明確な評価が可能になる,と我々は主張する。
リスク指向のエラー分析を行い、リスクの低減とパフォーマンスの向上を図り、将来のシステムの設計を通知する。
論文 参考訳(メタデータ) (2024-08-16T17:23:43Z) - CRiskEval: A Chinese Multi-Level Risk Evaluation Benchmark Dataset for Large Language Models [46.93425758722059]
CRiskEvalは、大規模言語モデル(LLM)に固有のリスク確率を正確に計測するために設計された中国のデータセットである。
7種類のフロンティアリスクと4つの安全性レベルを持つ新たなリスク分類を定義する。
データセットは、事前に定義された7種類のフロンティアリスクに関連するシナリオをシミュレートする14,888の質問で構成されている。
論文 参考訳(メタデータ) (2024-06-07T08:52:24Z) - Llamas Know What GPTs Don't Show: Surrogate Models for Confidence
Estimation [70.27452774899189]
大規模言語モデル(LLM)は、ユーザを誤解させるのではなく、不正な例に対して低い信頼を示さなければならない。
2023年11月現在、最先端のLLMはこれらの確率へのアクセスを提供していない。
言語的信頼度と代理モデル確率を構成する最良の方法は、12データセットすべてに対して最先端の信頼度推定を与える。
論文 参考訳(メタデータ) (2023-11-15T11:27:44Z) - From Transcripts to Insights: Uncovering Corporate Risks Using Generative AI [0.0]
我々は、政治的、気候的、AI関連のリスクに曝露する、しっかりとしたレベルのリスク対策を開発し、検証する。
GPT 3.5 モデルを用いてリスクサマリーとアセスメントを生成することにより,GPT ベースの尺度が重要な情報内容を有することを示す。
また、生成的AIは、近年の四半期で急増しているAIリスクのような、新たなリスクを検出するのに効果的であることもわかっています。
論文 参考訳(メタデータ) (2023-10-26T18:30:37Z) - DecodingTrust: A Comprehensive Assessment of Trustworthiness in GPT
Models [92.6951708781736]
本稿では,GPT-4とGPT-3.5に着目した大規模言語モデルの総合的信頼性評価を提案する。
GPTモデルは、有害で偏りのある出力を生成し、個人情報を漏らすために、容易に誤解され得る。
我々の研究は、GPTモデルの総合的な信頼性評価を示し、信頼性のギャップに光を当てている。
論文 参考訳(メタデータ) (2023-06-20T17:24:23Z) - Prompting GPT-3 To Be Reliable [117.23966502293796]
この研究は信頼性を一般化可能性、公平性、校正性、事実性という4つの側面に分解する。
GPT-3はこれらすべての面において,より小型の教師付きモデルよりも優れた性能を示す。
論文 参考訳(メタデータ) (2022-10-17T14:52:39Z) - Quantitative AI Risk Assessments: Opportunities and Challenges [7.35411010153049]
リスクを減らす最善の方法は、包括的なAIライフサイクルガバナンスを実装することです。
リスクは技術コミュニティのメトリクスを使って定量化できます。
本稿では,このようなアプローチの機会,課題,潜在的影響に焦点をあてて,これらの課題について考察する。
論文 参考訳(メタデータ) (2022-09-13T21:47:25Z) - Explanations of Machine Learning predictions: a mandatory step for its
application to Operational Processes [61.20223338508952]
信用リスクモデリングは重要な役割を果たす。
近年,機械学習や深層学習の手法が採用されている。
この分野における説明可能性問題に LIME 手法を適用することを提案する。
論文 参考訳(メタデータ) (2020-12-30T10:27:59Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。