Fugu-MT 論文翻訳(概要): Evaluating AI for Finance: Is AI Credible at Assessing Investment Risk?

論文の概要: Evaluating AI for Finance: Is AI Credible at Assessing Investment Risk?

arxiv url: http://arxiv.org/abs/2505.18953v2
Date: Sat, 05 Jul 2025 12:39:19 GMT
ステータス: 翻訳完了
システム内更新日: 2025-07-08 15:46:34.364693
Title: Evaluating AI for Finance: Is AI Credible at Assessing Investment Risk?
Title（参考訳）: AIをファイナンスとして評価する - AIは投資リスクを評価することは可能か?
Authors: Divij Chawla, Ashita Bhutada, Do Duc Anh, Abhinav Raghunathan, Vinod SP, Cathy Guo, Dar Win Liew, Prannaya Gupta, Rishabh Bhardwaj, Rajat Bhardwaj, Soujanya Poria,
Abstract要約: 我々は、AIシステムが投資リスクの食欲を確実に評価できるかどうかを評価する。我々の分析は,プロプライエタリシステム (GPT, Claude, Gemini) とオープンウェイトモデル (LLaMA, DeepSeek, Mistral) を用いて行った。
参考スコア（独自算出の注目度）: 16.160277262192764
License: http://creativecommons.org/licenses/by/4.0/
Abstract: We assess whether AI systems can credibly evaluate investment risk appetite-a task that must be thoroughly validated before automation. Our analysis was conducted on proprietary systems (GPT, Claude, Gemini) and open-weight models (LLaMA, DeepSeek, Mistral), using carefully curated user profiles that reflect real users with varying attributes such as country and gender. As a result, the models exhibit significant variance in score distributions when user attributes-such as country or gender-that should not influence risk computation are changed. For example, GPT-4o assigns higher risk scores to Nigerian and Indonesian profiles. While some models align closely with expected scores in the Low- and Mid-risk ranges, none maintain consistent scores across regions and demographics, thereby violating AI and finance regulations.
Abstract（参考訳）: 我々は、AIシステムが投資リスクを確実に評価できるかどうかを評価する。分析は,国や性別などさまざまな属性を持つ実際のユーザを反映した,厳格なユーザプロファイルを用いて,プロプライエタリシステム(GPT,Claude,Gemini)とオープンウェイトモデル(LLaMA,DeepSeek,Mistral)を用いて行った。その結果, リスク計算に影響を及ぼさない国や性別などの属性が変更された場合, スコア分布に有意な差異が認められた。例えば、GPT-4oはナイジェリアとインドネシアのプロフィールに高いリスクスコアを割り当てている。一部のモデルは、低リスクと中リスクの範囲で期待されるスコアと密接に一致しているが、地域や人口層間で一貫したスコアを維持していないため、AIや金融規制に違反している。

関連論文リスト

Anchoring AI Capabilities in Market Valuations: The Capability Realization Rate Model and Valuation Misalignment Risk [2.1142253753427402]
人工知能の最近の進歩は、AI関連企業の市場評価の急上昇を引き起こしている。本稿では,AIポテンシャルと実現された性能のギャップを定量化する能力実現率モデルを提案する。透明性を改善し、投機的バブルを緩和し、AIイノベーションを持続可能な市場価値と整合させる政策推奨で締めくくります。
論文参考訳（メタデータ） (2025-05-15T01:06:06Z)
Mapping AI Benchmark Data to Quantitative Risk Estimates Through Expert Elicitation [0.7889270818022226]
我々は、リスク見積の作成を容易にするために、既存のAIベンチマークをどのように利用できるかを示す。本稿では、AIベンチマークであるCybenchからの情報を用いて確率推定を生成するパイロット研究の結果について述べる。
論文参考訳（メタデータ） (2025-03-06T10:39:47Z)
PredictaBoard: Benchmarking LLM Score Predictability [50.47497036981544]
大きな言語モデル(LLM)は予測不能に失敗することが多い。これは、安全なデプロイメントを保証する上で、大きな課題となる。 PredictaBoardは,新しいベンチマークフレームワークである。
論文参考訳（メタデータ） (2025-02-20T10:52:38Z)
AILuminate: Introducing v1.0 of the AI Risk and Reliability Benchmark from MLCommons [62.374792825813394]
本稿ではAI製品リスクと信頼性を評価するための業界標準ベンチマークとして,AIluminate v1.0を紹介する。このベンチマークは、危険、違法、または望ましくない行動を12の危険カテゴリーで引き起こすように設計されたプロンプトに対するAIシステムの抵抗を評価する。
論文参考訳（メタデータ） (2025-02-19T05:58:52Z)
Fully Autonomous AI Agents Should Not be Developed [58.88624302082713]
本稿では,完全自律型AIエージェントを開発すべきではないと主張している。この立場を支持するために、我々は、従来の科学文献と現在の製品マーケティングから、異なるAIエージェントレベルを規定するために構築する。分析の結果,システムの自律性によって人へのリスクが増大することが明らかとなった。
論文参考訳（メタデータ） (2025-02-04T19:00:06Z)
Mapping Public Perception of Artificial Intelligence: Expectations, Risk-Benefit Tradeoffs, and Value As Determinants for Societal Acceptance [0.20971479389679332]
ドイツからの1100人の参加者の代表的サンプルを用いて,AIの精神モデルについて検討した。参加者はAIの将来能力に関する71のステートメントを定量的に評価した。我々は、これらの予測のランキングを、公共のリスクと利益のトレードオフを示す視覚マッピングと共に提示する。
論文参考訳（メタデータ） (2024-11-28T20:03:01Z)
Engineering Trustworthy AI: A Developer Guide for Empirical Risk Minimization [53.80919781981027]
信頼できるAIのための重要な要件は、経験的リスク最小化のコンポーネントの設計選択に変換できる。私たちは、AIの信頼性の新たな標準を満たすAIシステムを構築するための実用的なガイダンスを提供したいと思っています。
論文参考訳（メタデータ） (2024-10-25T07:53:32Z)
Risks and NLP Design: A Case Study on Procedural Document QA [52.557503571760215]
より具体的なアプリケーションやユーザに対して分析を専門化すれば,ユーザに対するリスクや害の明確な評価が可能になる,と我々は主張する。リスク指向のエラー分析を行い、リスクの低減とパフォーマンスの向上を図り、将来のシステムの設計を通知する。
論文参考訳（メタデータ） (2024-08-16T17:23:43Z)
CRiskEval: A Chinese Multi-Level Risk Evaluation Benchmark Dataset for Large Language Models [46.93425758722059]
CRiskEvalは、大規模言語モデル(LLM)に固有のリスク確率を正確に計測するために設計された中国のデータセットである。 7種類のフロンティアリスクと4つの安全性レベルを持つ新たなリスク分類を定義する。データセットは、事前に定義された7種類のフロンティアリスクに関連するシナリオをシミュレートする14,888の質問で構成されている。
論文参考訳（メタデータ） (2024-06-07T08:52:24Z)
Llamas Know What GPTs Don't Show: Surrogate Models for Confidence Estimation [70.27452774899189]
大規模言語モデル(LLM)は、ユーザを誤解させるのではなく、不正な例に対して低い信頼を示さなければならない。 2023年11月現在、最先端のLLMはこれらの確率へのアクセスを提供していない。言語的信頼度と代理モデル確率を構成する最良の方法は、12データセットすべてに対して最先端の信頼度推定を与える。
論文参考訳（メタデータ） (2023-11-15T11:27:44Z)
From Transcripts to Insights: Uncovering Corporate Risks Using Generative AI [0.0]
我々は、政治的、気候的、AI関連のリスクに曝露する、しっかりとしたレベルのリスク対策を開発し、検証する。 GPT 3.5 モデルを用いてリスクサマリーとアセスメントを生成することにより,GPT ベースの尺度が重要な情報内容を有することを示す。また、生成的AIは、近年の四半期で急増しているAIリスクのような、新たなリスクを検出するのに効果的であることもわかっています。
論文参考訳（メタデータ） (2023-10-26T18:30:37Z)
DecodingTrust: A Comprehensive Assessment of Trustworthiness in GPT Models [92.6951708781736]
本稿では,GPT-4とGPT-3.5に着目した大規模言語モデルの総合的信頼性評価を提案する。 GPTモデルは、有害で偏りのある出力を生成し、個人情報を漏らすために、容易に誤解され得る。我々の研究は、GPTモデルの総合的な信頼性評価を示し、信頼性のギャップに光を当てている。
論文参考訳（メタデータ） (2023-06-20T17:24:23Z)
Prompting GPT-3 To Be Reliable [117.23966502293796]
この研究は信頼性を一般化可能性、公平性、校正性、事実性という4つの側面に分解する。 GPT-3はこれらすべての面において,より小型の教師付きモデルよりも優れた性能を示す。
論文参考訳（メタデータ） (2022-10-17T14:52:39Z)
Quantitative AI Risk Assessments: Opportunities and Challenges [7.35411010153049]
リスクを減らす最善の方法は、包括的なAIライフサイクルガバナンスを実装することです。リスクは技術コミュニティのメトリクスを使って定量化できます。本稿では,このようなアプローチの機会,課題,潜在的影響に焦点をあてて,これらの課題について考察する。
論文参考訳（メタデータ） (2022-09-13T21:47:25Z)
Explanations of Machine Learning predictions: a mandatory step for its application to Operational Processes [61.20223338508952]
信用リスクモデリングは重要な役割を果たす。近年,機械学習や深層学習の手法が採用されている。この分野における説明可能性問題に LIME 手法を適用することを提案する。
論文参考訳（メタデータ） (2020-12-30T10:27:59Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。