論文の概要: Advanced Financial Reasoning at Scale: A Comprehensive Evaluation of Large Language Models on CFA Level III
- arxiv url: http://arxiv.org/abs/2507.02954v1
- Date: Sun, 29 Jun 2025 19:54:57 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-07-08 15:46:34.467153
- Title: Advanced Financial Reasoning at Scale: A Comprehensive Evaluation of Large Language Models on CFA Level III
- Title(参考訳): 大規模金融推論の高度化:CFAレベルにおける大規模言語モデルの包括的評価III
- Authors: Pranam Shetty, Abhisek Upadhayaya, Parth Mitesh Shah, Srikanth Jagabathula, Shilpi Nayak, Anna Joo Fee,
- Abstract要約: 本稿では,CFA(Chartered Financial Analyst)レベルIII試験において,23の最先端のLarge Language Models (LLMs)を評価するベンチマークを提案する。
我々は,複数選択質問(MCQ)とエッセイスタイル回答の両方を,Chain-of-ThoughtやSelf-Discoverといった複数のプロンプト戦略を用いて評価する。
CFAレベルIIIでは79.1% (o4-mini) と77.3% (Gemini 2.5 Flash) の複合スコアが得られた。
- 参考スコア(独自算出の注目度): 0.0
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: As financial institutions increasingly adopt Large Language Models (LLMs), rigorous domain-specific evaluation becomes critical for responsible deployment. This paper presents a comprehensive benchmark evaluating 23 state-of-the-art LLMs on the Chartered Financial Analyst (CFA) Level III exam - the gold standard for advanced financial reasoning. We assess both multiple-choice questions (MCQs) and essay-style responses using multiple prompting strategies including Chain-of-Thought and Self-Discover. Our evaluation reveals that leading models demonstrate strong capabilities, with composite scores such as 79.1% (o4-mini) and 77.3% (Gemini 2.5 Flash) on CFA Level III. These results, achieved under a revised, stricter essay grading methodology, indicate significant progress in LLM capabilities for high-stakes financial applications. Our findings provide crucial guidance for practitioners on model selection and highlight remaining challenges in cost-effective deployment and the need for nuanced interpretation of performance against professional benchmarks.
- Abstract(参考訳): 金融機関がLarge Language Models (LLMs) を採用するにつれて、厳密なドメイン固有評価が責任あるデプロイメントにとって重要になる。
本稿では、先進的な財務分析のための金の基準であるCFAレベルIII試験において、23の最先端LCMを評価した総合的なベンチマークを示す。
我々は,複数選択質問(MCQ)とエッセイスタイル回答の両方を,Chain-of-ThoughtやSelf-Discoverといった複数のプロンプト戦略を用いて評価する。
CFAレベルIIIでは79.1% (o4-mini) と77.3% (Gemini 2.5 Flash) の複合スコアが得られた。
これらの結果は、より厳格なエッセイグレーディング手法で達成され、高額な金融アプリケーションのためのLLM能力の大幅な進歩を示している。
本研究は, モデル選択の実践者にとって重要な指針であり, 費用対効果の確保と, プロのベンチマークに対するパフォーマンスの微妙な解釈の必要性に焦点をあてるものである。
関連論文リスト
- LLMEval-3: A Large-Scale Longitudinal Study on Robust and Fair Evaluation of Large Language Models [51.55869466207234]
静的ベンチマークにおけるLLM(Large Language Models)の既存の評価は、データの汚染やリーダーボードのオーバーフィッティングに弱い。
LLMの動的評価のためのフレームワークであるLLMEval-3を紹介する。
LLEval-3は、220kの卒業生レベルの質問からなるプロプライエタリなバンク上に構築されており、評価実行毎に未確認のテストセットを動的にサンプリングする。
論文 参考訳(メタデータ) (2025-08-07T14:46:30Z) - Agentar-Fin-R1: Enhancing Financial Intelligence through Domain Expertise, Training Efficiency, and Advanced Reasoning [12.548390779247987]
本稿では,Agensar-Fin-R1シリーズを紹介する。
我々の最適化手法は、高品質で体系的な金融タスクラベルシステムを統合する。
われわれのモデルは、主要な金融指標を総合的に評価している。
論文 参考訳(メタデータ) (2025-07-22T17:52:16Z) - Large Language Models Acing Chartered Accountancy [0.4711628883579317]
本稿では, LLMの財務的, 法律的, 量的推論能力の評価に特化して設計されたCA-Benについて紹介する。
GPT 4o, LLAMA 3.3 70B, LLAMA 3.1 405B, MISTRAL Large, Claude 3.5 Sonnet, Microsoft Phi 4 の6つの著名なLCMを標準化プロトコルを用いて評価した。
結果から,Claude 3.5 Sonnet と GPT-4o は,特に概念的および法的推論において,他よりも優れた性能を示した。
論文 参考訳(メタデータ) (2025-06-26T06:10:37Z) - FinMaster: A Holistic Benchmark for Mastering Full-Pipeline Financial Workflows with LLMs [15.230256296815565]
FinMasterは、金融リテラシー、会計、監査、コンサルティングにおける大規模言語モデル(LLM)の機能を評価するために設計されたベンチマークである。
FinMasterは、FinSim、FinSuite、FinEvalの3つの主要なモジュールで構成されている。
実験では、財務的な推論において重要な能力のギャップが示され、精度は基本的なタスクで90%以上から、複雑なシナリオではわずか37%に低下した。
論文 参考訳(メタデータ) (2025-05-18T11:47:55Z) - FinTSB: A Comprehensive and Practical Benchmark for Financial Time Series Forecasting [58.70072722290475]
ファイナンシャル・タイム・シリーズ(FinTS)は、人間の脳を増強した意思決定の行動を記録する。
FinTSBは金融時系列予測のための総合的で実用的なベンチマークである。
論文 参考訳(メタデータ) (2025-02-26T05:19:16Z) - Fino1: On the Transferability of Reasoning-Enhanced LLMs and Reinforcement Learning to Finance [35.617409883103335]
FinReasonは、マルチテーブル分析、長期コンテキスト推論、方程式ベースのタスクをカバーする最初の財務推論ベンチマークである。
7つのQAデータセットから抽出した、ファイナンスのための最初のオープンな高忠実度CoTコーパスであるFinCoTを紹介する。
我々は、教師付き微調整とGRPOベースのRLを用いて訓練された最初のオープンファイナンシャル推論モデルであるFin-o1を開発した。
論文 参考訳(メタデータ) (2025-02-12T05:13:04Z) - MME-Survey: A Comprehensive Survey on Evaluation of Multimodal LLMs [97.94579295913606]
MLLM(Multimodal Large Language Models)は、産業と学術の両方から注目を集めている。
開発プロセスでは、モデルの改善に関する直感的なフィードバックとガイダンスを提供するため、評価が重要である。
この研究は、研究者に異なるニーズに応じてMLLMを効果的に評価する方法を簡単に把握し、より良い評価方法を促すことを目的としている。
論文 参考訳(メタデータ) (2024-11-22T18:59:54Z) - CFinBench: A Comprehensive Chinese Financial Benchmark for Large Language Models [61.324062412648075]
CFinBenchは、中国の文脈下での大規模言語モデル(LLM)の財務知識を評価するための評価ベンチマークである。
この質問は、43の第二級カテゴリーにまたがる99,100の質問で構成されており、3つの質問タイプがある: シングルチョイス、マルチチョイス、そして判断である。
結果は、GPT4といくつかの中国指向モデルがベンチマークをリードし、平均精度は60.16%であることを示している。
論文 参考訳(メタデータ) (2024-07-02T14:34:36Z) - FinBen: A Holistic Financial Benchmark for Large Language Models [75.09474986283394]
FinBenは、24の財務タスクにまたがる36のデータセットを含む、最初の大規模なオープンソース評価ベンチマークである。
FinBenは、幅広いタスクとデータセット、ストックトレーディングの最初の評価、新しいエージェントと検索可能な生成(RAG)の評価、およびテキスト要約、質問応答、株式トレーディングのための3つの新しいオープンソース評価データセットを提供する。
論文 参考訳(メタデータ) (2024-02-20T02:16:16Z) - Can GPT models be Financial Analysts? An Evaluation of ChatGPT and GPT-4
on mock CFA Exams [26.318005637849915]
本研究では,Large Language Models (LLM) の金銭的推論能力を評価することを目的とした。
チャータード・ファイナンシャル・アナリスト(CFA)プログラムの模擬試験問題を利用して、ChatGPTとGPT-4の総合的な評価を行う。
本稿では,モデルの性能と限界を詳細に分析し,CFA試験に合格する確率を推定する。
論文 参考訳(メタデータ) (2023-10-12T19:28:57Z) - Empowering Many, Biasing a Few: Generalist Credit Scoring through Large
Language Models [53.620827459684094]
大規模言語モデル(LLM)は、複数のタスクにまたがる強力な一般化能力を持つ信用スコアリングタスクにおいて大きな可能性を秘めている。
クレジットスコアリングのための LLM を探索する,初のオープンソース包括的フレームワークを提案する。
そこで我々は,各種金融リスク評価タスクの煩雑な要求に合わせて,指導チューニングによる最初の信用・リスク評価大言語モデル(CALM)を提案する。
論文 参考訳(メタデータ) (2023-10-01T03:50:34Z) - FinEval: A Chinese Financial Domain Knowledge Evaluation Benchmark for Large Language Models [31.961563103990432]
本稿では,LLMの金融分野の知識と実践能力を評価するためのベンチマークであるFinEvalについて述べる。
データセットには、金融学術知識、金融産業知識、金融セキュリティ知識、金融エージェントの4つの重要な領域に分類される8,351の質問が含まれている。
以上の結果から、Claude 3.5-Sonnetは、ゼロショット設定下において、すべての金融ドメインカテゴリで72.9の最大重み付き平均スコアを達成している。
論文 参考訳(メタデータ) (2023-08-19T10:38:00Z) - PIXIU: A Large Language Model, Instruction Data and Evaluation Benchmark
for Finance [63.51545277822702]
PIXIUは、命令データ付き微調整LLaMAに基づく最初の金融大規模言語モデル(LLM)を含む包括的なフレームワークである。
我々はLLaMAを細調整してFinMAを提案する。
我々は、FinMAと既存のLLMを詳細に分析し、重要な財政課題に対処する際の長所と短所を明らかにする。
論文 参考訳(メタデータ) (2023-06-08T14:20:29Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。