論文の概要: Reasoning Models Ace the CFA Exams
- arxiv url: http://arxiv.org/abs/2512.08270v1
- Date: Tue, 09 Dec 2025 05:57:19 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-12-10 22:28:07.827935
- Title: Reasoning Models Ace the CFA Exams
- Title(参考訳): CFAエキシビタムの推論モデル
- Authors: Jaisal Patel, Yunzhe Chen, Kaiwen He, Keyi Wang, David Li, Kairong Xiao, Xiao-Yang Liu,
- Abstract要約: 我々は,3段階にわたる980の質問からなる模擬CFA試験のセットに対して,最先端の推論モデルを評価した。
Gemini 3.0 Pro、Gemini 2.5 Pro、GPT-5、Grok 4、Claude Opus 4.1、DeepSeek-V3.1である。
- 参考スコア(独自算出の注目度): 6.899142543217881
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Previous research has reported that large language models (LLMs) demonstrate poor performance on the Chartered Financial Analyst (CFA) exams. However, recent reasoning models have achieved strong results on graduate-level academic and professional examinations across various disciplines. In this paper, we evaluate state-of-the-art reasoning models on a set of mock CFA exams consisting of 980 questions across three Level I exams, two Level II exams, and three Level III exams. Using the same pass/fail criteria from prior studies, we find that most models clear all three levels. The models that pass, ordered by overall performance, are Gemini 3.0 Pro, Gemini 2.5 Pro, GPT-5, Grok 4, Claude Opus 4.1, and DeepSeek-V3.1. Specifically, Gemini 3.0 Pro achieves a record score of 97.6% on Level I. Performance is also strong on Level II, led by GPT-5 at 94.3%. On Level III, Gemini 2.5 Pro attains the highest score with 86.4% on multiple-choice questions while Gemini 3.0 Pro achieves 92.0% on constructed-response questions.
- Abstract(参考訳): 以前の調査では、大きな言語モデル(LLM)がチャータード・ファイナンシャル・アナリティスト(CFA)試験で性能が劣っていることが報告されている。
しかし、近年の推論モデルは、様々な分野にわたる大学院レベルの学術・専門的な試験において大きな成果を上げている。
本稿では,レベルI試験3回,レベルII試験2回,レベルIII試験3回からなる模擬CFA試験のセットに対して,最先端の推論モデルを評価する。
従来の研究と同じパス/フェイル基準を用いて、ほとんどのモデルが3つのレベルをクリアしていることがわかりました。
Gemini 3.0 Pro、Gemini 2.5 Pro、GPT-5、Grok 4、Claude Opus 4.1、DeepSeek-V3.1である。
特に、Gemini 3.0 ProはレベルIで97.6%の記録を達成している。
レベルIIIでは、ジェミニ2.5 Proが86.4%で、ジェミニ3.0 Proは92.0%で構築された質問で最高スコアを獲得した。
関連論文リスト
- PanCanBench: A Comprehensive Benchmark for Evaluating Large Language Models in Pancreatic Oncology [48.732366302949515]
大規模言語モデル(LLM)は、標準化された検査において専門家レベルの性能を達成したが、複数の選択精度は現実の臨床的有用性や安全性を十分に反映していない。
我々は、未確認患者の質問に対して、専門家のルーブリックを作成するための、ループ内人間パイプラインを開発した。
LLM-as-a-judge フレームワークを用いて,22のプロプライエタリおよびオープンソース LLM の評価を行い,臨床完全性,事実精度,Web-search 統合について検討した。
論文 参考訳(メタデータ) (2026-03-02T00:50:39Z) - Large Language Models Achieve Gold Medal Performance at the International Olympiad on Astronomy & Astrophysics (IOAA) [43.53870250026015]
我々は,国際天文学・天体物理学試験(IOAA)において,5つの大きな言語モデル(LLM)をベンチマークした。
平均スコアは85.6%、84.2%で、ジェミニ2.5 ProとGPT-5は4つのIOAA理論試験で200-300人中上位2位にランクインした。
GPT-5は88.5%のスコアで試験に合格しており、最新の4つのIOAAの参加者の中ではトップ10にランクインしている。
論文 参考訳(メタデータ) (2025-10-06T16:58:47Z) - Advanced Financial Reasoning at Scale: A Comprehensive Evaluation of Large Language Models on CFA Level III [0.0]
本稿では,CFA(Chartered Financial Analyst)レベルIII試験において,23の最先端のLarge Language Models (LLMs)を評価するベンチマークを提案する。
我々は,複数選択質問(MCQ)とエッセイスタイル回答の両方を,Chain-of-ThoughtやSelf-Discoverといった複数のプロンプト戦略を用いて評価する。
CFAレベルIIIでは79.1% (o4-mini) と77.3% (Gemini 2.5 Flash) の複合スコアが得られた。
論文 参考訳(メタデータ) (2025-06-29T19:54:57Z) - Performance of leading large language models in May 2025 in Membership of the Royal College of General Practitioners-style examination questions: a cross-sectional analysis [0.0]
o3、Claude Opus 4、Grok3、およびGemini 2.5 Proは、Royal College of General Practitioners GP SelfTestからランダムに選ばれた100の質問に答えるよう命じられた。
o3, Claude Opus 4, Grok3, Gemini 2.5 Proの合計スコアはそれぞれ99.0%, 95.0%, 95.0%, 95.0%であった。
論文 参考訳(メタデータ) (2025-06-03T15:25:38Z) - R-Bench: Graduate-level Multi-disciplinary Benchmarks for LLM & MLLM Complex Reasoning Evaluation [75.33671166231096]
我々は、Reasoning Bench(R-Bench)と呼ばれる、大学院レベルの多学派、英語の中国語ベンチマークを導入する。
RBenchは108の被験者に1,094の質問を、83の被験者に665の質問を、マルチモーダルなモデルテストに当てはめている。
我々は,OpenAI o1,GPT-4o,DeepSeek-R1など,広く使用されているモデルを評価した。
論文 参考訳(メタデータ) (2025-05-04T07:48:36Z) - Omni-MATH: A Universal Olympiad Level Mathematic Benchmark For Large Language Models [63.31878920079154]
Olympiadレベルでの大規模言語モデルの数学的推論を評価するためのベンチマークを提案する。
既存のOlympiad関連のベンチマークとは違って、我々のデータセットは数学に特化しており、厳密な人間のアノテーションを使った4428の競合レベルの問題の膨大なコレクションを含んでいる。
実験の結果,最も先進的なモデルであるOpenAI o1-miniとOpenAI o1-previewでさえ,60.54%と52.55%の精度で,オリンピアードレベルの問題に悩まされ,オリンピアードレベルの数学的推論において重大な課題が浮き彫りにされていることがわかった。
論文 参考訳(メタデータ) (2024-10-10T14:39:33Z) - OlympiadBench: A Challenging Benchmark for Promoting AGI with Olympiad-Level Bilingual Multimodal Scientific Problems [62.06169250463104]
我々はOlympiadレベルのバイリンガル・マルチモーダル・サイエンス・ベンチマークであるOlympiadBenchを紹介し、Olympiadレベルの数学と物理学のコンペティションの8,476の問題を特徴とする。
最も優れたモデルであるGPT-4Vはオリンピアドベンチで平均17.97%を獲得し、物理学ではわずか10.74%である。
GPT-4Vの分析では、幻覚、知識欠失、論理的誤信などの問題が指摘されている。
論文 参考訳(メタデータ) (2024-02-21T18:49:26Z) - Evaluating the Performance of Large Language Models for Spanish Language
in Undergraduate Admissions Exams [4.974500659156055]
本研究では,メキシコの国立ポリテクニック研究所が提案する学部受験試験における大規模言語モデル,特にGPT-3.5とBARDの性能を評価する。
どちらのモデルも習熟度を示し、各学術プログラムの受入スコアを最大75%まで越えた。
論文 参考訳(メタデータ) (2023-12-28T06:23:39Z) - Text Classification via Large Language Models [63.1874290788797]
テキスト分類に関わる複雑な言語現象に対処するために、Clue And Reasoning Prompting (CARP)を導入する。
注目すべきは、CARPが5つの広く使用されているテキスト分類ベンチマークのうち4つで新しいSOTAパフォーマンスを得ることだ。
さらに重要なのは、CARPが低リソースとドメイン適応のセットアップで素晴らしい能力を提供します。
論文 参考訳(メタデータ) (2023-05-15T06:24:45Z) - Evaluating GPT-3.5 and GPT-4 Models on Brazilian University Admission
Exams [4.2706617195518195]
本研究では, 言語モデル (LM) の高精細度検定における能力について検討する。
この試験は、質問が複数の分野の知識にまたがる可能性があるため、LMにとって難しい課題となる。
最高性能のGPT-4は87%の精度を達成し、GPT-3.5を11ポイント上回った。
論文 参考訳(メタデータ) (2023-03-29T20:10:13Z) - GPT Takes the Bar Exam [0.0]
GPT-3.5 と呼ばれる OpenAI のtext-davinci-003 モデルの性能評価実験を行った。
最良のプロンプトとパラメータのために、GPT-3.5はNCBE MBEの試験で50.3%の見出し正解率を達成している。
論文 参考訳(メタデータ) (2022-12-29T18:19:43Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。