論文の概要: FINESSE-Bench: A Hierarchical Benchmark Suite for Financial Domain Knowledge and Technical Analysis in Large Language Models
- arxiv url: http://arxiv.org/abs/2605.15482v1
- Date: Thu, 14 May 2026 23:53:51 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-05-18 21:22:26.129223
- Title: FINESSE-Bench: A Hierarchical Benchmark Suite for Financial Domain Knowledge and Technical Analysis in Large Language Models
- Title(参考訳): FINESSE-Bench:大規模言語モデルにおける金融ドメイン知識と技術分析のための階層型ベンチマークスイート
- Authors: Dmitry Stanishevskii, Nini Kamkia, Alexey Khoroshilov, Dmitry Zmitrovich, Denis Kokosinskii, Zhirayr Hayrapetyan, Andrei Kalmykov,
- Abstract要約: FINESSE-Benchは、大規模言語モデルにおける金融能力の階層的評価のための3,993の質問を含む8つの特別なベンチマークスイートである。
複数質問、数値回答、短いオープンエンド応答を含む統一評価プロトコルについて述べる。
- 参考スコア(独自算出の注目度): 0.33504916505452914
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Large language models (LLMs) are increasingly being applied to financial analysis, reporting, investment decision support, risk management, compliance, and professional training. However, robust evaluation of their domain competence in finance remains incomplete. Widely used open benchmarks such as FinQA, ConvFinQA, and TAT-QA have played an important role in advancing financial question answering and numerical reasoning, but they focus primarily on question answering over financial reports and do not provide an explicit hierarchy of professional difficulty. Broader resources, including FinanceBench, PIXIU, FinBen, and FLaME, expand the coverage of financial tasks, yet the problem of evaluating the transition from foundational knowledge to expert-level financial reasoning remains open. In this work, we present FINESSE-Bench, a suite of eight specialized benchmarks comprising 3,993 questions for hierarchical evaluation of financial competencies in LLMs. FINESSE-Bench combines exam-oriented datasets inspired by professional certifications (CFA-like Levels 1-3, CMT-like Level 2, and CFTe-like Level 1), applied trading task collections, and a Russian-language olympiad benchmark. This design enables evaluation of domain breadth, performance degradation as difficulty increases, the ability to solve computational tasks, and model behavior in specialized financial domains. We also describe a unified evaluation protocol covering multiple-choice questions, numerical answers, and short open-ended responses, together with an automated scoring scheme for freeform answers based on the LLM-as-judge paradigm. FINESSE-Bench is intended both as a complement to existing open financial benchmarks and as a tool for more substantive evaluation of professionally relevant financial competencies in large language models.
- Abstract(参考訳): 大規模言語モデル(LLM)は、金融分析、レポート、投資決定支援、リスク管理、コンプライアンス、プロフェッショナルトレーニングにますます適用されている。
しかし、藩の財政力の堅実な評価はいまだに不完全である。
FinQA、ConvFinQA、TAT-QAといった広く使われているオープンベンチマークは、金融問題への回答と数値推論の進展において重要な役割を担っているが、彼らは主に財務報告に対する質問応答に焦点を当てており、専門的困難の明確な階層を提供していない。
ファイナンスベンチ、PIXIU、フィンベン、FLaMEなどの幅広い資源は、金融業務のカバー範囲を広げているが、基礎知識から専門家レベルの財務推論への移行を評価するという問題は未解決のままである。
本稿では,LLMにおける金融能力の階層的評価のための3,993の質問からなる8つのベンチマークスイートであるFINESSE-Benchを紹介する。
FINESSE-Benchは、プロフェッショナル認定(CFAライクなレベル1-3、CMTライクなレベル2、CFTeライクなレベル1)にインスパイアされた試験指向のデータセット、トレーディングタスクコレクションの適用、ロシア語のオリンピックベンチマークを組み合わせる。
この設計により、ドメイン幅の評価、難易度の増加によるパフォーマンス劣化、計算課題の解き方、専門の金融分野におけるモデル行動等が可能となる。
LLM-as-judgeパラダイムに基づくフリーフォーム回答の自動評価手法とともに、複数選択質問、数値回答、短いオープンエンド応答をカバーする統一評価プロトコルについても述べる。
FINESSE-Benchは、既存のオープンファイナンシャルベンチマークを補完すると同時に、大規模言語モデルにおける専門的な金融能力のより実質的な評価のためのツールとして意図されている。
関連論文リスト
- Herculean: An Agentic Benchmark for Financial Intelligence [118.01180579455446]
代表的な4つのスキルセットにまたがるエージェント金融インテリジェンスのための最初の熟練したベンチマークであるHerculeanを紹介します。
フェデラーエージェント全体では、TradingやMarket Insightsではエージェントが比較的うまく機能するが、HedgingやAuditingではかなり苦労している。
全体としては、財務的推論を信頼性のあるワークフロー実行に変換する上で、現在のエージェントに重要なギャップがあることを示している。
論文 参考訳(メタデータ) (2026-05-14T04:30:49Z) - SAHM: A Benchmark for Arabic Financial and Shari'ah-Compliant Reasoning [59.20983102634086]
アラビア財務NLPとシャリヤ対応推論のための文書グラウンドベンチマークと命令チューニングデータセットであるSAHMを紹介する。
SAHMには、AAOIFI標準QA、fatwaベースのQA/MCQ、会計とビジネス試験、財務感情分析、抽出要約、イベント起因推論の7つのタスクにまたがる14,380のエキスパート認定インスタンスが含まれている。
アラビア語の流布は、証拠を根拠とした金銭的推論に確実に変換されない。
論文 参考訳(メタデータ) (2026-04-21T05:24:08Z) - FinMR: A Knowledge-Intensive Multimodal Benchmark for Advanced Financial Reasoning [10.985136487771364]
FinMRは専門アナリストの基準で専門家レベルの財務推論能力を評価するために設計された知識集約型マルチモーダルデータセットである。
これは15の金融分野において、3,200以上の厳格にキュレートされ、専門的に注釈付けされた質問応答ペアで構成されている。
FinMRは、専門的なアナリストレベルの能力に向け、マルチモーダルな財務推論を評価し、前進させるための重要なベンチマークツールとして、自らを確立している。
論文 参考訳(メタデータ) (2025-10-09T06:49:55Z) - FinLFQA: Evaluating Attributed Text Generation of LLMs in Financial Long-Form Question Answering [57.43420753842626]
FinLFQAは、複雑な財務問題に対する長文の回答を生成するための大規模言語モデルの能力を評価するために設計されたベンチマークである。
回答品質と属性品質の両方をカバーする自動評価フレームワークを提供する。
論文 参考訳(メタデータ) (2025-10-07T20:06:15Z) - FinMaster: A Holistic Benchmark for Mastering Full-Pipeline Financial Workflows with LLMs [15.230256296815565]
FinMasterは、金融リテラシー、会計、監査、コンサルティングにおける大規模言語モデル(LLM)の機能を評価するために設計されたベンチマークである。
FinMasterは、FinSim、FinSuite、FinEvalの3つの主要なモジュールで構成されている。
実験では、財務的な推論において重要な能力のギャップが示され、精度は基本的なタスクで90%以上から、複雑なシナリオではわずか37%に低下した。
論文 参考訳(メタデータ) (2025-05-18T11:47:55Z) - FinanceQA: A Benchmark for Evaluating Financial Analysis Capabilities of Large Language Models [0.0]
FinanceQAは、LLMのパフォーマンスを実世界の投資業務を反映した複雑な数値分析タスクで評価するテストスイートである。
現在のLLMは、金融機関の厳密な精度要件を満たすことができず、モデルは現実的なタスクの約60%を欠いている。
その結果、このようなタスクをサポートするためには高品質なトレーニングデータが必要であることが示され、OpenAIの微調整APIを使って実験した。
論文 参考訳(メタデータ) (2025-01-30T00:06:55Z) - CFinBench: A Comprehensive Chinese Financial Benchmark for Large Language Models [61.324062412648075]
CFinBenchは、中国の文脈下での大規模言語モデル(LLM)の財務知識を評価するための評価ベンチマークである。
この質問は、43の第二級カテゴリーにまたがる99,100の質問で構成されており、3つの質問タイプがある: シングルチョイス、マルチチョイス、そして判断である。
結果は、GPT4といくつかの中国指向モデルがベンチマークをリードし、平均精度は60.16%であることを示している。
論文 参考訳(メタデータ) (2024-07-02T14:34:36Z) - Financial Knowledge Large Language Model [4.599537455808687]
大規模言語モデル(LLM)の財務知識を評価するための評価ベンチマークであるIDEA-FinBenchを紹介する。
金融分野への一般LLMの迅速な適応を容易にするためのフレームワークであるIDEA-FinKERを提案する。
最後に LLM を利用した財務質問応答システム IDEA-FinQA を提案する。
論文 参考訳(メタデータ) (2024-06-29T08:26:49Z) - FinBen: A Holistic Financial Benchmark for Large Language Models [75.09474986283394]
FinBenは、24の財務タスクにまたがる36のデータセットを含む、最初の大規模なオープンソース評価ベンチマークである。
FinBenは、幅広いタスクとデータセット、ストックトレーディングの最初の評価、新しいエージェントと検索可能な生成(RAG)の評価、およびテキスト要約、質問応答、株式トレーディングのための3つの新しいオープンソース評価データセットを提供する。
論文 参考訳(メタデータ) (2024-02-20T02:16:16Z) - BizBench: A Quantitative Reasoning Benchmark for Business and Finance [7.4673182865000225]
BizBenchは、現実的な金融問題を推論するモデルの能力を評価するためのベンチマークである。
新たに収集および拡張されたQAデータから、財務的にテーマ化された3つのコード生成タスクを含む。
これらのタスクは、モデルの財務的背景の知識、財務文書を解析する能力、およびコードの問題を解決する能力を評価する。
論文 参考訳(メタデータ) (2023-11-11T16:16:11Z) - PIXIU: A Large Language Model, Instruction Data and Evaluation Benchmark
for Finance [63.51545277822702]
PIXIUは、命令データ付き微調整LLaMAに基づく最初の金融大規模言語モデル(LLM)を含む包括的なフレームワークである。
我々はLLaMAを細調整してFinMAを提案する。
我々は、FinMAと既存のLLMを詳細に分析し、重要な財政課題に対処する際の長所と短所を明らかにする。
論文 参考訳(メタデータ) (2023-06-08T14:20:29Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。