論文の概要: XFinBench: Benchmarking LLMs in Complex Financial Problem Solving and Reasoning
- arxiv url: http://arxiv.org/abs/2508.15861v1
- Date: Wed, 20 Aug 2025 15:23:35 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-08-25 16:42:36.130179
- Title: XFinBench: Benchmarking LLMs in Complex Financial Problem Solving and Reasoning
- Title(参考訳): XFinBench: 複雑な金融問題の解決と推論におけるLLMのベンチマーク
- Authors: Zhihan Zhang, Yixin Cao, Lizi Liao,
- Abstract要約: 金融問題の解決における大規模言語モデルの能力を評価するための新しいベンチマークであるXFinBenchを紹介する。
O1は67.3%の精度で最高性能のテキストのみのモデルであるが、それでも12.5%の人間専門家にはかなり遅れている。
我々は,知識増強分析のための3,032の財務用語を持つ知識銀行を構築し,関連する知識が小さなオープンソースモデルに一貫した精度の向上をもたらすことを発見した。
- 参考スコア(独自算出の注目度): 28.967959142733903
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Solving financial problems demands complex reasoning, multimodal data processing, and a broad technical understanding, presenting unique challenges for current large language models (LLMs). We introduce XFinBench, a novel benchmark with 4,235 examples designed to evaluate LLM's ability in solving complex, knowledge-intensive financial problems across diverse graduate-level finance topics with multi-modal context. We identify five core capabilities of LLMs using XFinBench, i.e, terminology understanding, temporal reasoning, future forecasting, scenario planning, and numerical modelling. Upon XFinBench, we conduct extensive experiments on 18 leading models. The result shows that o1 is the best-performing text-only model with an overall accuracy of 67.3%, but still lags significantly behind human experts with 12.5%, especially in temporal reasoning and scenario planning capabilities. We further construct a knowledge bank with 3,032 finance terms for knowledge augmentation analysis, and find that relevant knowledge to the question only brings consistent accuracy improvements to small open-source model. Additionally, our error analysis reveals that rounding errors during calculation and blindness to position and intersection of curves in the image are two primary issues leading to model's poor performance in calculating and visual-context questions, respectively. Code and dataset are accessible via GitHub: https://github.com/Zhihan72/XFinBench.
- Abstract(参考訳): 財政問題の解決には、複雑な推論、マルチモーダルデータ処理、そして現在の大規模言語モデル(LLM)に固有の課題を提示する幅広い技術的理解が必要である。
XFinBench は LLM の複雑な知識集約型金融問題の解決能力を評価するために考案された,4,235 個の新しいベンチマークである。
我々は,XFinBenchを用いたLLMの5つのコア機能,すなわち用語理解,時間的推論,将来の予測,シナリオ計画,数値モデリングを同定する。
XFinBench は 18 個の先行モデルに対して広範な実験を行う。
その結果、o1は67.3%という総合的な精度のテキストのみのモデルとして最高のパフォーマンスを示したが、それでも12.5%の人間専門家、特に時間的推論とシナリオ計画能力にはかなり遅れている。
さらに,知識強化分析のための3,032の財務用語を持つ知識銀行を構築し,その問題に関連する知識が,小さなオープンソースモデルに一貫した精度の向上をもたらすことを発見した。
さらに,画像中の曲線の位置と交差点に対する計算中の丸め誤差と盲点との差が,モデルの性能の低下につながる主な問題であることを明らかにした。
コードとデータセットはGitHubからアクセスできる。
関連論文リスト
- BizFinBench: A Business-Driven Real-World Financial Benchmark for Evaluating LLMs [7.9458352414205295]
大規模な言語モデルは一般的なタスクでは優れていますが、ロジック重大で精度の高い、財務、法律、医療といった重要な領域での信頼性の評価は依然として難しいままです。
BizFinBenchは、実世界の金融アプリケーションにおけるLSMの評価に特化して設計された最初のベンチマークである。
BizFinBenchは中国語で6,781の注釈付きクエリで構成されており、数値計算、推論、情報抽出、予測認識、知識に基づく質問応答の5つの次元にまたがっている。
論文 参考訳(メタデータ) (2025-05-26T03:23:02Z) - FinMaster: A Holistic Benchmark for Mastering Full-Pipeline Financial Workflows with LLMs [15.230256296815565]
FinMasterは、金融リテラシー、会計、監査、コンサルティングにおける大規模言語モデル(LLM)の機能を評価するために設計されたベンチマークである。
FinMasterは、FinSim、FinSuite、FinEvalの3つの主要なモジュールで構成されている。
実験では、財務的な推論において重要な能力のギャップが示され、精度は基本的なタスクで90%以上から、複雑なシナリオではわずか37%に低下した。
論文 参考訳(メタデータ) (2025-05-18T11:47:55Z) - Understanding Financial Reasoning in AI: A Multimodal Benchmark and Error Learning Approach [6.911426601915051]
本稿では、金融特化文脈におけるAIモデル、特に大規模言語とマルチモーダルモデルがどの程度の理由を持つかを評価するために設計された新しいベンチマークを紹介する。
本稿では,過去のモデル誤りやフィードバックを利用して,微調整を必要とせず,推論をガイドする誤り認識学習フレームワークを提案する。
この結果は、視覚的理解と数学的論理学における永続的な課題を強調し、金融AIシステムにおける自己反射的推論の可能性を実証している。
論文 参考訳(メタデータ) (2025-04-22T07:25:03Z) - Fino1: On the Transferability of Reasoning-Enhanced LLMs and Reinforcement Learning to Finance [35.617409883103335]
FinReasonは、マルチテーブル分析、長期コンテキスト推論、方程式ベースのタスクをカバーする最初の財務推論ベンチマークである。
7つのQAデータセットから抽出した、ファイナンスのための最初のオープンな高忠実度CoTコーパスであるFinCoTを紹介する。
我々は、教師付き微調整とGRPOベースのRLを用いて訓練された最初のオープンファイナンシャル推論モデルであるFin-o1を開発した。
論文 参考訳(メタデータ) (2025-02-12T05:13:04Z) - CatMemo at the FinLLM Challenge Task: Fine-Tuning Large Language Models using Data Fusion in Financial Applications [10.225210627594894]
IJCAI-2024 FinLLMの課題に対して,金融業務の3つの重要な領域におけるLLMの能力について検討した。
金融分類、財務文書要約、単一株式取引について検討する。
提案手法は,これらの多様なタスクを包括的かつ総合的に処理することを目的としており,LLMの多様かつ複雑な財務課題への対処能力の向上と意思決定能力の向上を図っている。
論文 参考訳(メタデータ) (2024-07-02T05:04:13Z) - CharXiv: Charting Gaps in Realistic Chart Understanding in Multimodal LLMs [62.84082370758761]
CharXivは、arXiv論文の2,323のチャートを含む総合的な評価スイートである。
品質を確保するために、すべてのチャートと質問は、人間の専門家によって手書きされ、キュレーションされ、検証されます。
その結果、最強のプロプライエタリモデルの推論スキルの間に、かなり過小評価されていたギャップが明らかとなった。
論文 参考訳(メタデータ) (2024-06-26T17:50:11Z) - AlphaFin: Benchmarking Financial Analysis with Retrieval-Augmented Stock-Chain Framework [48.3060010653088]
我々はAlphaFinデータセットをリリースし、従来の研究データセット、リアルタイム財務データ、手書きのチェーン・オブ・プリート(CoT)データを組み合わせています。
次に、AlphaFinデータセットを使用して、金融分析タスクを効果的に処理するために、Stock-Chainと呼ばれる最先端の手法をベンチマークします。
論文 参考訳(メタデータ) (2024-03-19T09:45:33Z) - FinBen: A Holistic Financial Benchmark for Large Language Models [75.09474986283394]
FinBenは、24の財務タスクにまたがる36のデータセットを含む、最初の大規模なオープンソース評価ベンチマークである。
FinBenは、幅広いタスクとデータセット、ストックトレーディングの最初の評価、新しいエージェントと検索可能な生成(RAG)の評価、およびテキスト要約、質問応答、株式トレーディングのための3つの新しいオープンソース評価データセットを提供する。
論文 参考訳(メタデータ) (2024-02-20T02:16:16Z) - PIXIU: A Large Language Model, Instruction Data and Evaluation Benchmark
for Finance [63.51545277822702]
PIXIUは、命令データ付き微調整LLaMAに基づく最初の金融大規模言語モデル(LLM)を含む包括的なフレームワークである。
我々はLLaMAを細調整してFinMAを提案する。
我々は、FinMAと既存のLLMを詳細に分析し、重要な財政課題に対処する際の長所と短所を明らかにする。
論文 参考訳(メタデータ) (2023-06-08T14:20:29Z) - FinQA: A Dataset of Numerical Reasoning over Financial Data [52.7249610894623]
我々は、大量の財務文書の分析を自動化することを目的として、財務データに関する深い質問に答えることに重点を置いている。
我々は,金融専門家が作成した財務報告に対して質問回答のペアを用いた,新たな大規模データセットFinQAを提案する。
その結果、人気があり、大規模で、事前訓練されたモデルは、金融知識を得るための専門的な人間には程遠いことが示される。
論文 参考訳(メタデータ) (2021-09-01T00:08:14Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。