論文の概要: FinMaster: A Holistic Benchmark for Mastering Full-Pipeline Financial Workflows with LLMs
- arxiv url: http://arxiv.org/abs/2505.13533v1
- Date: Sun, 18 May 2025 11:47:55 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-05-21 14:49:52.375787
- Title: FinMaster: A Holistic Benchmark for Mastering Full-Pipeline Financial Workflows with LLMs
- Title(参考訳): FinMaster: LLMによる完全なパイプラインファイナンシャルワークフローのマスタリングのための全体ベンチマーク
- Authors: Junzhe Jiang, Chang Yang, Aixin Cui, Sihan Jin, Ruiyu Wang, Bo Li, Xiao Huang, Dongning Sun, Xinrun Wang,
- Abstract要約: FinMasterは、金融リテラシー、会計、監査、コンサルティングにおける大規模言語モデル(LLM)の機能を評価するために設計されたベンチマークである。
FinMasterは、FinSim、FinSuite、FinEvalの3つの主要なモジュールで構成されている。
実験では、財務的な推論において重要な能力のギャップが示され、精度は基本的なタスクで90%以上から、複雑なシナリオではわずか37%に低下した。
- 参考スコア(独自算出の注目度): 15.230256296815565
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Financial tasks are pivotal to global economic stability; however, their execution faces challenges including labor intensive processes, low error tolerance, data fragmentation, and tool limitations. Although large language models (LLMs) have succeeded in various natural language processing tasks and have shown potential in automating workflows through reasoning and contextual understanding, current benchmarks for evaluating LLMs in finance lack sufficient domain-specific data, have simplistic task design, and incomplete evaluation frameworks. To address these gaps, this article presents FinMaster, a comprehensive financial benchmark designed to systematically assess the capabilities of LLM in financial literacy, accounting, auditing, and consulting. Specifically, FinMaster comprises three main modules: i) FinSim, which builds simulators that generate synthetic, privacy-compliant financial data for companies to replicate market dynamics; ii) FinSuite, which provides tasks in core financial domains, spanning 183 tasks of various types and difficulty levels; and iii) FinEval, which develops a unified interface for evaluation. Extensive experiments over state-of-the-art LLMs reveal critical capability gaps in financial reasoning, with accuracy dropping from over 90% on basic tasks to merely 40% on complex scenarios requiring multi-step reasoning. This degradation exhibits the propagation of computational errors, where single-metric calculations initially demonstrating 58% accuracy decreased to 37% in multimetric scenarios. To the best of our knowledge, FinMaster is the first benchmark that covers full-pipeline financial workflows with challenging tasks. We hope that FinMaster can bridge the gap between research and industry practitioners, driving the adoption of LLMs in real-world financial practices to enhance efficiency and accuracy.
- Abstract(参考訳): 金融業務は世界経済の安定に不可欠であるが、労働集約的なプロセス、低いエラー耐性、データの断片化、ツールの制限といった課題に直面している。
大規模言語モデル(LLM)は、様々な自然言語処理タスクに成功し、推論や文脈理解を通じてワークフローを自動化する可能性を示しているが、金融におけるLLMの評価のための現在のベンチマークには十分なドメイン固有のデータがなく、単純化されたタスク設計と不完全な評価フレームワークがある。
本稿は、金融リテラシー、会計、監査、コンサルティングにおけるLLMの能力を体系的に評価するための総合的な金融ベンチマークであるFinMasterについて述べる。
具体的には、FinMasterは3つの主要なモジュールから構成される。
一 企業が市場ダイナミクスを再現するための総合的かつプライバシーに適合した財務データを生成するシミュレータを構築するフィンシム
二 諸種及び難易度の八百三の業務にまたがる中核金融領域における業務を提供するフィンスタイト
三 評価のための統一インターフェースを開発するFinEval
最先端のLLMに対する大規模な実験では、財務的推論において重要な能力ギャップが示され、基本的なタスクでは90%以上から、多段階推論を必要とする複雑なシナリオでは40%に低下した。
この劣化は計算誤差の伝播を示し、最初はシングルメトリックの計算で58%の精度が37%に低下した。
私たちの知る限りでは、FinMasterは完全な金融ワークフローを困難なタスクでカバーする最初のベンチマークです。
我々は、FinMasterが研究と業界の実践者のギャップを埋め、LLMの採用を現実の金融プラクティスで推進し、効率と正確性を高めることを願っている。
関連論文リスト
- FinanceQA: A Benchmark for Evaluating Financial Analysis Capabilities of Large Language Models [0.0]
FinanceQAは、LLMのパフォーマンスを実世界の投資業務を反映した複雑な数値分析タスクで評価するテストスイートである。
現在のLLMは、金融機関の厳密な精度要件を満たすことができず、モデルは現実的なタスクの約60%を欠いている。
その結果、このようなタスクをサポートするためには高品質なトレーニングデータが必要であることが示され、OpenAIの微調整APIを使って実験した。
論文 参考訳(メタデータ) (2025-01-30T00:06:55Z) - Open-FinLLMs: Open Multimodal Large Language Models for Financial Applications [88.96861155804935]
オープンソースのマルチモーダル金融 LLM である textitOpen-FinLLMs を紹介する。
FinLLaMAは52ビリオンのトーケンコーパス、FinLLaMA-Instructは573Kの財務命令で微調整され、FinLLaVAは1.43Mのマルチモーダルチューニングペアで強化されている。
我々は、14の財務タスク、30のデータセット、および4つのマルチモーダルタスクにわたるOpen-FinLLMをゼロショット、少数ショット、教師付き微調整設定で評価した。
論文 参考訳(メタデータ) (2024-08-20T16:15:28Z) - CFinBench: A Comprehensive Chinese Financial Benchmark for Large Language Models [61.324062412648075]
CFinBenchは、中国の文脈下での大規模言語モデル(LLM)の財務知識を評価するための評価ベンチマークである。
この質問は、43の第二級カテゴリーにまたがる99,100の質問で構成されており、3つの質問タイプがある: シングルチョイス、マルチチョイス、そして判断である。
結果は、GPT4といくつかの中国指向モデルがベンチマークをリードし、平均精度は60.16%であることを示している。
論文 参考訳(メタデータ) (2024-07-02T14:34:36Z) - CatMemo at the FinLLM Challenge Task: Fine-Tuning Large Language Models using Data Fusion in Financial Applications [10.225210627594894]
IJCAI-2024 FinLLMの課題に対して,金融業務の3つの重要な領域におけるLLMの能力について検討した。
金融分類、財務文書要約、単一株式取引について検討する。
提案手法は,これらの多様なタスクを包括的かつ総合的に処理することを目的としており,LLMの多様かつ複雑な財務課題への対処能力の向上と意思決定能力の向上を図っている。
論文 参考訳(メタデータ) (2024-07-02T05:04:13Z) - SuperCLUE-Fin: Graded Fine-Grained Analysis of Chinese LLMs on Diverse Financial Tasks and Applications [17.34850312139675]
SC-Finは中国原産の金融大規模言語モデル(FLM)に適した先駆的評価フレームワークである
6つの金融アプリケーションドメインと25の専門タスクにわたるFLMを評価する。
実生活シナリオを模倣するマルチターンでオープンな会話を用いて、SC-Finは様々な基準に基づいてモデルを測定する。
論文 参考訳(メタデータ) (2024-04-29T19:04:35Z) - FinBen: A Holistic Financial Benchmark for Large Language Models [75.09474986283394]
FinBenは、24の財務タスクにまたがる36のデータセットを含む、最初の大規模なオープンソース評価ベンチマークである。
FinBenは、幅広いタスクとデータセット、ストックトレーディングの最初の評価、新しいエージェントと検索可能な生成(RAG)の評価、およびテキスト要約、質問応答、株式トレーディングのための3つの新しいオープンソース評価データセットを提供する。
論文 参考訳(メタデータ) (2024-02-20T02:16:16Z) - PIXIU: A Large Language Model, Instruction Data and Evaluation Benchmark
for Finance [63.51545277822702]
PIXIUは、命令データ付き微調整LLaMAに基づく最初の金融大規模言語モデル(LLM)を含む包括的なフレームワークである。
我々はLLaMAを細調整してFinMAを提案する。
我々は、FinMAと既存のLLMを詳細に分析し、重要な財政課題に対処する際の長所と短所を明らかにする。
論文 参考訳(メタデータ) (2023-06-08T14:20:29Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。