論文の概要: FinGAIA: A Chinese Benchmark for AI Agents in Real-World Financial Domain
- arxiv url: http://arxiv.org/abs/2507.17186v2
- Date: Thu, 31 Jul 2025 08:14:21 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-08-01 13:02:07.658061
- Title: FinGAIA: A Chinese Benchmark for AI Agents in Real-World Financial Domain
- Title(参考訳): FinGAIA: 実世界の金融分野におけるAIエージェントのための中国のベンチマーク
- Authors: Lingfeng Zeng, Fangqi Lou, Zixuan Wang, Jiajie Xu, Jinyi Niu, Mengping Li, Yifan Dong, Qi Qi, Wei Zhang, Ziwei Yang, Jun Han, Ruilun Feng, Ruiqi Hu, Lejie Zhang, Zhengbo Feng, Yicheng Ren, Xin Guo, Zhaowei Liu, Dongpo Cheng, Weige Cai, Liwen Zhang,
- Abstract要約: FinGAIAは7つの主要な金融サブドメインにまたがる、細心の注意を払って407のタスクで構成されている。
最高成績のエージェントであるChatGPTは48.9%の精度を達成し、非専門職よりも優れているが、財務の専門家を35パーセント以上遅れている。
- 参考スコア(独自算出の注目度): 17.682962451679312
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: The booming development of AI agents presents unprecedented opportunities for automating complex tasks across various domains. However, their multi-step, multi-tool collaboration capabilities in the financial sector remain underexplored. This paper introduces FinGAIA, an end-to-end benchmark designed to evaluate the practical abilities of AI agents in the financial domain. FinGAIA comprises 407 meticulously crafted tasks, spanning seven major financial sub-domains: securities, funds, banking, insurance, futures, trusts, and asset management. These tasks are organized into three hierarchical levels of scenario depth: basic business analysis, asset decision support, and strategic risk management. We evaluated 10 mainstream AI agents in a zero-shot setting. The best-performing agent, ChatGPT, achieved an overall accuracy of 48.9\%, which, while superior to non-professionals, still lags financial experts by over 35 percentage points. Error analysis has revealed five recurring failure patterns: Cross-modal Alignment Deficiency, Financial Terminological Bias, Operational Process Awareness Barrier, among others. These patterns point to crucial directions for future research. Our work provides the first agent benchmark closely related to the financial domain, aiming to objectively assess and promote the development of agents in this crucial field. Partial data is available at https://github.com/SUFE-AIFLM-Lab/FinGAIA.
- Abstract(参考訳): AIエージェントの爆発的な開発は、さまざまな領域にわたる複雑なタスクを自動化する前例のない機会を提示している。
しかし、金融セクターにおける多段階多目的コラボレーション能力はいまだ未定である。
本稿では、ファイナンシャルドメインにおけるAIエージェントの実用能力を評価するために設計されたエンドツーエンドベンチマークであるFinGAIAを紹介する。
FinGAIAは、証券、ファンド、銀行、保険、先物、信託、資産管理という7つの主要な金融サブドメインにまたがる407の精巧な業務で構成されている。
これらのタスクは、基本的なビジネス分析、資産決定支援、戦略的リスク管理という3つの階層的なシナリオディープに分類されます。
ゼロショット設定で10のメインストリームAIエージェントを評価した。
最も優れたエージェントであるChatGPTは48.9%の精度を達成し、非専門職よりも優れているが、それでも財務の専門家を35パーセント以上遅れている。
エラー分析では、クロスモーダルアライメント障害、ファイナンシャル・ターミノロジー・バイアス、オペレーショナル・プロセス・アウェアネス・バリアなど、5つの繰り返し発生する障害パターンが明らかになった。
これらのパターンは将来の研究にとって重要な方向を示している。
この重要な分野におけるエージェントの開発を客観的に評価・促進することを目的とした,金融分野と密接に関連する最初のエージェントベンチマークを提供する。
部分データはhttps://github.com/SUFE-AIFLM-Lab/FinGAIAで入手できる。
関連論文リスト
- Agentar-Fin-R1: Enhancing Financial Intelligence through Domain Expertise, Training Efficiency, and Advanced Reasoning [12.855132856747447]
本稿では,Agensar-Fin-R1シリーズを紹介する。
我々の最適化手法は、高品質で体系的な金融タスクラベルシステムを統合する。
われわれのモデルは、主要な金融指標を総合的に評価している。
論文 参考訳(メタデータ) (2025-07-22T17:52:16Z) - FinTeam: A Multi-Agent Collaborative Intelligence System for Comprehensive Financial Scenarios [31.464961691866854]
FinTeamは金融マルチエージェントコラボレーションシステムである。
構築されたデータセットを使用して、これらのエージェントを特定の財務的な専門知識で訓練する。
我々はFinTeamを実際のオンライン投資フォーラムから構築した包括的財務タスクで評価する。
論文 参考訳(メタデータ) (2025-07-05T10:12:25Z) - FinMaster: A Holistic Benchmark for Mastering Full-Pipeline Financial Workflows with LLMs [15.230256296815565]
FinMasterは、金融リテラシー、会計、監査、コンサルティングにおける大規模言語モデル(LLM)の機能を評価するために設計されたベンチマークである。
FinMasterは、FinSim、FinSuite、FinEvalの3つの主要なモジュールで構成されている。
実験では、財務的な推論において重要な能力のギャップが示され、精度は基本的なタスクで90%以上から、複雑なシナリオではわずか37%に低下した。
論文 参考訳(メタデータ) (2025-05-18T11:47:55Z) - FinRobot: AI Agent for Equity Research and Valuation with Large Language Models [6.2474959166074955]
本稿では、エクイティリサーチに特化したAIエージェントフレームワークであるFinRobotについて述べる。
FinRobotはマルチエージェント・チェーン・オブ・シント(CoT)システムを採用し、定量分析と定性的分析を統合し、人間のアナリストの包括的な推論をエミュレートする。
CapitalCubeやWright Reportsのような既存の自動研究ツールとは異なり、FinRobotは大手ブローカー会社や基礎研究ベンダーと同等の洞察を提供する。
論文 参考訳(メタデータ) (2024-11-13T17:38:07Z) - Open-FinLLMs: Open Multimodal Large Language Models for Financial Applications [88.96861155804935]
オープンソースのマルチモーダル金融 LLM である textitOpen-FinLLMs を紹介する。
FinLLaMAは52ビリオンのトーケンコーパス、FinLLaMA-Instructは573Kの財務命令で微調整され、FinLLaVAは1.43Mのマルチモーダルチューニングペアで強化されている。
我々は、14の財務タスク、30のデータセット、および4つのマルチモーダルタスクにわたるOpen-FinLLMをゼロショット、少数ショット、教師付き微調整設定で評価した。
論文 参考訳(メタデータ) (2024-08-20T16:15:28Z) - FinBen: A Holistic Financial Benchmark for Large Language Models [75.09474986283394]
FinBenは、24の財務タスクにまたがる36のデータセットを含む、最初の大規模なオープンソース評価ベンチマークである。
FinBenは、幅広いタスクとデータセット、ストックトレーディングの最初の評価、新しいエージェントと検索可能な生成(RAG)の評価、およびテキスト要約、質問応答、株式トレーディングのための3つの新しいオープンソース評価データセットを提供する。
論文 参考訳(メタデータ) (2024-02-20T02:16:16Z) - PIXIU: A Large Language Model, Instruction Data and Evaluation Benchmark
for Finance [63.51545277822702]
PIXIUは、命令データ付き微調整LLaMAに基づく最初の金融大規模言語モデル(LLM)を含む包括的なフレームワークである。
我々はLLaMAを細調整してFinMAを提案する。
我々は、FinMAと既存のLLMを詳細に分析し、重要な財政課題に対処する際の長所と短所を明らかにする。
論文 参考訳(メタデータ) (2023-06-08T14:20:29Z) - FinQA: A Dataset of Numerical Reasoning over Financial Data [52.7249610894623]
我々は、大量の財務文書の分析を自動化することを目的として、財務データに関する深い質問に答えることに重点を置いている。
我々は,金融専門家が作成した財務報告に対して質問回答のペアを用いた,新たな大規模データセットFinQAを提案する。
その結果、人気があり、大規模で、事前訓練されたモデルは、金融知識を得るための専門的な人間には程遠いことが示される。
論文 参考訳(メタデータ) (2021-09-01T00:08:14Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。