論文の概要: FinGAIA: An End-to-End Benchmark for Evaluating AI Agents in Finance
- arxiv url: http://arxiv.org/abs/2507.17186v1
- Date: Wed, 23 Jul 2025 04:19:16 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-07-24 22:33:14.854177
- Title: FinGAIA: An End-to-End Benchmark for Evaluating AI Agents in Finance
- Title(参考訳): FinGAIA: ファイナンスにおけるAIエージェント評価のためのエンドツーエンドベンチマーク
- Authors: Lingfeng Zeng, Fangqi Lou, Zixuan Wang, Jiajie Xu, Jinyi Niu, Mengping Li, Yifan Dong, Qi Qi, Wei Zhang, Ziwei Yang, Jun Han, Ruilun Feng, Ruiqi Hu, Lejie Zhang, Zhengbo Feng, Yicheng Ren, Xin Guo, Zhaowei Liu, Dongpo Cheng, Weige Cai, Liwen Zhang,
- Abstract要約: FinGAIAは7つの主要な金融サブドメインにまたがる、細心の注意を払って407のタスクで構成されている。
最高成績のエージェントであるChatGPTは48.9%の精度を達成し、非専門職よりも優れているが、財務の専門家を35パーセント以上遅れている。
- 参考スコア(独自算出の注目度): 17.682962451679312
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: The booming development of AI agents presents unprecedented opportunities for automating complex tasks across various domains. However, their multi-step, multi-tool collaboration capabilities in the financial sector remain underexplored. This paper introduces FinGAIA, an end-to-end benchmark designed to evaluate the practical abilities of AI agents in the financial domain. FinGAIA comprises 407 meticulously crafted tasks, spanning seven major financial sub-domains: securities, funds, banking, insurance, futures, trusts, and asset management. These tasks are organized into three hierarchical levels of scenario depth: basic business analysis, asset decision support, and strategic risk management. We evaluated 10 mainstream AI agents in a zero-shot setting. The best-performing agent, ChatGPT, achieved an overall accuracy of 48.9\%, which, while superior to non-professionals, still lags financial experts by over 35 percentage points. Error analysis has revealed five recurring failure patterns: Cross-modal Alignment Deficiency, Financial Terminological Bias, Operational Process Awareness Barrier, among others. These patterns point to crucial directions for future research. Our work provides the first agent benchmark closely related to the financial domain, aiming to objectively assess and promote the development of agents in this crucial field. Partial data is available at https://github.com/SUFE-AIFLM-Lab/FinGAIA.
- Abstract(参考訳): AIエージェントの爆発的な開発は、さまざまな領域にわたる複雑なタスクを自動化する前例のない機会を提示している。
しかし、金融セクターにおける多段階多目的コラボレーション能力はいまだ未定である。
本稿では、ファイナンシャルドメインにおけるAIエージェントの実用能力を評価するために設計されたエンドツーエンドベンチマークであるFinGAIAを紹介する。
FinGAIAは、証券、ファンド、銀行、保険、先物、信託、資産管理という7つの主要な金融サブドメインにまたがる407の精巧な業務で構成されている。
これらのタスクは、基本的なビジネス分析、資産決定支援、戦略的リスク管理という3つの階層的なシナリオディープに分類されます。
ゼロショット設定で10のメインストリームAIエージェントを評価した。
最も優れたエージェントであるChatGPTは48.9%の精度を達成し、非専門職よりも優れているが、それでも財務の専門家を35パーセント以上遅れている。
エラー分析では、クロスモーダルアライメント障害、ファイナンシャル・ターミノロジー・バイアス、オペレーショナル・プロセス・アウェアネス・バリアなど、5つの繰り返し発生する障害パターンが明らかになった。
これらのパターンは将来の研究にとって重要な方向を示している。
この重要な分野におけるエージェントの開発を客観的に評価・促進することを目的とした,金融分野と密接に関連する最初のエージェントベンチマークを提供する。
部分データはhttps://github.com/SUFE-AIFLM-Lab/FinGAIAで入手できる。
関連論文リスト
- FinWorld: An All-in-One Open-Source Platform for End-to-End Financial AI Research and Deployment [33.436388581893944]
FinWorldは、財務AIワークフロー全体に対するエンドツーエンドのサポートを提供する、オールインワンのオープンソースプラットフォームである。
4つの主要な金融AIタスクに関する総合的な実験を行います。
論文 参考訳(メタデータ) (2025-08-04T11:02:34Z) - Agentar-Fin-R1: Enhancing Financial Intelligence through Domain Expertise, Training Efficiency, and Advanced Reasoning [12.855132856747447]
本稿では,Agensar-Fin-R1シリーズを紹介する。
我々の最適化手法は、高品質で体系的な金融タスクラベルシステムを統合する。
われわれのモデルは、主要な金融指標を総合的に評価している。
論文 参考訳(メタデータ) (2025-07-22T17:52:16Z) - FinTeam: A Multi-Agent Collaborative Intelligence System for Comprehensive Financial Scenarios [31.464961691866854]
FinTeamは金融マルチエージェントコラボレーションシステムである。
構築されたデータセットを使用して、これらのエージェントを特定の財務的な専門知識で訓練する。
我々はFinTeamを実際のオンライン投資フォーラムから構築した包括的財務タスクで評価する。
論文 参考訳(メタデータ) (2025-07-05T10:12:25Z) - FinMaster: A Holistic Benchmark for Mastering Full-Pipeline Financial Workflows with LLMs [15.230256296815565]
FinMasterは、金融リテラシー、会計、監査、コンサルティングにおける大規模言語モデル(LLM)の機能を評価するために設計されたベンチマークである。
FinMasterは、FinSim、FinSuite、FinEvalの3つの主要なモジュールで構成されている。
実験では、財務的な推論において重要な能力のギャップが示され、精度は基本的なタスクで90%以上から、複雑なシナリオではわずか37%に低下した。
論文 参考訳(メタデータ) (2025-05-18T11:47:55Z) - FinDER: Financial Dataset for Question Answering and Evaluating Retrieval-Augmented Generation [63.55583665003167]
ファイナンスにおけるRetrieval-Augmented Generation(RAG)に適したエキスパート生成データセットであるFinDERを提案する。
FinDERは、ドメインの専門家による検索関連証拠の注釈付けに重点を置いており、5,703のクエリ・エビデンス・アンサー・トリプルを提供している。
大きなコーパスから関連する情報を取得するためにモデルに挑戦することで、FinDERはRAGシステムを評価するためのより現実的なベンチマークを提供する。
論文 参考訳(メタデータ) (2025-04-22T11:30:13Z) - FinRobot: AI Agent for Equity Research and Valuation with Large Language Models [6.2474959166074955]
本稿では、エクイティリサーチに特化したAIエージェントフレームワークであるFinRobotについて述べる。
FinRobotはマルチエージェント・チェーン・オブ・シント(CoT)システムを採用し、定量分析と定性的分析を統合し、人間のアナリストの包括的な推論をエミュレートする。
CapitalCubeやWright Reportsのような既存の自動研究ツールとは異なり、FinRobotは大手ブローカー会社や基礎研究ベンダーと同等の洞察を提供する。
論文 参考訳(メタデータ) (2024-11-13T17:38:07Z) - SUPER: Evaluating Agents on Setting Up and Executing Tasks from Research Repositories [55.161075901665946]
Superは、機械学習(ML)と自然言語処理(NLP)の研究リポジトリを扱う研究者が直面する現実的な課題を捉えることを目的としている。
本ベンチマークでは,注釈付きエキスパートソリューションを用いたエンドツーエンド問題45,特定の課題に焦点をあてたエキスパートソリューションから導いた152,大規模開発のための602の問題を自動生成する。
我々は、最先端のアプローチが、最良のモデル(GPT-4o)でこれらの問題を解決するのに苦労していることを示し、エンド・ツー・エンドの16.3%と46.1%のシナリオを解決した。
論文 参考訳(メタデータ) (2024-09-11T17:37:48Z) - Open-FinLLMs: Open Multimodal Large Language Models for Financial Applications [88.96861155804935]
オープンソースのマルチモーダル金融 LLM である textitOpen-FinLLMs を紹介する。
FinLLaMAは52ビリオンのトーケンコーパス、FinLLaMA-Instructは573Kの財務命令で微調整され、FinLLaVAは1.43Mのマルチモーダルチューニングペアで強化されている。
我々は、14の財務タスク、30のデータセット、および4つのマルチモーダルタスクにわたるOpen-FinLLMをゼロショット、少数ショット、教師付き微調整設定で評価した。
論文 参考訳(メタデータ) (2024-08-20T16:15:28Z) - FinRobot: An Open-Source AI Agent Platform for Financial Applications using Large Language Models [16.814416170855147]
FinRobotは、複数の金融専門のAIエージェントをサポートする、オープンソースのAIエージェントプラットフォームである。
FinRobotは、高度な財務分析に強力なAI技術を利用するために、プロ級のアナリストとレイパーの両方にハンズオンを提供する。
論文 参考訳(メタデータ) (2024-05-23T16:35:20Z) - FinBen: A Holistic Financial Benchmark for Large Language Models [75.09474986283394]
FinBenは、24の財務タスクにまたがる36のデータセットを含む、最初の大規模なオープンソース評価ベンチマークである。
FinBenは、幅広いタスクとデータセット、ストックトレーディングの最初の評価、新しいエージェントと検索可能な生成(RAG)の評価、およびテキスト要約、質問応答、株式トレーディングのための3つの新しいオープンソース評価データセットを提供する。
論文 参考訳(メタデータ) (2024-02-20T02:16:16Z) - PIXIU: A Large Language Model, Instruction Data and Evaluation Benchmark
for Finance [63.51545277822702]
PIXIUは、命令データ付き微調整LLaMAに基づく最初の金融大規模言語モデル(LLM)を含む包括的なフレームワークである。
我々はLLaMAを細調整してFinMAを提案する。
我々は、FinMAと既存のLLMを詳細に分析し、重要な財政課題に対処する際の長所と短所を明らかにする。
論文 参考訳(メタデータ) (2023-06-08T14:20:29Z) - FinQA: A Dataset of Numerical Reasoning over Financial Data [52.7249610894623]
我々は、大量の財務文書の分析を自動化することを目的として、財務データに関する深い質問に答えることに重点を置いている。
我々は,金融専門家が作成した財務報告に対して質問回答のペアを用いた,新たな大規模データセットFinQAを提案する。
その結果、人気があり、大規模で、事前訓練されたモデルは、金融知識を得るための専門的な人間には程遠いことが示される。
論文 参考訳(メタデータ) (2021-09-01T00:08:14Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。