論文の概要: Herculean: An Agentic Benchmark for Financial Intelligence
- arxiv url: http://arxiv.org/abs/2605.14355v2
- Date: Thu, 21 May 2026 05:16:58 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-05-22 20:14:18.409041
- Title: Herculean: An Agentic Benchmark for Financial Intelligence
- Title(参考訳): Herculean: 金融インテリジェンスのためのエージェントベンチマーク
- Authors: Xueqing Peng, Zhuohan Xie, Yupeng Cao, Haohang Li, Lingfei Qian, Yan Wang, Vincent Jim Zhang, Huan He, Xuguang Ai, Linhai Ma, Ruoyu Xiang, Yueru He, Yi Han, Shuyao Wang, Yuqing Guo, Mingyang Jiang, Yilun Zhao, Youzhong Dong, Xiaoyu Wang, Yankai Chen, Ye Yuan, Qiyuan Zhang, Fuyuan Lyu, Haolun Wu, Yonghan Yang, Zichen Zhao, Yuyang Dai, Fan Zhang, Rania Elbadry, Ayesha Gull, Muhammad Usman Safder, Nuo Chen, Fengbin Zhu, Tianshi Cai, Zimu Wang, Polydoros Giannouris, Yuechen Jiang, Zhiwei Liu, Mohsinul Kabir, Yuyan Wang, Yixiang Zheng, Yangyang Yu, Weijin Liu, Wenbo Cao, Anke Xu, Peng Lu, Jerry Huang, Mingquan Lin, Prayag Tiwari, Yijia Zhao, Victor Gutierrez Basulto, Xiao-Yang Liu, Kaleb E Smith, Jiahuan Pei, Arman Cohan, Jimin Huang, Yuehua Tang, Alejandro Lopez-Lira, Xi Chen, Xue Liu, Junichi Tsujii, Jian-Yun Nie, Sophia Ananiadou,
- Abstract要約: 代表的な4つのスキルセットにまたがるエージェント金融インテリジェンスのための最初の熟練したベンチマークであるHerculeanを紹介します。
フェデラーエージェント全体では、TradingやMarket Insightsではエージェントが比較的うまく機能するが、HedgingやAuditingではかなり苦労している。
全体としては、財務的推論を信頼性のあるワークフロー実行に変換する上で、現在のエージェントに重要なギャップがあることを示している。
- 参考スコア(独自算出の注目度): 114.33879935277217
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: As AI agents improve, the central question is no longer whether they can solve isolated well-defined financial tasks, but whether they can reliably carry out financial professional work. Existing financial benchmarks offer only a partial view of this ability, as they primarily evaluate static competencies such as question answering, retrieval, summarization, and classification. We introduce Herculean, the first skilled benchmark for agentic financial intelligence spanning four representative workflows, including Trading, Hedging, Market Insights, and Auditing. Each workflow is instantiated as a standardized MCP-based skill environment with its own tools, interaction dynamics, constraints, and success criteria, enabling consistent end-to-end assessment of heterogeneous agent systems. Across frontier agents, we find agents perform relatively well on Trading and Market Insights, but struggle substantially on Hedging and Auditing, where long-horizon coordination, state consistency, and structured verification are critical. Overall, our results point to a key gap in current agents in turning financial reasoning into dependable workflow execution in high-stakes financial workflows.
- Abstract(参考訳): AIエージェントが改善するにつれて、もはや、孤立した明確な財務課題を解決できるかどうかという問題ではなく、金融専門家の仕事が確実に行えるかどうかという問題である。
既存の金融ベンチマークは、主に質問応答、検索、要約、分類などの静的能力を評価するため、この能力を部分的に評価するだけである。
私たちは、Trading、Hedging、Market Insights、Auditingを含む4つの代表的なワークフローにまたがるエージェント金融インテリジェンスのための最初の熟練したベンチマークであるHerculeanを紹介します。
各ワークフローは、独自のツール、インタラクションダイナミクス、制約、成功基準を備えた標準化されたMPPベースのスキル環境としてインスタンス化され、異種エージェントシステムの一貫したエンドツーエンド評価を可能にする。
フェデラルエージェント全体では、トレーディングとマーケットインサイトにおいてエージェントは比較的よく機能しますが、長期的な調整、状態整合性、構造化された検証が不可欠であるHedgingとAuditingでは、かなり苦労しています。
全体として、当社の結果は、財務的推論を高額の財務的ワークフローにおける信頼性の高いワークフロー実行に変換する上で、現在のエージェントに重要なギャップがあることを示唆している。
関連論文リスト
- FrontierFinance: A Long-Horizon Computer-Use Benchmark of Real-World Financial Tasks [4.444378412245679]
5つのコアファイナンスモデルにわたる25の複雑な金融モデリングタスクのベンチマークであるFrontierFinanceを紹介します。
我々は、人間の専門家にタスクを定義し、ルーブリックを作成し、LCMを格付けし、タスク自体を人間のベースラインとして実行させます。
私たちの人間の専門家はどちらも平均して高いスコアを受け取り、現在の最先端システムよりもクライアント対応のアウトプットを提供する可能性が高いことを実証しています。
論文 参考訳(メタデータ) (2026-04-07T14:15:45Z) - FinAgentBench: A Benchmark Dataset for Agentic Retrieval in Financial Question Answering [57.18367828883773]
FinAgentBenchは、ファイナンスにおける多段階推論によるエージェント検索を評価するためのベンチマークである。
このベンチマークは、S&P-500上場企業に関する26Kのエキスパートアノテート例から成っている。
我々は,最先端モデルの集合を評価し,対象の微調整がエージェント検索性能を大幅に向上することを示す。
論文 参考訳(メタデータ) (2025-08-07T22:15:22Z) - Agentar-Fin-R1: Enhancing Financial Intelligence through Domain Expertise, Training Efficiency, and Advanced Reasoning [12.548390779247987]
本稿では,Agensar-Fin-R1シリーズを紹介する。
我々の最適化手法は、高品質で体系的な金融タスクラベルシステムを統合する。
われわれのモデルは、主要な金融指標を総合的に評価している。
論文 参考訳(メタデータ) (2025-07-22T17:52:16Z) - FinHEAR: Human Expertise and Adaptive Risk-Aware Temporal Reasoning for Financial Decision-Making [58.04602111184477]
FinHEARは、人間の専門知識と適応的リスク認識推論のためのフレームワークである。
専門のエージェントを編成し、過去の傾向を分析し、現在の出来事を解釈し、専門家にインフォームドされた前例を検索する。
金融データセットの実証的な結果から、FinHEARはトレンド予測やトレーディングタスクにおいて、一貫して強いベースラインを上回ります。
論文 参考訳(メタデータ) (2025-06-10T04:06:51Z) - AgentBoard: An Analytical Evaluation Board of Multi-turn LLM Agents [74.16170899755281]
本稿では,LLMエージェントの分析的評価に適したオープンソース評価フレームワークであるAgentBoardを紹介する。
AgentBoardは、インクリメンタルな進歩と包括的な評価ツールキットをキャプチャする、きめ細かい進捗率のメトリクスを提供する。
これはLLMエージェントの能力と限界に光を当てるだけでなく、その性能の解釈可能性も最前線に広める。
論文 参考訳(メタデータ) (2024-01-24T01:51:00Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。