Fugu-MT 論文翻訳(概要): Herculean: An Agentic Benchmark for Financial Intelligence

論文の概要: Herculean: An Agentic Benchmark for Financial Intelligence

arxiv url: http://arxiv.org/abs/2605.14355v2
Date: Thu, 21 May 2026 05:16:58 GMT
ステータス: 翻訳完了
システム内更新日: 2026-05-22 20:14:18.409041
Title: Herculean: An Agentic Benchmark for Financial Intelligence
Title（参考訳）: Herculean: 金融インテリジェンスのためのエージェントベンチマーク
Authors: Xueqing Peng, Zhuohan Xie, Yupeng Cao, Haohang Li, Lingfei Qian, Yan Wang, Vincent Jim Zhang, Huan He, Xuguang Ai, Linhai Ma, Ruoyu Xiang, Yueru He, Yi Han, Shuyao Wang, Yuqing Guo, Mingyang Jiang, Yilun Zhao, Youzhong Dong, Xiaoyu Wang, Yankai Chen, Ye Yuan, Qiyuan Zhang, Fuyuan Lyu, Haolun Wu, Yonghan Yang, Zichen Zhao, Yuyang Dai, Fan Zhang, Rania Elbadry, Ayesha Gull, Muhammad Usman Safder, Nuo Chen, Fengbin Zhu, Tianshi Cai, Zimu Wang, Polydoros Giannouris, Yuechen Jiang, Zhiwei Liu, Mohsinul Kabir, Yuyan Wang, Yixiang Zheng, Yangyang Yu, Weijin Liu, Wenbo Cao, Anke Xu, Peng Lu, Jerry Huang, Mingquan Lin, Prayag Tiwari, Yijia Zhao, Victor Gutierrez Basulto, Xiao-Yang Liu, Kaleb E Smith, Jiahuan Pei, Arman Cohan, Jimin Huang, Yuehua Tang, Alejandro Lopez-Lira, Xi Chen, Xue Liu, Junichi Tsujii, Jian-Yun Nie, Sophia Ananiadou,
Abstract要約: 代表的な4つのスキルセットにまたがるエージェント金融インテリジェンスのための最初の熟練したベンチマークであるHerculeanを紹介します。フェデラーエージェント全体では、TradingやMarket Insightsではエージェントが比較的うまく機能するが、HedgingやAuditingではかなり苦労している。全体としては、財務的推論を信頼性のあるワークフロー実行に変換する上で、現在のエージェントに重要なギャップがあることを示している。
参考スコア（独自算出の注目度）: 114.33879935277217
License: http://creativecommons.org/licenses/by/4.0/
Abstract: As AI agents improve, the central question is no longer whether they can solve isolated well-defined financial tasks, but whether they can reliably carry out financial professional work. Existing financial benchmarks offer only a partial view of this ability, as they primarily evaluate static competencies such as question answering, retrieval, summarization, and classification. We introduce Herculean, the first skilled benchmark for agentic financial intelligence spanning four representative workflows, including Trading, Hedging, Market Insights, and Auditing. Each workflow is instantiated as a standardized MCP-based skill environment with its own tools, interaction dynamics, constraints, and success criteria, enabling consistent end-to-end assessment of heterogeneous agent systems. Across frontier agents, we find agents perform relatively well on Trading and Market Insights, but struggle substantially on Hedging and Auditing, where long-horizon coordination, state consistency, and structured verification are critical. Overall, our results point to a key gap in current agents in turning financial reasoning into dependable workflow execution in high-stakes financial workflows.
Abstract（参考訳）: AIエージェントが改善するにつれて、もはや、孤立した明確な財務課題を解決できるかどうかという問題ではなく、金融専門家の仕事が確実に行えるかどうかという問題である。既存の金融ベンチマークは、主に質問応答、検索、要約、分類などの静的能力を評価するため、この能力を部分的に評価するだけである。私たちは、Trading、Hedging、Market Insights、Auditingを含む4つの代表的なワークフローにまたがるエージェント金融インテリジェンスのための最初の熟練したベンチマークであるHerculeanを紹介します。各ワークフローは、独自のツール、インタラクションダイナミクス、制約、成功基準を備えた標準化されたMPPベースのスキル環境としてインスタンス化され、異種エージェントシステムの一貫したエンドツーエンド評価を可能にする。フェデラルエージェント全体では、トレーディングとマーケットインサイトにおいてエージェントは比較的よく機能しますが、長期的な調整、状態整合性、構造化された検証が不可欠であるHedgingとAuditingでは、かなり苦労しています。全体として、当社の結果は、財務的推論を高額の財務的ワークフローにおける信頼性の高いワークフロー実行に変換する上で、現在のエージェントに重要なギャップがあることを示唆している。

論文の概要: Herculean: An Agentic Benchmark for Financial Intelligence

関連論文リスト