論文の概要: WorkstreamBench: Evaluating LLM Agents on End-to-End Spreadsheet Tasks in Finance
- arxiv url: http://arxiv.org/abs/2605.22664v1
- Date: Thu, 21 May 2026 16:06:34 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-05-22 20:14:18.602977
- Title: WorkstreamBench: Evaluating LLM Agents on End-to-End Spreadsheet Tasks in Finance
- Title(参考訳): WorkstreamBench: ファイナンスにおけるエンドツーエンドのスプレッドシートタスク上でのLCMエージェントの評価
- Authors: Thomson Yen, Julian Poeltl, Harshith Srinivas Gear, Yilin Meng, Joshua Fan, Adam Shen, Yili Liu, Ali Bauyrzhan, Siri Du, Haoyang Liu, Daniel Guetta, Hongseok Namkoong,
- Abstract要約: フロンティアAIラボは、スプレッドシート全体をスクラッチから構築できるエージェントを開発した。
これは金融において特に重要であり、金融モデリング、予測、シナリオ分析といった中核がスプレッドシートを通じて一般的に行われている。
既存のスプレッドシートベンチマークでは、この高度な能力は測定されず、代わりに質問回答や単一形式の編集に重点を置いている。
- 参考スコア(独自算出の注目度): 4.787072076364137
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: LLM agents are increasingly expected to carry out end-to-end workflows, producing complete artifacts from high-level user instructions. To meet enterprise needs, frontier AI labs have developed agents that can construct entire spreadsheets from scratch. This is especially relevant in finance, where core workflows such as financial modeling, forecasting, and scenario analysis are commonly conducted through spreadsheets. Yet, existing spreadsheet benchmarks do not measure this advanced capability, focusing instead on question-answering or single-formula edits. To address this gap, we provide one of the first evaluations of agents on end-to-end spreadsheet tasks, focusing on economically critical financial workflows such as modeling and scenario analysis. Since deliverables therein are routinely reviewed and revised by multiple stakeholders, judging their quality necessarily involves high-level criteria such as readability or ease of modification. To reflect the multidimensional nature of solution quality, we develop an evaluation taxonomy comprising three dimensions: Accuracy, Formula, and Format, each comprising fine-grained criteria that reflect professional standards. The Claude family leads the benchmark and produces the most professional-looking outputs in our qualitative review, but even the strongest agents frequently fall short of professional finance standards and degrade sharply as the difficulty increases beyond a few chained calculations. This suggests that current agents are not yet able to reliably produce professional-quality spreadsheets at the level of complexity real-world workflows demand.
- Abstract(参考訳): LLMエージェントは、エンド・ツー・エンドのワークフローを実行し、ハイレベルなユーザー・インストラクションから完全なアーティファクトを生成することがますます期待されている。
企業のニーズを満たすために、フロンティアAIラボは、スプレッドシート全体をスクラッチから構築できるエージェントを開発した。
これは金融において特に重要であり、金融モデリング、予測、シナリオ分析といった中核的なワークフローは、一般的にスプレッドシートを通して行われる。
しかし、既存のスプレッドシートベンチマークはこの高度な能力を測定せず、代わりに質問回答や単一形式の編集に重点を置いている。
このギャップに対処するために、我々は、モデリングやシナリオ分析のような経済的に重要な金融ワークフローに焦点を当てた、エンドツーエンドのスプレッドシートタスクにおけるエージェントの最初の評価の1つを提供する。
成果物は、複数の利害関係者によって定期的にレビューされ、修正されるので、その品質を判断するには、可読性や変更の容易さといった高レベルな基準が必ず必要である。
ソリューション品質の多次元的な性質を反映するため,専門的基準を反映したきめ細かい基準を含む,正確性,フォーミュラ,フォーマットの3つの次元からなる評価分類法を開発した。
クロード家(Claude family)は、このベンチマークをリードし、質的なレビューの中で最もプロらしく見えるアウトプットを生産するが、最強のエージェントでさえ、プロの財務基準に反し、いくつかの連鎖した計算以上の困難が増すにつれて、急激に低下することが多い。
これは、現在のエージェントが、現実のワークフローが要求する複雑さのレベルにおいて、プロフェッショナル品質のスプレッドシートを確実に作成できないことを示唆している。
関連論文リスト
- Herculean: An Agentic Benchmark for Financial Intelligence [114.33879935277217]
代表的な4つのスキルセットにまたがるエージェント金融インテリジェンスのための最初の熟練したベンチマークであるHerculeanを紹介します。
フェデラーエージェント全体では、TradingやMarket Insightsではエージェントが比較的うまく機能するが、HedgingやAuditingではかなり苦労している。
全体としては、財務的推論を信頼性のあるワークフロー実行に変換する上で、現在のエージェントに重要なギャップがあることを示している。
論文 参考訳(メタデータ) (2026-05-14T04:30:49Z) - Time Series Augmented Generation for Financial Applications [0.10499611180329804]
本稿では,金融時系列分析のためのエージェントの推論を厳格に評価するための新しい評価手法とベンチマークを提案する。
本手法を我々のフレームワークであるTime Series Augmented Generationを用いた大規模実証研究に適用する。
その結果,幻覚を最小限に抑えることで,ほぼ完璧な道具使用精度を達成できることが示唆された。
論文 参考訳(メタデータ) (2026-04-21T16:20:59Z) - FrontierFinance: A Long-Horizon Computer-Use Benchmark of Real-World Financial Tasks [4.444378412245679]
5つのコアファイナンスモデルにわたる25の複雑な金融モデリングタスクのベンチマークであるFrontierFinanceを紹介します。
我々は、人間の専門家にタスクを定義し、ルーブリックを作成し、LCMを格付けし、タスク自体を人間のベースラインとして実行させます。
私たちの人間の専門家はどちらも平均して高いスコアを受け取り、現在の最先端システムよりもクライアント対応のアウトプットを提供する可能性が高いことを実証しています。
論文 参考訳(メタデータ) (2026-04-07T14:15:45Z) - Benchmarking LLM Agents for Wealth-Management Workflows [0.0]
この論文はTheAgentCompanyを金融に焦点を当てた環境に拡張している。
本研究は、汎用LLMエージェントが、精密かつ経済的に代表的富管理タスクを完了できるかどうかを調査する。
論文 参考訳(メタデータ) (2025-12-01T21:56:21Z) - FinSight: Towards Real-World Financial Deep Research [68.31086471310773]
FinSightは、高品質でマルチモーダルな財務報告を作成するための新しいフレームワークである。
プロフェッショナルグレードの可視化を確保するため,反復視覚強調機構を提案する。
2段階のBinging Frameworkは、簡潔な分析セグメントをコヒーレント、引用認識、マルチモーダルレポートに拡張する。
論文 参考訳(メタデータ) (2025-10-19T14:05:35Z) - FinAgentBench: A Benchmark Dataset for Agentic Retrieval in Financial Question Answering [57.18367828883773]
FinAgentBenchは、ファイナンスにおける多段階推論によるエージェント検索を評価するためのベンチマークである。
このベンチマークは、S&P-500上場企業に関する26Kのエキスパートアノテート例から成っている。
我々は,最先端モデルの集合を評価し,対象の微調整がエージェント検索性能を大幅に向上することを示す。
論文 参考訳(メタデータ) (2025-08-07T22:15:22Z) - FinanceQA: A Benchmark for Evaluating Financial Analysis Capabilities of Large Language Models [0.0]
FinanceQAは、LLMのパフォーマンスを実世界の投資業務を反映した複雑な数値分析タスクで評価するテストスイートである。
現在のLLMは、金融機関の厳密な精度要件を満たすことができず、モデルは現実的なタスクの約60%を欠いている。
その結果、このようなタスクをサポートするためには高品質なトレーニングデータが必要であることが示され、OpenAIの微調整APIを使って実験した。
論文 参考訳(メタデータ) (2025-01-30T00:06:55Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。