論文の概要: Finch: Benchmarking Finance & Accounting across Spreadsheet-Centric Enterprise Workflows
- arxiv url: http://arxiv.org/abs/2512.13168v1
- Date: Mon, 15 Dec 2025 10:28:45 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-12-16 17:54:56.6214
- Title: Finch: Benchmarking Finance & Accounting across Spreadsheet-Centric Enterprise Workflows
- Title(参考訳): Finch: スプレッドシート中心のエンタープライズワークフローにおける財務と会計のベンチマーク
- Authors: Haoyu Dong, Pengkun Zhang, Yan Gao, Xuanyu Dong, Yilin Cheng, Mingzhe Lu, Adina Yakefu, Shuxin Zheng,
- Abstract要約: 我々は,実世界の企業レベルのプロフェッショナルを対象に,AIエージェントを評価するためのベンチマークを紹介する。
FinchはEnronの真正のエンタープライズワークスペースから生まれたものだ。
- 参考スコア(独自算出の注目度): 9.732282128461632
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: We introduce a finance & accounting benchmark (Finch) for evaluating AI agents on real-world, enterprise-grade professional workflows -- interleaving data entry, structuring, formatting, web search, cross-file retrieval, calculation, modeling, validation, translation, visualization, and reporting. Finch is sourced from authentic enterprise workspaces at Enron (15,000 spreadsheets and 500,000 emails from 150 employees) and other financial institutions, preserving in-the-wild messiness across multimodal artifacts (text, tables, formulas, charts, code, and images) and spanning diverse domains such as budgeting, trading, and asset management. We propose a workflow construction process that combines LLM-assisted discovery with expert annotation: (1) LLM-assisted, expert-verified derivation of workflows from real-world email threads and version histories of spreadsheet files, and (2) meticulous expert annotation for workflows, requiring over 700 hours of domain-expert effort. This yields 172 composite workflows with 384 tasks, involving 1,710 spreadsheets with 27 million cells, along with PDFs and other artifacts, capturing the intrinsically messy, long-horizon, knowledge-intensive, and collaborative nature of real-world enterprise work. We conduct both human and automated evaluations of frontier AI systems including GPT 5.1, Claude Sonnet 4.5, Gemini 3 Pro, Grok 4, and Qwen 3 Max, and GPT 5.1 Pro spends 48 hours in total yet passes only 38.4% of workflows, while Claude Sonnet 4.5 passes just 25.0%. Comprehensive case studies further surface the challenges that real-world enterprise workflows pose for AI agents.
- Abstract(参考訳): データ入力、構造化、フォーマット、Web検索、クロスファイル検索、計算、モデリング、バリデーション、翻訳、視覚化、レポートをインターリーブする。
フィンチは、エンロン(150人の従業員から15,000通のスプレッドシートと50,000通の電子メール)やその他の金融機関の真正の企業ワークスペースから派生しており、マルチモーダルなアーティファクト(テキスト、テーブル、公式、チャート、コード、画像)にまたがる混乱を防ぎ、予算、トレーディング、資産管理など多様な領域にまたがる。
本研究では, LLM 支援による発見と専門家アノテーションを組み合わせたワークフロー構築プロセスを提案する。(1) LLM 支援による, 現実の電子メールスレッドとスプレッドシートファイルのバージョン履歴からのワークフローのエキスパート検証, (2) 700時間以上のドメイン専門家の作業を要するワークフローの巧妙な専門家アノテーション。
これは384のタスクからなる172の複合ワークフローで、2700万のセルからなる1,710のスプレッドシートとPDFやその他のアーティファクトが含まれており、本質的な混乱、長い水平、知識集約、そして実世界のエンタープライズワークの協調的な性質を捉えている。
GPT 5.1、Claude Sonnet 4.5、Gemini 3 Pro、Grok 4、Qwen 3 MaxなどのフロンティアAIシステムの人的および自動評価を行う。
包括的なケーススタディは、現実のエンタープライズワークフローがAIエージェントにもたらす課題をさらに浮き彫りにする。
関連論文リスト
- The Tool Decathlon: Benchmarking Language Agents for Diverse, Realistic, and Long-Horizon Task Execution [86.4588675093384]
Toolathlonは、多様なアプリやツール、現実的な環境設定、信頼性の高い実行ベースの評価を提供する言語エージェントのベンチマークである。
このベンチマークには、手動でソースまたはクラフトされたタスクが108つ含まれており、平均20回以上にわたって複数のアプリと対話する必要がある。
Toolathlonは、より有能な言語エージェントを現実の長期タスク実行のために開発することを期待しています。
論文 参考訳(メタデータ) (2025-10-29T17:32:49Z) - WorkflowLLM: Enhancing Workflow Orchestration Capability of Large Language Models [105.46456444315693]
ワークフローオーケストレーションにおける大規模言語モデルの能力を高めるための,データ中心のフレームワークであるLLMを提案する。
最初は106,763のサンプルで大規模な微調整Benchを構築し、28のカテゴリにわたる83のアプリケーションから1,503のAPIをカバーしている。
LlamaLlamaは複雑なAPIをオーケストレーションする能力を示しながら、優れた一般化性能を実現している。
論文 参考訳(メタデータ) (2024-11-08T09:58:02Z) - Open-FinLLMs: Open Multimodal Large Language Models for Financial Applications [88.96861155804935]
オープンソースのマルチモーダル金融 LLM である textitOpen-FinLLMs を紹介する。
FinLLaMAは52ビリオンのトーケンコーパス、FinLLaMA-Instructは573Kの財務命令で微調整され、FinLLaVAは1.43Mのマルチモーダルチューニングペアで強化されている。
我々は、14の財務タスク、30のデータセット、および4つのマルチモーダルタスクにわたるOpen-FinLLMをゼロショット、少数ショット、教師付き微調整設定で評価した。
論文 参考訳(メタデータ) (2024-08-20T16:15:28Z) - Spider2-V: How Far Are Multimodal Agents From Automating Data Science and Engineering Workflows? [73.81908518992161]
我々は、プロのデータサイエンスとエンジニアリングに焦点を当てた最初のマルチモーダルエージェントベンチマークであるSpider2-Vを紹介する。
Spider2-Vは、本物のコンピュータ環境における現実世界のタスクを特徴とし、20のエンタープライズレベルのプロフェッショナルアプリケーションを組み込んでいる。
これらのタスクは、エンタープライズデータソフトウェアシステムにおいて、コードを書き、GUIを管理することで、マルチモーダルエージェントがデータ関連のタスクを実行する能力を評価する。
論文 参考訳(メタデータ) (2024-07-15T17:54:37Z) - Automating the Enterprise with Foundation Models [15.708380634503467]
ECLAIRは、最小限の人的監督でエンタープライズを自動化するシステムである。
オープンな課題として、人間とAIのコラボレーション、検証、自己改善を取り上げます。
論文 参考訳(メタデータ) (2024-05-03T23:25:15Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。