論文の概要: FinSheet-Bench: From Simple Lookups to Complex Reasoning, Where LLMs Break on Financial Spreadsheets
- arxiv url: http://arxiv.org/abs/2603.07316v1
- Date: Sat, 07 Mar 2026 19:27:34 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-03-10 15:13:14.289947
- Title: FinSheet-Bench: From Simple Lookups to Complex Reasoning, Where LLMs Break on Financial Spreadsheets
- Title(参考訳): FinSheet-Bench:シンプルなルックアップから複雑な推論へ。LLMが財務スプレッドシートを壊す
- Authors: Jan Ravnik, Matjaž Ličen, Felix Bührmann, Bithiah Yuan, Felix Stinson, Tanvi Singh,
- Abstract要約: FinSheet-Benchは、実際のプライベートエクイティファンド構造をモデルとした総合金融ポートフォリオデータのベンチマークである。
プロの金融アプリケーションで教師なしの使用に十分なエラー率を達成するスタンドアロンモデルは存在しない。
- 参考スコア(独自算出の注目度): 0.0
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: While Large Language Models (LLMs) can accelerate text-heavy tasks in alternative investment due diligence, a gap remains in their ability to accurately extract and reason over structured tabular data from complex financial spreadsheets. Progress is held back by the lack of real industry fund portfolio datasets for benchmarking, as private equity data rooms are confidential. To address this, we introduce FinSheet-Bench, a benchmark of synthetic financial portfolio data modeled on real private equity fund structures, designed to evaluate LLM performance on text-serialized spreadsheet question answering and numeric reasoning tasks. Our evaluation of ten model configurations from OpenAI, Google, and Anthropic on financial spreadsheets, including complex layouts, fund dividers, and multi-line column names, reveals that no standalone model achieves error rates low enough for unsupervised use in professional finance applications. The best-performing model, Gemini 3.1 Pro, achieves 82.4% accuracy across twenty-four evaluation files of varying complexity and structural layout (approximately 1 error per 6 questions), followed by GPT-5.2 with reasoning at 80.4%, Claude Opus 4.6 with thinking at 80.2%, and Gemini 3 Pro at 80.2%. Performance degrades substantially on larger, more complex spreadsheets: the largest spreadsheet (152 companies, 8 funds) yields an average accuracy of just 48.6% across all models, compared to 86.2% on the easiest evaluation file. These difficulty patterns are consistent across all ten models, indicating that they reflect LLM limitations rather than idiosyncratic model weaknesses. Reliable financial spreadsheet extraction will likely require architectural approaches that separate document understanding from deterministic computation.
- Abstract(参考訳): LLM(Large Language Models)は、代替投資による代替投資において、テキストを多用するタスクを加速させることができるが、複雑な金融スプレッドシートから構造化表データを正確に抽出し、推論する能力のギャップは依然として残っている。
プライベートエクイティ(PE)データルームが機密であることから、ベンチマークのためのリアル業界ファンドのポートフォリオデータセットが欠如していることが、進展を支えている。
そこで本研究では,テキストシリアライズされたスプレッドシート質問応答と数値推論タスクに基づいて,LLMのパフォーマンスを評価するために設計された,実際のプライベートエクイティファンド構造をモデルとした総合金融ポートフォリオデータのベンチマークであるFinSheet-Benchを紹介する。
OpenAI, Google, Anthropicの10種類のモデル構成を, 複雑なレイアウト, ファンド分割器, 複数行列名を含む金融スプレッドシート上で評価した結果, プロの金融アプリケーションにおいて, 教師なしの使用に十分なエラー率を達成するスタンドアロンモデルが存在しないことが明らかになった。
最高のパフォーマンスモデルであるGemini 3.1 Proは、複雑さと構造的レイアウトの異なる24の評価ファイルに対して82.4%の精度を達成し(約6問につき1エラー)、GPT-5.2は80.4%、Claude Opus 4.6は80.2%、Gemini 3 Proは80.2%である。
最大のスプレッドシート(152社、8ファンド)は全てのモデルの平均精度が48.6%であり、最も簡単な評価ファイルでは86.2%である。
これらの困難パターンは10モデルすべてに一貫しており、慣用的なモデルの弱点よりもLCMの制限を反映していることを示している。
信頼性の高い財務スプレッドシート抽出には、決定論的計算から文書理解を分離するアーキテクチャアプローチが必要になるだろう。
関連論文リスト
- When Tables Go Crazy: Evaluating Multimodal Models on French Financial Documents [3.4992819560032267]
視覚言語モデル(VLM)は、多くの文書理解タスクでよく機能するが、専門の非英語領域での信頼性は未定である。
本稿では、フランスの財務文書理解を評価するための最初のマルチモーダルベンチマークであるMultimodal Finance Evalを紹介する。
データセットには、テキスト抽出、テーブル理解、チャート解釈、マルチターン会話推論にまたがる1,204のエキスパート検証された質問が含まれている。
論文 参考訳(メタデータ) (2026-02-11T00:04:56Z) - XFinBench: Benchmarking LLMs in Complex Financial Problem Solving and Reasoning [28.967959142733903]
金融問題の解決における大規模言語モデルの能力を評価するための新しいベンチマークであるXFinBenchを紹介する。
O1は67.3%の精度で最高性能のテキストのみのモデルであるが、それでも12.5%の人間専門家にはかなり遅れている。
我々は,知識増強分析のための3,032の財務用語を持つ知識銀行を構築し,関連する知識が小さなオープンソースモデルに一貫した精度の向上をもたらすことを発見した。
論文 参考訳(メタデータ) (2025-08-20T15:23:35Z) - Fine-Tuning Vision-Language Models for Markdown Conversion of Financial Tables in Malaysian Audited Financial Reports [0.0]
本稿ではQwen2.5-VL-7Bに基づく微調整視覚言語モデル(VLM)を提案する。
提案手法には,拡大した2,152枚の画像テキストペアをキュレートしたデータセットと,LoRAを用いた教師付き微調整戦略が含まれる。
基準に基づく評価では92.20%の精度と96.53%のTEDSスコアが得られた。
論文 参考訳(メタデータ) (2025-08-04T04:54:00Z) - FinTagging: Benchmarking LLMs for Extracting and Structuring Financial Information [47.37027539828975]
FinTaggingは構造認識とフルスコープのための最初の包括的なベンチマークである。
タグ付け
数値識別用FinNIは、数値エンティティとそのタイプを抽出する。
財務報告
概念リンクのためのFinCLは、抽出された各実体を米国の完全な分類学における対応する概念にマッピングする。
論文 参考訳(メタデータ) (2025-05-27T02:55:53Z) - BizFinBench: A Business-Driven Real-World Financial Benchmark for Evaluating LLMs [7.9458352414205295]
大規模な言語モデルは一般的なタスクでは優れていますが、ロジック重大で精度の高い、財務、法律、医療といった重要な領域での信頼性の評価は依然として難しいままです。
BizFinBenchは、実世界の金融アプリケーションにおけるLSMの評価に特化して設計された最初のベンチマークである。
BizFinBenchは中国語で6,781の注釈付きクエリで構成されており、数値計算、推論、情報抽出、予測認識、知識に基づく質問応答の5つの次元にまたがっている。
論文 参考訳(メタデータ) (2025-05-26T03:23:02Z) - Open-FinLLMs: Open Multimodal Large Language Models for Financial Applications [88.96861155804935]
オープンソースのマルチモーダル金融 LLM である textitOpen-FinLLMs を紹介する。
FinLLaMAは52ビリオンのトーケンコーパス、FinLLaMA-Instructは573Kの財務命令で微調整され、FinLLaVAは1.43Mのマルチモーダルチューニングペアで強化されている。
我々は、14の財務タスク、30のデータセット、および4つのマルチモーダルタスクにわたるOpen-FinLLMをゼロショット、少数ショット、教師付き微調整設定で評価した。
論文 参考訳(メタデータ) (2024-08-20T16:15:28Z) - FinBen: A Holistic Financial Benchmark for Large Language Models [75.09474986283394]
FinBenは、24の財務タスクにまたがる36のデータセットを含む、最初の大規模なオープンソース評価ベンチマークである。
FinBenは、幅広いタスクとデータセット、ストックトレーディングの最初の評価、新しいエージェントと検索可能な生成(RAG)の評価、およびテキスト要約、質問応答、株式トレーディングのための3つの新しいオープンソース評価データセットを提供する。
論文 参考訳(メタデータ) (2024-02-20T02:16:16Z) - PIXIU: A Large Language Model, Instruction Data and Evaluation Benchmark
for Finance [63.51545277822702]
PIXIUは、命令データ付き微調整LLaMAに基づく最初の金融大規模言語モデル(LLM)を含む包括的なフレームワークである。
我々はLLaMAを細調整してFinMAを提案する。
我々は、FinMAと既存のLLMを詳細に分析し、重要な財政課題に対処する際の長所と短所を明らかにする。
論文 参考訳(メタデータ) (2023-06-08T14:20:29Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。