論文の概要: Document-Level Numerical Reasoning across Single and Multiple Tables in Financial Reports
- arxiv url: http://arxiv.org/abs/2604.03664v1
- Date: Sat, 04 Apr 2026 09:30:59 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-04-07 15:49:18.708174
- Title: Document-Level Numerical Reasoning across Single and Multiple Tables in Financial Reports
- Title(参考訳): 財務報告における単表・複数表間の文書レベル数値推論
- Authors: Yi-Cheng Wang, Wei-An Wang, Chu-Song Chen,
- Abstract要約: FinLongDocQAは、ロングコンテキストレポートにおいて、シングルテーブルとクロステーブルの両方の財務数値推論のためのデータセットである。
本論文では, 繰り返し証拠を検索し, 中間計算を行い, ラウンドごとの結果を検証する多言語多言語検索型生成であるFinLongDocAgentを提案する。
- 参考スコア(独自算出の注目度): 18.557627180602164
- License: http://creativecommons.org/licenses/by-nc-sa/4.0/
- Abstract: Despite the strong language understanding abilities of large language models (LLMs), they still struggle with reliable question answering (QA) over long, structured documents, particularly for numerical reasoning. Financial annual reports exemplify this difficulty: financial statement analysis often hinges on accurate arithmetic, and analysts derive key indicators by integrating evidence scattered across multiple tables and narrative text. However, existing benchmarks focus largely on single-table settings, leaving cross-table document-level numerical reasoning underexplored. To address this gap, we introduce FinLongDocQA, a dataset for both single-table and cross-table financial numerical reasoning in long-context reports. Evaluating both closed-source and open-source LLMs on FinLongDocQA reveals two bottlenecks: (1) annual reports often exceed 129k tokens, exacerbating the context rot problem for locating relevant tables; and (2) even when relevant evidence is located, LLMs remain prone to errors in multi-step numerical reasoning. We propose FinLongDocAgent, a Multi-Agent Multi-Round Retrieval-Augmented Generation (RAG) approach that iteratively retrieves evidence, performs intermediate calculations, and verifies results across rounds. Experiments highlight the importance of iterative retrieval and verification for reliable numerical QA in long financial documents.
- Abstract(参考訳): 大きな言語モデル(LLM)の言語理解能力は高いが、特に数値推論において、長く構造化された文書に対して信頼性の高い質問応答(QA)に苦慮している。
ファイナンシャル・ステートメント・アナリティクスはしばしば正確な算術に基づいており、アナリストは複数の表や物語のテキストに散在する証拠を統合することで重要な指標を導出する。
しかし、既存のベンチマークは主にシングルテーブルの設定に焦点を当てており、クロステーブルの文書レベルの数値推論は未定のままである。
このギャップに対処するため,FinLongDocQAを紹介した。
FinLongDocQA上でのクローズドソースとオープンソース両方のLLMの評価は、(1) 年次レポートが129k のトークンを超えること、2) 関連するテーブルの配置に関するコンテキストロート問題を悪化させること、(2) 関連する証拠がある場合でも、LLMは多段階の数値推論におけるエラーの傾向にある、という2つのボトルネックを明らかにしている。
本論文では, 繰り返し証拠を検索し, 中間計算を行い, ラウンドごとの結果を検証する, マルチエージェント・マルチルート検索・拡張生成(RAG)手法であるFinLongDocAgentを提案する。
実験は、長期財務文書における信頼性数値QAの反復的検索と検証の重要性を強調した。
関連論文リスト
- Fin-RATE: A Real-world Financial Analytics and Tracking Evaluation Benchmark for LLMs on SEC Filings [31.87459935714186]
Fin-RATE(フィン・ラテ)は、米国証券取引委員会(SEC)の申請書類と財務アナリストを反映したベンチマークである。
我々は、オープンソース、クローズドソース、金融特化モデルにまたがって、Large Language Models(LLM)をリードする17のベンチマークを行った。
その結果、タスクが単一文書推論から縦断的、横断的分析へ移行するにつれて、精度が18.60%低下し、14.35%低下した。
論文 参考訳(メタデータ) (2026-02-07T00:54:37Z) - Structure First, Reason Next: Enhancing a Large Language Model using Knowledge Graph for Numerical Reasoning in Financial Documents [0.21485350418225244]
大規模言語モデル(LLM)は、複数のQ-Aシステムにおいて有望な結果を示している。
知識グラフ(KG)のような構造化データ拡張は、LSMの予測を著しく改善した。
本稿では,KGを用いた構造化情報と,数値推論タスクのためのLLM予測を併用するフレームワークを提案する。
論文 参考訳(メタデータ) (2026-01-12T17:39:08Z) - Scaling Beyond Context: A Survey of Multimodal Retrieval-Augmented Generation for Document Understanding [61.36285696607487]
文書理解は、財務分析から科学的発見への応用に不可欠である。
現在のアプローチでは、OCRベースのパイプラインがLarge Language Models(LLM)やネイティブのMultimodal LLMs(MLLM)に制限されている。
Retrieval-Augmented Generation (RAG)は、外部データの基底モデルを支援するが、文書のマルチモーダルな性質は、テキスト、テーブル、チャート、レイアウトを組み合わせることで、より高度なパラダイムを必要とする。
論文 参考訳(メタデータ) (2025-10-17T02:33:16Z) - FinLFQA: Evaluating Attributed Text Generation of LLMs in Financial Long-Form Question Answering [57.43420753842626]
FinLFQAは、複雑な財務問題に対する長文の回答を生成するための大規模言語モデルの能力を評価するために設計されたベンチマークである。
回答品質と属性品質の両方をカバーする自動評価フレームワークを提供する。
論文 参考訳(メタデータ) (2025-10-07T20:06:15Z) - FinAgentBench: A Benchmark Dataset for Agentic Retrieval in Financial Question Answering [57.18367828883773]
FinAgentBenchは、ファイナンスにおける多段階推論によるエージェント検索を評価するためのベンチマークである。
このベンチマークは、S&P-500上場企業に関する26Kのエキスパートアノテート例から成っている。
我々は,最先端モデルの集合を評価し,対象の微調整がエージェント検索性能を大幅に向上することを示す。
論文 参考訳(メタデータ) (2025-08-07T22:15:22Z) - MultiFinBen: Benchmarking Large Language Models for Multilingual and Multimodal Financial Application [118.63802040274999]
MultiFinBen は、現実的な財務状況下で LLM を評価するための、最初のエキスパートアノテーション付き多言語(5言語)およびマルチモーダルベンチマークである。
財務理由付けテストは、書類やニュースと統合された言語間のエビデンスと、スキャンされた文書から構造化されたテキストを抽出する財務OCRである。
21個のLLMを評価したところ、GPT-4oのようなフロンティアのマルチモーダルモデルでさえ、視力とオーディオが強く、多言語設定では急激に低下するが、全体の46.01%しか達成していないことが示されている。
論文 参考訳(メタデータ) (2025-06-16T22:01:49Z) - SEC-QA: A Systematic Evaluation Corpus for Financial QA [12.279234447220155]
既存のデータセットは、多くの場合、サイズ、コンテキスト、実用的なアプリケーションとの関連性によって制約される。
2つの重要な特徴を持つ継続的データセット生成フレームワークであるSEC-QAを提案する。
本稿では,複雑な情報検索と定量的推論パイプラインの実行能力を向上させるプログラム・オブ・思想に基づくQAシステムを提案する。
論文 参考訳(メタデータ) (2024-06-20T15:12:41Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。