論文の概要: FinCriticalED: A Visual Benchmark for Financial Fact-Level OCR Evaluation
- arxiv url: http://arxiv.org/abs/2511.14998v1
- Date: Wed, 19 Nov 2025 00:41:14 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-11-20 15:51:28.572978
- Title: FinCriticalED: A Visual Benchmark for Financial Fact-Level OCR Evaluation
- Title(参考訳): FinCriticalED:財務Fact-Level OCR評価のためのビジュアルベンチマーク
- Authors: Yueru He, Xueqing Peng, Yupeng Cao, Yan Wang, Lingfei Qian, Haohang Li, Yi Han, Ruoyu Xiang, Mingquan Lin, Prayag Tiwari, Jimin Huang, Guojun Xiong, Sophia Ananiadou,
- Abstract要約: FinCriticalEDは、財務文書のOCRおよびビジョン言語モデルを評価するためのビジュアルベンチマークである。
FinCriticalEDは500のイメージとHTMLのペアを提供し、700以上の数値と時間的事実をカバーする、専門家の注釈付き財務事実を提供する。
- 参考スコア(独自算出の注目度): 45.16693985619424
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: We introduce FinCriticalED (Financial Critical Error Detection), a visual benchmark for evaluating OCR and vision language models on financial documents at the fact level. Financial documents contain visually dense and table heavy layouts where numerical and temporal information is tightly coupled with structure. In high stakes settings, small OCR mistakes such as sign inversion or shifted dates can lead to materially different interpretations, while traditional OCR metrics like ROUGE and edit distance capture only surface level text similarity. \ficriticaled provides 500 image-HTML pairs with expert annotated financial facts covering over seven hundred numerical and temporal facts. It introduces three key contributions. First, it establishes the first fact level evaluation benchmark for financial document understanding, shifting evaluation from lexical overlap to domain critical factual correctness. Second, all annotations are created and verified by financial experts with strict quality control over signs, magnitudes, and temporal expressions. Third, we develop an LLM-as-Judge evaluation pipeline that performs structured fact extraction and contextual verification for visually complex financial documents. We benchmark OCR systems, open source vision language models, and proprietary models on FinCriticalED. Results show that although the strongest proprietary models achieve the highest factual accuracy, substantial errors remain in visually intricate numerical and temporal contexts. Through quantitative evaluation and expert case studies, FinCriticalED provides a rigorous foundation for advancing visual factual precision in financial and other precision critical domains.
- Abstract(参考訳): 我々は,OCRおよび視覚言語モデルを評価するための視覚的ベンチマークであるFinCriticalED (Financial critical Error Detection) を紹介した。
財務文書には、数値情報と時間情報が構造と密結合された、視覚的に密集したテーブル重レイアウトが含まれている。
高利得設定では、符号反転やシフト日付などの小さなOCRミスが、ROUGEや編集距離のような従来のOCRメトリクスは、表面レベルのテキスト類似性のみをキャプチャする。
\fi criticaledは500の画像とHTMLのペアを提供し、700以上の数値と時間的事実をカバーする、専門家の注釈付き財務事実を提供する。
主な貢献は3つある。
まず、金融文書理解のための最初のファクトレベル評価ベンチマークを確立し、語彙重なりからドメインクリティカルな事実的正確性へ評価をシフトさせる。
第二に、すべてのアノテーションは、記号、大きさ、時間表現を厳格に制御した財務の専門家によって作成され、検証される。
第3に,視覚的に複雑な財務文書に対する構造化事実抽出と文脈検証を行うLCM-as-Judge評価パイプラインを開発する。
我々は、OCRシステム、オープンソースのビジョン言語モデル、FinCriticalEDのプロプライエタリモデルについてベンチマークする。
その結果、最強のプロプライエタリモデルが最も精度が高いものの、視覚的に複雑な数値と時間的文脈でかなりの誤差が残っていることがわかった。
定量的評価と専門ケーススタディを通じて、FinCriticalEDは、財務や他の精度クリティカルドメインにおける視覚的事実的正確性を促進するための厳密な基盤を提供する。
関連論文リスト
- FinAuditing: A Financial Taxonomy-Structured Multi-Document Benchmark for Evaluating LLMs [40.216867348210265]
FinAuditingは、財務監査タスクを評価するための最初の分類基準であり、構造を意識したマルチドキュメントのベンチマークである。
本物のアメリカ製である。
FinAuditingは3つの補完的なサブタスク、セマンティック一貫性のためのFinSM、リレーショナル一貫性のためのFinRE、数値一貫性のためのFinMRを定義している。
13の最先端のLCMに関する大規模なゼロショット実験は、現在のモデルが意味論、関係論、数学的次元で矛盾なく機能することを明らかにする。
論文 参考訳(メタデータ) (2025-10-10T00:41:55Z) - FinLFQA: Evaluating Attributed Text Generation of LLMs in Financial Long-Form Question Answering [57.43420753842626]
FinLFQAは、複雑な財務問題に対する長文の回答を生成するための大規模言語モデルの能力を評価するために設計されたベンチマークである。
回答品質と属性品質の両方をカバーする自動評価フレームワークを提供する。
論文 参考訳(メタデータ) (2025-10-07T20:06:15Z) - FinAgentBench: A Benchmark Dataset for Agentic Retrieval in Financial Question Answering [57.18367828883773]
FinAgentBenchは、ファイナンスにおける多段階推論によるエージェント検索を評価するためのベンチマークである。
このベンチマークは、S&P-500上場企業に関する26Kのエキスパートアノテート例から成っている。
我々は,最先端モデルの集合を評価し,対象の微調整がエージェント検索性能を大幅に向上することを示す。
論文 参考訳(メタデータ) (2025-08-07T22:15:22Z) - FAITH: A Framework for Assessing Intrinsic Tabular Hallucinations in Finance [3.565466729914703]
金融に大規模言語モデル(LLM)をデプロイする上で、幻覚は依然として重要な課題である。
金融LLMにおける内因性幻覚を評価するための厳密でスケーラブルなフレームワークを開発する。
私たちの仕事は、より信頼性が高く信頼性の高い財務生成AIシステムを構築するための重要なステップとして役立ちます。
論文 参考訳(メタデータ) (2025-08-07T09:37:14Z) - FinDER: Financial Dataset for Question Answering and Evaluating Retrieval-Augmented Generation [65.04104723843264]
ファイナンスにおけるRetrieval-Augmented Generation(RAG)に適したエキスパート生成データセットであるFinDERを提案する。
FinDERは、ドメインの専門家による検索関連証拠の注釈付けに重点を置いており、5,703のクエリ・エビデンス・アンサー・トリプルを提供している。
大きなコーパスから関連する情報を取得するためにモデルに挑戦することで、FinDERはRAGシステムを評価するためのより現実的なベンチマークを提供する。
論文 参考訳(メタデータ) (2025-04-22T11:30:13Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。