論文の概要: Multi-Stage Field Extraction of Financial Documents with OCR and Compact Vision-Language Models
- arxiv url: http://arxiv.org/abs/2510.23066v1
- Date: Mon, 27 Oct 2025 06:56:08 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-10-28 15:28:15.481644
- Title: Multi-Stage Field Extraction of Financial Documents with OCR and Compact Vision-Language Models
- Title(参考訳): OCRとコンパクトビジョンランゲージモデルを用いた財務文書の多段階抽出
- Authors: Yichao Jin, Yushuo Wang, Qishuai Zhong, Kent Chiu Jin-Chun, Kenneth Zhu Ke, Donald MacDonald,
- Abstract要約: 金融文書は、規制当局、監査官、金融機関にとって重要な情報源である。
これらの文書は異質であり、同じレポートの中で物語、表、図形、多言語の内容が混在する傾向がある。
本稿では,従来の画像処理モデルとOCR抽出を利用するマルチステージパイプラインと,構造化されたフィールド抽出のためのコンパクトなVLMを提案する。
- 参考スコア(独自算出の注目度): 2.6300820904868263
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Financial documents are essential sources of information for regulators, auditors, and financial institutions, particularly for assessing the wealth and compliance of Small and Medium-sized Businesses. However, SMB documents are often difficult to parse. They are rarely born digital and instead are distributed as scanned images that are none machine readable. The scans themselves are low in resolution, affected by skew or rotation, and often contain noisy backgrounds. These documents also tend to be heterogeneous, mixing narratives, tables, figures, and multilingual content within the same report. Such characteristics pose major challenges for automated information extraction, especially when relying on end to end large Vision Language Models, which are computationally expensive, sensitive to noise, and slow when applied to files with hundreds of pages. We propose a multistage pipeline that leverages traditional image processing models and OCR extraction, together with compact VLMs for structured field extraction of large-scale financial documents. Our approach begins with image pre-processing, including segmentation, orientation detection, and size normalization. Multilingual OCR is then applied to recover page-level text. Upon analyzing the text information, pages are retrieved for coherent sections. Finally, compact VLMs are operated within these narrowed-down scopes to extract structured financial indicators. Our approach is evaluated using an internal corpus of multi-lingual, scanned financial documents. The results demonstrate that compact VLMs, together with a multistage pipeline, achieves 8.8 times higher field level accuracy relative to directly feeding the whole document into large VLMs, only at 0.7 percent of the GPU cost and 92.6 percent less end-to-end service latency.
- Abstract(参考訳): 金融文書は、規制当局、監査官、金融機関、特に中小企業の富とコンプライアンスを評価するための重要な情報源である。
しかし、SMB文書を解析することはしばしば困難である。
デジタル化されることはめったになく、スキャン画像として配布され、機械で読めない。
スキャン自体の解像度は低く、スキューやローテーションの影響を受け、しばしばノイズの多い背景を含んでいる。
これらの文書は異質であり、同じレポートの中で物語、表、図形、多言語の内容が混在する傾向がある。
このような特徴は、特にエンドツーエンドの大規模ビジョン言語モデルに依存している場合、特に数百ページのファイルに適用した場合、計算コストが高く、ノイズに敏感で遅い場合において、自動情報抽出に大きな課題を生じさせる。
本稿では,従来の画像処理モデルとOCR抽出を利用するマルチステージパイプラインと,大規模財務文書の構造化フィールド抽出のためのコンパクトなVLMを提案する。
我々のアプローチは、セグメンテーション、方向検出、サイズ正規化を含む画像前処理から始まります。
次に、多言語OCRを適用してページレベルのテキストを復元する。
テキスト情報を解析すると、コヒーレントなセクションのためにページが検索される。
最後に、これらの狭められた範囲内でコンパクトなVLMを動作させ、構造化された財務指標を抽出する。
本手法は多言語・スキャンされた財務文書の内部コーパスを用いて評価する。
その結果、コンパクトなVLMとマルチステージパイプラインは、ドキュメント全体を大きなVLMに直接供給するよりも8.8倍高いフィールドレベルの精度を実現している。
関連論文リスト
- Scaling Beyond Context: A Survey of Multimodal Retrieval-Augmented Generation for Document Understanding [61.36285696607487]
文書理解は、財務分析から科学的発見への応用に不可欠である。
現在のアプローチでは、OCRベースのパイプラインがLarge Language Models(LLM)やネイティブのMultimodal LLMs(MLLM)に制限されている。
Retrieval-Augmented Generation (RAG)は、外部データの基底モデルを支援するが、文書のマルチモーダルな性質は、テキスト、テーブル、チャート、レイアウトを組み合わせることで、より高度なパラダイムを必要とする。
論文 参考訳(メタデータ) (2025-10-17T02:33:16Z) - Digitization of Document and Information Extraction using OCR [0.0]
本論文は,光学文字認識(OCR)技術とLarge Language Models(LLM)を融合したテキスト抽出フレームワークを提案する。
スキャンされたファイルはOCRエンジンで処理され、デジタルファイルはレイアウト対応のライブラリを通して解釈される。
そして、抽出した原文をLLMで解析して、キー値対を特定し、あいまいさを解消する。
論文 参考訳(メタデータ) (2025-06-11T16:03:01Z) - CC-OCR: A Comprehensive and Challenging OCR Benchmark for Evaluating Large Multimodal Models in Literacy [50.78228433498211]
CC-OCRは、マルチシーンテキスト読取、多言語テキスト読取、文書解析、キー情報抽出の4つのOCR中心のトラックで構成されている。
39のサブセットと7,058のフルアノテートされたイメージが含まれており、そのうち41%が実際のアプリケーションからソースされ、初めてリリースされた。
我々は9つの顕著なLMMを評価し、これらのモデルの長所と短所、特にテキストの接地、多目的化、繰り返しの幻覚について明らかにした。
論文 参考訳(メタデータ) (2024-12-03T07:03:25Z) - PDF-WuKong: A Large Multimodal Model for Efficient Long PDF Reading with End-to-End Sparse Sampling [63.93112754821312]
マルチモーダル文書理解は,大量のテキスト情報や視覚情報を処理し,理解するための課題である。
大規模言語モデル(LLM)の最近の進歩は、このタスクの性能を大幅に改善した。
長いPDF文書に対する多モーダル質問回答(QA)を強化するために設計された多モーダル大言語モデル(MLLM)であるPDF-WuKongを紹介する。
論文 参考訳(メタデータ) (2024-10-08T12:17:42Z) - Arctic-TILT. Business Document Understanding at Sub-Billion Scale [1.2286461468814107]
これらのユースケースで1000$times=そのサイズに匹敵する精度を実現したArctic-TILTを導入する。
単一の24GB GPU上で微調整およびデプロイが可能で、最大400kのトークンでVisually Rich Documentsを処理しながら、運用コストを削減できる。
このモデルは、7つの異なる理解ドキュメントベンチマークの最先端結果を確立し、信頼性の高い信頼性スコアと迅速な推論を提供する。
論文 参考訳(メタデータ) (2024-08-08T17:59:46Z) - Drilling Down into the Discourse Structure with LLMs for Long Document
Question Answering [5.022057415488129]
本稿では,文書に共通する談話構造を利用した一組の手法を提案する。
複雑なマルチホップ質問応答において,我々のアプローチをテキスト自己認識推論エージェントと組み合わせて,最高のゼロショット性能を実現する方法を示す。
論文 参考訳(メタデータ) (2023-11-22T18:22:56Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。