論文の概要: A Multistage Extraction Pipeline for Long Scanned Financial Documents: An Empirical Study in Industrial KYC Workflows
- arxiv url: http://arxiv.org/abs/2604.26462v1
- Date: Wed, 29 Apr 2026 09:19:16 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-04-30 15:59:36.329275
- Title: A Multistage Extraction Pipeline for Long Scanned Financial Documents: An Empirical Study in Industrial KYC Workflows
- Title(参考訳): 長期にわたる財務文書の多段階抽出パイプライン--産業用KYCワークフローにおける実証的研究
- Authors: Yuxuan Han, Yuanxing Zhang, Yushuo Wang, Yichao Jin, Kenneth Zhu Ke, Jingyuan Zhao,
- Abstract要約: 本稿では,画像前処理,多言語OCR,ハイブリッドページレベルの検索,VLMに基づく構造化抽出を統合した多段階抽出フレームワークを提案する。
提案したパイプラインはPDF-to-VLMベースラインを一貫して上回り、フィールドレベルの精度を最大31.9%向上させた。
- 参考スコア(独自算出の注目度): 12.24651956963792
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Structured information extraction from long, multilingual scanned financial documents is a core requirement in industrial KYC and compliance workflows. These documents are typically non machine readable, noisy, and visually heterogeneous. They usually span dozens of pages while containing only sparse task relevant information. Although recent vision-language models achieve strong benchmark performance, directly applying them end to end to full financial reports often leads to unreliable extraction under real world conditions. We present a multistage extraction framework that integrates image preprocessing, multilingual OCR, hybrid page-level retrieval, and compact VLM-based structured extraction. The design separates page localization from multimodal reasoning, enabling more accurate extraction from complex multipage documents. We evaluated the framework on 120 production KYC documents comprising about 3000 multilingual scanned pages. Across multiple OCR-VLM combinations, the proposed pipeline consistently outperforms direct PDF-to-VLM baselines, improving field-level accuracy by up to 31.9 percentage points. The best configuration, PaddleOCR with MiniCPM2.6, achieves 87.27 percent accuracy. Ablation studies show that page-level retrieval is the dominant factor in performance improvements, particularly for complex financial statements and non-English documents.
- Abstract(参考訳): 長い多言語でスキャンされた財務文書から構造化された情報を抽出することは、産業用KYCおよびコンプライアンスワークフローにおける中核的な要件である。
これらの文書は一般に機械で読めない、うるさい、視覚的に不均一である。
通常は数十ページに及ぶが、細かなタスクに関連する情報しか含まない。
最近のビジョン言語モデルは強力なベンチマーク性能を達成しているが、直接エンドツーエンドのファイナンシャルレポートを適用すると、現実の状況下での信頼性の低い抽出につながることが多い。
本稿では,画像前処理,多言語OCR,ハイブリッドページレベルの検索,VLMに基づく構造化抽出を統合した多段階抽出フレームワークを提案する。
この設計はページローカライゼーションをマルチモーダル推論から分離し、複雑なマルチページ文書からより正確な抽出を可能にする。
約3000の多言語スキャンページからなる120個のKYC文書を作成した。
複数のOCR-VLMの組み合わせで提案されたパイプラインは、PDF-to-VLMベースラインを一貫して上回り、フィールドレベルの精度を最大31.9ポイント向上させた。
最も優れた構成は、MiniCPM2.6のPaddleOCRで、精度は87.7%である。
アブレーション研究は、特に複雑な財務諸表や非英語文書において、ページレベルの検索がパフォーマンス改善の主要な要因であることを示している。
関連論文リスト
- Towards Real-World Document Parsing via Realistic Scene Synthesis and Document-Aware Training [23.87978106727431]
本稿では、堅牢なエンドツーエンド文書解析のためのデータ学習協調設計フレームワークを提案する。
本手法は,スキャン・デジタル・実世界の両方のシナリオにおいて,精度とロバスト性を向上する。
論文 参考訳(メタデータ) (2026-03-25T03:19:09Z) - Training-Free Acceleration for Document Parsing Vision-Language Model with Hierarchical Speculative Decoding [102.88996030431662]
本稿では,文書解析タスクの学習自由かつ高効率な高速化手法を提案する。
投機的復号化にインスパイアされた私たちは、将来のトークンのバッチを予測するために、ドラフトモデルとして軽量な文書解析パイプラインを使用します。
汎用OmniDocBenchに対するアプローチの有効性を示す。
論文 参考訳(メタデータ) (2026-02-13T14:22:10Z) - Multi-Stage Field Extraction of Financial Documents with OCR and Compact Vision-Language Models [2.6300820904868263]
金融文書は、規制当局、監査官、金融機関にとって重要な情報源である。
これらの文書は異質であり、同じレポートの中で物語、表、図形、多言語の内容が混在する傾向がある。
本稿では,従来の画像処理モデルとOCR抽出を利用するマルチステージパイプラインと,構造化されたフィールド抽出のためのコンパクトなVLMを提案する。
論文 参考訳(メタデータ) (2025-10-27T06:56:08Z) - Hybrid OCR-LLM Framework for Enterprise-Scale Document Information Extraction Under Copy-heavy Task [11.672798725644121]
この作業は、OCRエンジンとLLM(Large Language Models)を戦略的に組み合わせて、反復的な文書抽出タスクに固有の正確性と効率のトレードオフを最適化する。
3つの抽出パラダイム(ダイレクト、リプレース、テーブルベース)にまたがる25のコンフィギュレーションを、4つのフォーマットにまたがるIDドキュメント上で実装し、評価する。
論文 参考訳(メタデータ) (2025-10-11T09:40:34Z) - UNIDOC-BENCH: A Unified Benchmark for Document-Centric Multimodal RAG [82.84014669683863]
マルチモーダル検索拡張生成(MM-RAG)は,大規模言語モデルを現実世界の知識ベースに適用するための重要なアプローチである。
UniDoc-Benchは、70万の現実世界のPDFページから構築されたMM-RAGのための最初の大規模で現実的なベンチマークである。
実験により,マルチモーダルテキスト画像融合RAGシステムは,非モーダルおよび共同マルチモーダル埋め込みに基づく検索において一貫して優れていた。
論文 参考訳(メタデータ) (2025-10-04T04:30:13Z) - Zero-shot Multimodal Document Retrieval via Cross-modal Question Generation [47.714317480436215]
PreMIRはMLLMの幅広い知識を活用して、検索前にクロスモーダルな事前質問(preQ)を生成するシンプルなフレームワークである。
実験により、PreMIRは、クローズドドメインやマルチリンガル設定など、分散ベンチマークから得られるアートパフォーマンスの状態を達成している。
論文 参考訳(メタデータ) (2025-08-23T16:14:41Z) - MMESGBench: Pioneering Multimodal Understanding and Complex Reasoning Benchmark for ESG Tasks [56.350173737493215]
環境・社会・ガバナンス(ESG)報告は、持続可能性の実践の評価、規制コンプライアンスの確保、財務透明性の促進に不可欠である。
MMESGBenchは、マルチモーダル理解と複雑な推論を、構造的に多種多様なマルチソースESG文書間で評価するための、最初のベンチマークデータセットである。
MMESGBenchは、45のESG文書から得られた933の検証済みQAペアで構成され、7つの異なるドキュメントタイプと3つの主要なESGソースカテゴリにまたがる。
論文 参考訳(メタデータ) (2025-07-25T03:58:07Z) - PDF-WuKong: A Large Multimodal Model for Efficient Long PDF Reading with End-to-End Sparse Sampling [63.93112754821312]
マルチモーダル文書理解は,大量のテキスト情報や視覚情報を処理し,理解するための課題である。
大規模言語モデル(LLM)の最近の進歩は、このタスクの性能を大幅に改善した。
長いPDF文書に対する多モーダル質問回答(QA)を強化するために設計された多モーダル大言語モデル(MLLM)であるPDF-WuKongを紹介する。
論文 参考訳(メタデータ) (2024-10-08T12:17:42Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。