論文の概要: Hybrid OCR-LLM Framework for Enterprise-Scale Document Information Extraction Under Copy-heavy Task
- arxiv url: http://arxiv.org/abs/2510.10138v1
- Date: Sat, 11 Oct 2025 09:40:34 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-10-14 18:06:29.803971
- Title: Hybrid OCR-LLM Framework for Enterprise-Scale Document Information Extraction Under Copy-heavy Task
- Title(参考訳): コピーヘビータスク下でのエンタープライズ規模の文書情報抽出のためのハイブリッドOCR-LLMフレームワーク
- Authors: Zilong Wang, Xiaoyu Shen,
- Abstract要約: この作業は、OCRエンジンとLLM(Large Language Models)を戦略的に組み合わせて、反復的な文書抽出タスクに固有の正確性と効率のトレードオフを最適化する。
3つの抽出パラダイム(ダイレクト、リプレース、テーブルベース)にまたがる25のコンフィギュレーションを、4つのフォーマットにまたがるIDドキュメント上で実装し、評価する。
- 参考スコア(独自算出の注目度): 11.672798725644121
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Information extraction from copy-heavy documents, characterized by massive volumes of structurally similar content, represents a critical yet understudied challenge in enterprise document processing. We present a systematic framework that strategically combines OCR engines with Large Language Models (LLMs) to optimize the accuracy-efficiency trade-off inherent in repetitive document extraction tasks. Unlike existing approaches that pursue universal solutions, our method exploits document-specific characteristics through intelligent strategy selection. We implement and evaluate 25 configurations across three extraction paradigms (direct, replacement, and table-based) on identity documents spanning four formats (PNG, DOCX, XLSX, PDF). Through table-based extraction methods, our adaptive framework delivers outstanding results: F1=1.0 accuracy with 0.97s latency for structured documents, and F1=0.997 accuracy with 0.6 s for challenging image inputs when integrated with PaddleOCR, all while maintaining sub-second processing speeds. The 54 times performance improvement compared with multimodal methods over naive approaches, coupled with format-aware routing, enables processing of heterogeneous document streams at production scale. Beyond the specific application to identity extraction, this work establishes a general principle: the repetitive nature of copy-heavy tasks can be transformed from a computational burden into an optimization opportunity through structure-aware method selection.
- Abstract(参考訳): 大量の構造的類似コンテンツによって特徴付けられる複写重文書からの情報抽出は、企業文書処理における重要な課題である。
本稿では,OCRエンジンとLLM(Large Language Models)を戦略的に組み合わせて,反復的な文書抽出タスクに固有の精度-効率トレードオフを最適化する手法を提案する。
ユビキタスソリューションを追求する既存のアプローチとは異なり,本手法は知的戦略選択によって文書固有の特徴を利用する。
我々は,4つのフォーマット(PNG,DOCX,XLSX,PDF)にまたがるID文書に基づいて,3つの抽出パラダイム(ダイレクト,リプレース,テーブルベース)にまたがる25の構成を実装し,評価する。
F1=1.0, 構造化文書のレイテンシ0.97, F1=0.997, PaddleOCRと統合した際の画像入力に挑戦する0.6秒, サブ秒間処理速度を維持しながらF1=0.997の精度を実現した。
実運用規模での異質な文書ストリームの処理を可能にするため, 単純方式によるマルチモーダル手法と比較して54倍の性能向上を実現した。
複写重タスクの反復的な性質は、計算負荷から構造認識法選択による最適化の機会へと変換することができる。
関連論文リスト
- UNIDOC-BENCH: A Unified Benchmark for Document-Centric Multimodal RAG [82.84014669683863]
マルチモーダル検索拡張生成(MM-RAG)は,大規模言語モデルを現実世界の知識ベースに適用するための重要なアプローチである。
UniDoc-Benchは、70万の現実世界のPDFページから構築されたMM-RAGのための最初の大規模で現実的なベンチマークである。
実験により,マルチモーダルテキスト画像融合RAGシステムは,非モーダルおよび共同マルチモーダル埋め込みに基づく検索において一貫して優れていた。
論文 参考訳(メタデータ) (2025-10-04T04:30:13Z) - Table2LaTeX-RL: High-Fidelity LaTeX Code Generation from Table Images via Reinforced Multimodal Language Models [53.03670032402846]
視覚的な入力から,高品質で出版可能なテーブルの再構築を自動化することを目的として,表画像からコード生成への課題に対処する。
このタスクの中心的な課題は、大きなサイズ、深くネストされた構造、セマンティックにリッチか不規則かという複雑なテーブルを正確に扱うことである。
本稿では,大規模テーブル・トゥ・ラデータセット上で事前学習したMLLMを微調整する,強化型マルチモーダル大規模言語モデル(MLLM)を提案する。
論文 参考訳(メタデータ) (2025-09-22T11:13:48Z) - Zero-Shot Document Understanding using Pseudo Table of Contents-Guided Retrieval-Augmented Generation [4.875345207589195]
DocsRayは、トレーニング不要の文書理解システムである。
擬似コンテンツテーブル(TOC)生成と階層型検索拡張生成(RAG)を統合する
論文 参考訳(メタデータ) (2025-07-31T03:14:45Z) - Leveraging Machine Learning and Enhanced Parallelism Detection for BPMN Model Generation from Text [75.77648333476776]
本稿では、テキストからBPMNモデルを抽出する自動パイプラインについて紹介する。
この研究の重要な貢献は、新たに注釈付けされたデータセットの導入である。
モデルトレーニング用の32のパラレルゲートウェイを含む15の注釈付き文書でデータセットを増強する。
論文 参考訳(メタデータ) (2025-07-11T07:25:55Z) - Vision-Guided Chunking Is All You Need: Enhancing RAG with Multimodal Document Understanding [0.0]
Retrieval-Augmented Generation (RAG) システムは情報検索と質問応答に革命をもたらした。
従来のテキストベースのチャンキング手法は、複雑なドキュメント構造、マルチページテーブル、埋め込みフィギュア、ページ境界を越えたコンテキスト依存に苦労する。
本稿では,Large Multimodal Models(LMM)を利用してPDF文書をバッチで処理する,新しいマルチモーダル文書チャンキング手法を提案する。
論文 参考訳(メタデータ) (2025-06-19T05:11:43Z) - XY-Cut++: Advanced Layout Ordering via Hierarchical Mask Mechanism on a Novel Benchmark [1.9020548287019097]
XY-Cut++は、事前マスク処理、多粒度セグメンテーション、およびクロスモーダルマッチングを統合するレイアウト順序付け手法である。
最先端のパフォーマンス(全体の98.8BLEU)を達成し、シンプルさと効率性を維持している。
論文 参考訳(メタデータ) (2025-04-14T14:19:57Z) - Advanced ingestion process powered by LLM parsing for RAG system [0.0]
本稿では LLM を利用した OCR を用いたマルチストラテジー解析手法を提案する。
この手法はノードベースの抽出手法を用いて、異なる情報タイプ間の関係を作り、コンテキスト対応メタデータを生成する。
論文 参考訳(メタデータ) (2024-12-16T20:33:33Z) - PDF-WuKong: A Large Multimodal Model for Efficient Long PDF Reading with End-to-End Sparse Sampling [63.93112754821312]
マルチモーダル文書理解は,大量のテキスト情報や視覚情報を処理し,理解するための課題である。
大規模言語モデル(LLM)の最近の進歩は、このタスクの性能を大幅に改善した。
長いPDF文書に対する多モーダル質問回答(QA)を強化するために設計された多モーダル大言語モデル(MLLM)であるPDF-WuKongを紹介する。
論文 参考訳(メタデータ) (2024-10-08T12:17:42Z) - LOCR: Location-Guided Transformer for Optical Character Recognition [55.195165959662795]
自動回帰中にトランスフォーマーアーキテクチャに位置案内を組み込むモデルであるLOCRを提案する。
125Kの学術文書ページから777万以上のテキスト配置ペアからなるデータセット上でモデルをトレーニングする。
これは、編集距離、BLEU、METEOR、F測定によって測定されたarXivから構築されたテストセットの既存のメソッドよりも優れています。
論文 参考訳(メタデータ) (2024-03-04T15:34:12Z) - One-shot Key Information Extraction from Document with Deep Partial
Graph Matching [60.48651298832829]
ドキュメントからキー情報抽出(KIE)は、多くの産業シナリオにおいて効率、生産性、セキュリティを改善する。
KIEタスクのための既存の教師付き学習手法は、多数のラベル付きサンプルを供給し、異なる種類の文書の別々のモデルを学ぶ必要がある。
部分グラフマッチングを用いたワンショットKIEのためのディープエンド・ツー・エンド・トレーニング可能なネットワークを提案する。
論文 参考訳(メタデータ) (2021-09-26T07:45:53Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。