論文の概要: Lightweight and Production-Ready PDF Visual Element Parsing
- arxiv url: http://arxiv.org/abs/2604.23276v1
- Date: Sat, 25 Apr 2026 12:40:13 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-04-28 17:12:07.243898
- Title: Lightweight and Production-Ready PDF Visual Element Parsing
- Title(参考訳): Lightweight and Production-Ready PDF Visual Element Parsing
- Authors: Meizhu Liu, Yassi Abbasi, Matthew Rowe, Michael Avendi, Paul Li,
- Abstract要約: 既存のPDFは複雑なビジュアルを見逃し、非形式的なアーティファクトを抽出し、断片化された要素を生成し、キャプションと対応する要素を確実に関連付けることができない。
本稿では,視覚的要素を正確に検出し,キャプションを関連付ける軽量かつ生産レベルのPDF解析フレームワークを提案する。
- 参考スコア(独自算出の注目度): 0.0
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: PDF documents contain critical visual elements such as figures, tables, and forms whose accurate extraction is essential for document understanding and multimodal retrieval-augmented generation (RAG). Existing PDF parsers often miss complex visuals, extract non-informative artifacts (e.g., watermarks, logos), produce fragmented elements, and fail to reliably associate captions with their corresponding elements, which degrades downstream retrieval and question answering. We present a lightweight and production level PDF parsing framework that can accurately detect visual elements and associates captions using a combination of spatial heuristics, layout analysis, and semantic similarity. On popular benchmark datasets and internal product data, the proposed solution achieves $\geq96\%$ visual element detection accuracy and $93\%$ caption association accuracy. When used as a preprocessing step for multimodal RAG, it significantly outperforms state-of-the-art parsers and large vision-language models on both internal data and the MMDocRAG benchmark, while reducing latency by over $2\times$. We have deployed the proposed system in challenging production environment.
- Abstract(参考訳): PDF文書には、文書理解やマルチモーダル検索拡張生成(RAG)において、正確な抽出が不可欠である図、表、フォームなどの重要な視覚要素が含まれている。
既存のPDFパーサーは複雑なビジュアルを見逃し、非情報的アーティファクト(例えば、透かし、ロゴ)を抽出し、断片化された要素を生成し、キャプションを対応する要素と確実に関連付けることができず、下流の検索と質問応答を低下させる。
本稿では,視覚的要素を正確に検出し,空間的ヒューリスティックス,レイアウト解析,意味的類似性の組み合わせを用いてキャプションを関連付ける軽量かつ生産レベルのPDF解析フレームワークを提案する。
一般的なベンチマークデータセットと内部製品データに基づいて、提案したソリューションは、ビジュアル要素検出精度$\geq96\%、キャプション関連精度$930\%を達成する。
マルチモーダルRAGの事前処理ステップとして使用すると、内部データとMMDocRAGベンチマークの両方で最先端のパーサや大きなビジョン言語モデルよりも大幅に優れ、レイテンシを2ドル以上削減する。
提案したシステムを運用環境に挑戦して展開した。
関連論文リスト
- Multimodal OCR: Parse Anything from Documents [72.69545534962234]
dots.mocrは、チャート、ダイアグラム、テーブル、アイコンなどのビジュアル要素を第一級解析ターゲットとして扱う。
テキストとグラフィックの両方を構造化出力として再構築し、より忠実なドキュメント再構築を可能にする。
不均一なドキュメント要素に対するエンドツーエンドのトレーニングをサポートする。
論文 参考訳(メタデータ) (2026-03-13T14:42:21Z) - MoDora: Tree-Based Semi-Structured Document Analysis System [62.01015188258797]
半構造化文書は、様々な不規則なレイアウトで配置された様々なインターリーブされたデータ要素を統合する。
MoDora は半構造化文書解析のための LLM を利用したシステムである。
実験では、MoDoraは5.97%-61.07%の精度でベースラインを上回っている。
論文 参考訳(メタデータ) (2026-02-26T14:48:49Z) - PDFInspect: A Unified Feature Extraction Framework for Malicious Document Detection [0.0]
この研究は、グラフベース、構造化、メタデータ駆動分析を統合し、PDF文書ごとにリッチな特徴表現を生成する統一的なフレームワークを提案する。
提案されたアプローチはスケーラブルで、170で、現実世界のPDF脅威インテリジェンスをサポートするように設計されている。
論文 参考訳(メタデータ) (2026-01-19T09:23:40Z) - DocLens : A Tool-Augmented Multi-Agent Framework for Long Visual Document Understanding [59.4112754806335]
我々は、レンズのようなエビデンスに対して「効果的にズームインする」ツール強化マルチエージェントフレームワークであるDocLensを提案する。
最初はドキュメント全体から、関連するページの特定のビジュアル要素にナビゲートし、次にサンプリング・アジュディテーション機構を使用して、信頼できる1つの回答を生成する。
MMLongBench-DocとFinRAG-Vで最先端のパフォーマンスを達成し、人間専門家さえ超えている。
論文 参考訳(メタデータ) (2025-11-14T18:42:18Z) - MonkeyOCR v1.5 Technical Report: Unlocking Robust Document Parsing for Complex Patterns [80.05126590825121]
MonkeyOCR v1.5は、レイアウト理解とコンテンツ認識の両方を強化する統合ビジョン言語フレームワークである。
複雑なテーブル構造に対処するために,視覚的整合性に基づく強化学習手法を提案する。
2つの特別なモジュール、Image-Decoupled Table ParsingとType-Guided Table Mergingを導入し、テーブルの信頼性の高いパースを可能にする。
論文 参考訳(メタデータ) (2025-11-13T15:12:17Z) - Adaptive Markup Language Generation for Contextually-Grounded Visual Document Understanding [42.506971197471195]
ドキュメント解析のために約3.8Mの事前学習データペアで構成されるDocMark-Pileと、グラウンドド命令に従うための624kの微調整データアノテーションを備えたDocMark-Instructの2つのきめ細かい構造化データセットを紹介した。
提案手法は,様々なビジュアル文書理解ベンチマークにおいて,既存の最先端MLLMを著しく上回っている。
論文 参考訳(メタデータ) (2025-05-08T17:37:36Z) - Éclair -- Extracting Content and Layout with Integrated Reading Order for Documents [7.358946120326249]
本稿では,テキスト抽出ツールである'Eclairについて紹介する。
画像が与えられたら、"Eclairは、バウンディングボックスとその対応するセマンティッククラスとともに、読み順でフォーマットされたテキストを抽出できる。
このベンチマークで'Eclair'は最先端の精度を達成し、主要なメトリクスで他のメソッドよりも優れています。
論文 参考訳(メタデータ) (2025-02-06T17:07:22Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。