論文の概要: A Comparative Study of PDF Parsing Tools Across Diverse Document Categories
- arxiv url: http://arxiv.org/abs/2410.09871v1
- Date: Sun, 13 Oct 2024 15:11:31 GMT
- ステータス: 翻訳完了
- システム内更新日: 2024-11-10 13:03:20.670738
- Title: A Comparative Study of PDF Parsing Tools Across Diverse Document Categories
- Title(参考訳): 異種文書カテゴリ間のPDF解析ツールの比較検討
- Authors: Narayan S. Adhikari, Shradha Agarwal,
- Abstract要約: DocLayNetデータセットを使用して、6つのドキュメントカテゴリで10の人気のあるPDF解析ツールを比較した。
テキスト抽出では、PyMuPDFとpypdfiumは概して他のものよりも優れていたが、すべてのテキスト抽出は科学と特許の文書で苦労した。
テーブル検出では、TATRは金融、特許、法と規制、科学のカテゴリーで優れている。
- 参考スコア(独自算出の注目度): 0.0
- License:
- Abstract: PDF is one of the most prominent data formats, making PDF parsing crucial for information extraction and retrieval, particularly with the rise of RAG systems. While various PDF parsing tools exist, their effectiveness across different document types remains understudied, especially beyond academic papers. Our research aims to address this gap by comparing 10 popular PDF parsing tools across 6 document categories using the DocLayNet dataset. These tools include PyPDF, pdfminer.six, PyMuPDF, pdfplumber, pypdfium2, Unstructured, Tabula, Camelot, as well as the deep learning-based tools Nougat and Table Transformer(TATR). We evaluated both text extraction and table detection capabilities. For text extraction, PyMuPDF and pypdfium generally outperformed others, but all parsers struggled with Scientific and Patent documents. For these challenging categories, learning-based tools like Nougat demonstrated superior performance. In table detection, TATR excelled in the Financial, Patent, Law & Regulations, and Scientific categories. Table detection tool Camelot performed best for tender documents, while PyMuPDF performed superior in the Manual category. Our findings highlight the importance of selecting appropriate parsing tools based on document type and specific tasks, providing valuable insights for researchers and practitioners working with diverse document sources.
- Abstract(参考訳): PDFは最も顕著なデータフォーマットの1つであり、特にRAGシステムの台頭に伴い、情報抽出と検索にPDF解析が不可欠である。
PDF解析ツールはいろいろ存在するが、その効用は学術論文以外にも検討されている。
本研究の目的は、DocLayNetデータセットを用いて、6つのドキュメントカテゴリで10の人気のあるPDF解析ツールを比較し、このギャップに対処することである。
これらのツールには、PyPDF、pdfminer.six、PyMuPDF、pdfplumber、pypdfium2、Unstructured、Tabula、Camelot、ディープラーニングベースのツールNougatとTable Transformer(TATR)が含まれる。
テキスト抽出とテーブル検出の両機能について検討した。
テキスト抽出では、PyMuPDFとpypdfiumは他のものよりも優れていたが、すべてのパーサーは科学と特許の文書で苦労した。
これらの難しいカテゴリでは、Nougatのような学習ベースのツールの方が優れたパフォーマンスを示している。
テーブル検出では、TATRは金融、特許、法と規制、科学のカテゴリーで優れている。
テーブル検出ツールCamelotは、手書きのドキュメントに最適で、PyMuPDFはマニュアルのカテゴリで優れている。
本研究は,文書の種類や特定のタスクに基づいて適切な解析ツールを選択することの重要性を強調した。
関連論文リスト
- PDF-WuKong: A Large Multimodal Model for Efficient Long PDF Reading with End-to-End Sparse Sampling [63.93112754821312]
文書理解は、大量のテキストや視覚情報を処理し、理解する上で難しい課題である。
大規模言語モデル(LLM)の最近の進歩は、このタスクの性能を大幅に改善した。
長いPDF文書に対する多モーダル質問回答(QA)を強化するために設計された多モーダル大言語モデル(MLLM)であるPDF-WuKongを紹介する。
論文 参考訳(メタデータ) (2024-10-08T12:17:42Z) - PdfTable: A Unified Toolkit for Deep Learning-Based Table Extraction [0.0]
文書から情報を抽出することは、様々なテーブルスタイル、複雑な形式、異なる言語を含めることによる、非常に困難な課題を提示する。
Camelotとpdfnumberは、デジタルPDFからのみテーブルを抽出できる。
PP-OCRV2は画像から画像ベースのPDFとテーブルを包括的に抽出できる。
論文 参考訳(メタデータ) (2024-09-08T15:08:51Z) - DocGenome: An Open Large-scale Scientific Document Benchmark for Training and Testing Multi-modal Large Language Models [63.466265039007816]
我々は、arXivオープンアクセスコミュニティの153の分野から500Kの科学文書を注釈付けして構築した構造化文書ベンチマークDocGenomeを提案する。
我々はDocGenomeの利点を実証するために広範な実験を行い、我々のベンチマークで大規模モデルの性能を客観的に評価した。
論文 参考訳(メタデータ) (2024-06-17T15:13:52Z) - DOCMASTER: A Unified Platform for Annotation, Training, & Inference in Document Question-Answering [36.40110520952274]
本稿では,PDF文書の注釈付け,モデルトレーニング,推論のための統一プラットフォームを提案する。
アノテーションインターフェースにより、ユーザは質問を入力し、PDFファイル内のテキストスパンを回答としてハイライトし、レイアウト情報とテキストスパンを保存できる。
このプラットフォームは、カリフォルニア大学サンディエゴ校(UCSD)国際サービス・エンゲージメントオフィス(ISEO)が相当量のPDF文書を処理するために使用しているAIアシスタントなど、文書分析に関するいくつかの研究プロトタイプの推進に役立っている。
論文 参考訳(メタデータ) (2024-03-30T18:11:39Z) - PDFTriage: Question Answering over Long, Structured Documents [60.96667912964659]
構造化文書をプレーンテキストとして表現することは、これらの文書をリッチな構造でユーザ精神モデルと矛盾する。
本稿では,構造や内容に基づいて,モデルがコンテキストを検索できるPDFTriageを提案する。
ベンチマークデータセットは,80以上の構造化文書に900以上の人間が生成した質問からなる。
論文 参考訳(メタデータ) (2023-09-16T04:29:05Z) - CCpdf: Building a High Quality Corpus for Visually Rich Documents from
Web Crawl Data [2.7843134136364265]
本稿では,Common Crawl を用いて,インターネット全体から大規模で多言語なPDFファイルのコーパスを作成するための効率的なパイプラインを提案する。
また、CCpdfコーパスをPDFファイルの形式やインデックスで共有し、それらをダウンロードするためのスクリプトを作成し、言語モデルの事前学習に有用なコレクションを生成する。
論文 参考訳(メタデータ) (2023-04-28T16:12:18Z) - Graph Neural Networks and Representation Embedding for Table Extraction
in PDF Documents [1.1859913430860336]
この研究の主な貢献は、グラフニューラルネットワークを利用したテーブル抽出の問題に取り組むことである。
PubLayNetおよびPubTables-1Mデータセットに提供される情報をマージして得られた新しいデータセットに対する提案手法を実験的に評価した。
論文 参考訳(メタデータ) (2022-08-23T21:36:01Z) - Multi-Type-TD-TSR -- Extracting Tables from Document Images using a
Multi-stage Pipeline for Table Detection and Table Structure Recognition:
from OCR to Structured Table Representations [63.98463053292982]
テーブルの認識は、テーブル検出とテーブル構造認識という2つの主要なタスクから構成される。
最近の研究は、テーブル構造認識のタスクにトランスファーラーニングを併用したディープラーニングアプローチへの明確な傾向を示している。
本稿では,テーブル認識問題に対するエンドツーエンドのソリューションを提供するMulti-Type-TD-TSRというマルチステージパイプラインを提案する。
論文 参考訳(メタデータ) (2021-05-23T21:17:18Z) - DocBank: A Benchmark Dataset for Document Layout Analysis [114.81155155508083]
文書レイアウト解析のための詳細なトークンレベルのアノテーションを備えた500Kドキュメントページを含むベンチマークデータセットである textbfDocBank を提示する。
実験の結果,DocBankでトレーニングされたモデルは,さまざまなドキュメントのレイアウト情報を正確に認識することがわかった。
論文 参考訳(メタデータ) (2020-06-01T16:04:30Z) - SPECTER: Document-level Representation Learning using Citation-informed
Transformers [51.048515757909215]
SPECTERは、Transformer言語モデルの事前学習に基づいて、科学文書の文書レベルの埋め込みを生成する。
SciDocsは、引用予測から文書分類、レコメンデーションまでの7つの文書レベルのタスクからなる新しい評価ベンチマークである。
論文 参考訳(メタデータ) (2020-04-15T16:05:51Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。