論文の概要: Benchmarking PDF Parsers on Table Extraction with LLM-based Semantic Evaluation
- arxiv url: http://arxiv.org/abs/2603.18652v1
- Date: Thu, 19 Mar 2026 09:17:21 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-03-20 17:19:06.055542
- Title: Benchmarking PDF Parsers on Table Extraction with LLM-based Semantic Evaluation
- Title(参考訳): LLMに基づく意味的評価による表抽出におけるPDFパーザのベンチマーク
- Authors: Pius Horn, Janis Keuper,
- Abstract要約: 既存の評価手法は、テーブル内容の意味的等価性を捉えるのに失敗するルールベースのメトリクスに依存している。
本稿では, arXiv 由来のテーブルを用いて, 合成された PDF に基づくベンチマークフレームワークを提案する。
- 参考スコア(独自算出の注目度): 15.522790536128694
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Reliably extracting tables from PDFs is essential for large-scale scientific data mining and knowledge base construction, yet existing evaluation approaches rely on rule-based metrics that fail to capture semantic equivalence of table content. We present a benchmarking framework based on synthetically generated PDFs with precise LaTeX ground truth, using tables sourced from arXiv to ensure realistic complexity and diversity. As our central methodological contribution, we apply LLM-as-a-judge for semantic table evaluation, integrated into a matching pipeline that accommodates inconsistencies in parser outputs. Through a human validation study comprising over 1,500 quality judgments on extracted table pairs, we show that LLM-based evaluation achieves substantially higher correlation with human judgment (Pearson r=0.93) compared to Tree Edit Distance-based Similarity (TEDS, r=0.68) and Grid Table Similarity (GriTS, r=0.70). Evaluating 21 contemporary PDF parsers across 100 synthetic documents containing 451 tables reveals significant performance disparities. Our results offer practical guidance for selecting parsers for tabular data extraction and establish a reproducible, scalable evaluation methodology for this critical task. Code and data: https://github.com/phorn1/pdf-parse-bench Metric study and human evaluation: https://github.com/phorn1/table-metric-study
- Abstract(参考訳): PDFからテーブルを確実に抽出することは、大規模な科学的データマイニングと知識ベース構築に不可欠であるが、既存の評価手法は、テーブル内容の意味的等価性を捉えるのに失敗するルールベースのメトリクスに依存している。
本稿では, arXiv から得られたテーブルを用いて, 精度の高い LaTeX 基底真理を持つ合成PDF に基づくベンチマークフレームワークを提案する。
本研究の中心的な方法論的貢献として,パーサ出力の不整合に対応するマッチングパイプラインに統合された意味表評価にLLM-as-a-judgeを適用した。
抽出したテーブル対に対する1500以上の品質判定を含む人体検証研究を通じて,LLMによる評価は,木編集距離に基づく類似性(TEDS,r=0.68)やグリッドテーブル類似性(GriTS,r=0.70)と比較して,人体判定(Pearson r=0.93)と著しく高い相関性を示す。
451の表を含む100の合成文書を対象とした21の現代PDFパーサの評価は、大きな性能格差を示している。
本研究は, 表付きデータ抽出のためのパーサの選択と, 再現性, スケーラブルな評価手法を確立するための実践的ガイダンスを提供する。
コードとデータ:https://github.com/phorn1/pdf-parse-bench Metric study and human evaluation: https://github.com/phorn1/table-metric-study
関連論文リスト
- DTBench: A Synthetic Benchmark for Document-to-Table Extraction [19.499877109720945]
Document-to-table (Doc2Table) 抽出は、ターゲットスキーマの下で非構造化ドキュメントから構造化テーブルを導出する。
既存のベンチマークでは、Doc2Table抽出に必要なさまざまな機能を明確に区別することも、包括的にカバーすることもできない。
本稿では、Doc2Tableの機能の2段階の分類法を提案する合成ベンチマークDTBenchを紹介する。
論文 参考訳(メタデータ) (2026-02-14T14:52:36Z) - Benchmarking Document Parsers on Mathematical Formula Extraction from PDFs [15.522790536128694]
本稿では,合成されたPDFをベースとした新しいベンチマークフレームワークを提案する。
LLM-as-a-judge のセマンティック・フォーミュラ・アセスメントの先駆的手法である。
論文 参考訳(メタデータ) (2025-12-10T18:01:50Z) - Can LLMs Generate Tabular Summaries of Science Papers? Rethinking the Evaluation Protocol [83.90769864167301]
文献レビュー表は、科学論文の集合を要約し比較するために欠かせないものである。
学術論文の収集にあたり,ユーザの情報ニーズを最大限に満たす表を作成するタスクについて検討する。
我々の貢献は、現実世界で遭遇する3つの重要な課題に焦点を当てている: (i)ユーザープロンプトは、しばしば未特定である; (ii)検索された候補論文は、しばしば無関係な内容を含む; (iii)タスク評価は、浅いテキスト類似性技術を超えて進むべきである。
論文 参考訳(メタデータ) (2025-04-14T14:52:28Z) - PoTable: Towards Systematic Thinking via Stage-oriented Plan-then-Execute Reasoning on Tables [13.823024099178172]
PoTableは、テーブル上でシステマティックな思考を実現する、ステージ指向のプラン・ザ・エグゼクティブ推論アプローチである。
PoTableは、高度に正確で、段階的にコメントされ、完全に実行可能なプログラムで、信頼性の高いテーブル推論結果を生成することができる。
論文 参考訳(メタデータ) (2024-12-05T15:54:16Z) - ArxivDIGESTables: Synthesizing Scientific Literature into Tables using Language Models [58.34560740973768]
本稿では,言語モデル(LM)を利用して文献レビュー表を生成するフレームワークを提案する。
ArXiv論文から抽出された2,228の文献レビューテーブルの新しいデータセットは、合計で7,542の論文を合成する。
我々は、LMが参照テーブルを再構築する能力を評価し、追加のコンテキストからこのタスクの利点を見出す。
論文 参考訳(メタデータ) (2024-10-25T18:31:50Z) - TableLLM: Enabling Tabular Data Manipulation by LLMs in Real Office Usage Scenarios [51.66718740300016]
TableLLMは80億のパラメータを持つ堅牢な大規模言語モデル(LLM)である。
TableLLMはデータ操作タスクを巧みに扱うために構築されている。
我々は、ユーザインタラクションのためのモデルチェックポイント、ソースコード、ベンチマーク、Webアプリケーションをリリースした。
論文 参考訳(メタデータ) (2024-03-28T11:21:12Z) - GraPPa: Grammar-Augmented Pre-Training for Table Semantic Parsing [117.98107557103877]
テーブルセマンティック解析のための効果的な事前学習手法GraPPaを提案する。
我々は、同期文脈自由文法を用いて、高自由度テーブル上に合成質問ペアを構築する。
実世界のデータを表現できるモデルの能力を維持するため、マスキング言語モデリングも含んでいる。
論文 参考訳(メタデータ) (2020-09-29T08:17:58Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。