論文の概要: Benchmarking Document Parsers on Mathematical Formula Extraction from PDFs
- arxiv url: http://arxiv.org/abs/2512.09874v1
- Date: Wed, 10 Dec 2025 18:01:50 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-12-11 15:14:53.626189
- Title: Benchmarking Document Parsers on Mathematical Formula Extraction from PDFs
- Title(参考訳): PDFからの数式抽出における文書パーザのベンチマーク
- Authors: Pius Horn, Janis Keuper,
- Abstract要約: 本稿では,合成されたPDFをベースとした新しいベンチマークフレームワークを提案する。
LLM-as-a-judge のセマンティック・フォーミュラ・アセスメントの先駆的手法である。
- 参考スコア(独自算出の注目度): 15.522790536128694
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Correctly parsing mathematical formulas from PDFs is critical for training large language models and building scientific knowledge bases from academic literature, yet existing benchmarks either exclude formulas entirely or lack semantically-aware evaluation metrics. We introduce a novel benchmarking framework centered on synthetically generated PDFs with precise LaTeX ground truth, enabling systematic control over layout, formulas, and content characteristics. A key methodological contribution is pioneering LLM-as-a-judge for semantic formula assessment, combined with a robust two-stage matching pipeline that handles parser output inconsistencies. Through human validation on 250 formula pairs (750 ratings from 30 evaluators), we demonstrate that LLM-based evaluation achieves substantially higher correlation with human judgment (Pearson r=0.78) compared to CDM (r=0.34) and text similarity (r~0). Evaluating 20+ contemporary PDF parsers (including specialized OCR models, vision-language models, and rule-based approaches) across 100 synthetic documents with 2,000+ formulas reveals significant performance disparities. Our findings provide crucial insights for practitioners selecting parsers for downstream applications and establish a robust, scalable methodology that enables reproducible evaluation of PDF formula extraction quality. Code and benchmark data: https://github.com/phorn1/pdf-parse-bench
- Abstract(参考訳): PDFから数学的公式を正しく解析することは、大きな言語モデルを訓練し、学術文献から科学的知識基盤を構築するのに重要であるが、既存のベンチマークでは、公式を完全に排除するか、意味論的に認識された評価基準が欠如している。
そこで我々は,LaTeX基底真理を精度良く生成したPDFをベースとした新しいベンチマークフレームワークを提案し,レイアウト,公式,コンテンツ特性の体系的な制御を可能にした。
LLM-as-a-judgeはセマンティックフォーミュラアアセスメントの先駆者であり、パーサ出力の不整合を処理する堅牢な2段階マッチングパイプラインと組み合わせている。
LLMによる評価はCDM (r=0.34) とテキスト類似度 (r~0。
20以上の現代PDFパーサ(特殊なOCRモデル、ビジョン言語モデル、ルールベースアプローチを含む)を2000以上の公式を持つ100以上の合成文書で評価することは、大きな性能格差を示す。
本研究は,下流アプリケーション用パーサを選択する実践者にとって重要な知見を提供し,PDF式抽出品質の再現可能な評価を可能にする,堅牢でスケーラブルな方法論を確立した。
コードとベンチマークデータ:https://github.com/phorn1/pdf-parse-bench
関連論文リスト
- Large Language Models for Full-Text Methods Assessment: A Case Study on Mediation Analysis [15.98124151893659]
大規模言語モデル(LLM)は方法論的評価の自動化の可能性を秘めている。
我々は180のフルテキストの科学論文に対して、最先端のLLMを専門家の人間レビュアーに対してベンチマークした。
論文 参考訳(メタデータ) (2025-10-12T19:04:22Z) - NAIPv2: Debiased Pairwise Learning for Efficient Paper Quality Estimation [58.30936615525824]
本稿では,紙の品質評価のための非バイアスで効率的なフレームワークであるNAIPv2を提案する。
NAIPv2は、レビューアレーティングの不整合を低減するために、ドメイン年グループ内でペアワイズ学習を採用している。
これはペアワイズ比較に基づいてトレーニングされるが、デプロイ時に効率的なポイントワイズ予測を可能にする。
論文 参考訳(メタデータ) (2025-09-29T17:59:23Z) - Logics-Parsing Technical Report [8.982345117231661]
我々は、強化学習を付加したエンドツーエンドのLVLMモデルであるLogics-Parsingを提案する。
本モデルでは、複雑なレイアウト解析と読み出し順序推定を最適化するために、厳密に設計された報酬機構を組み込んでいる。
LogicsParsingBenchは、9つの主要なカテゴリと20以上のサブカテゴリにまたがる1,078ページレベルのPDFイメージのキュレートされたセットである。
論文 参考訳(メタデータ) (2025-09-24T04:54:37Z) - T2I-Eval-R1: Reinforcement Learning-Driven Reasoning for Interpretable Text-to-Image Evaluation [60.620408007636016]
T2I-Eval-R1は,大まかな品質スコアのみを用いて,オープンソースのMLLMを訓練する新しい強化学習フレームワークである。
提案手法では,グループ相対政策最適化を命令調整プロセスに統合し,スカラースコアと解釈可能な推論チェーンの両方を生成する。
論文 参考訳(メタデータ) (2025-05-23T13:44:59Z) - Grounding Synthetic Data Evaluations of Language Models in Unsupervised Document Corpora [9.871701356351542]
言語モデル(LM)は進化を続け、応答品質と一貫性を改善している。
モデル品質、応答適性、推論能力を評価するために、数多くの評価ベンチマークが作成されている。
本稿では,文書群を基盤としたファクトベース合成データモデル評価の自動化手法を提案する。
論文 参考訳(メタデータ) (2025-05-13T18:50:03Z) - A Large-Scale Study of Relevance Assessments with Large Language Models: An Initial Look [52.114284476700874]
本稿では,4つの異なる関連性評価手法が展開された大規模評価(TREC 2024 RAG Track)の結果について報告する。
自動生成UMBRELA判定は、完全に手動による判断を置き換えて、実行レベルの有効性を正確に捉えることができる。
意外なことに、LLMアシストは完全な手作業による評価と相関を増さないようで、人間のループプロセスに関連するコストは明らかな有意義な利益をもたらすものではないことを示唆している。
論文 参考訳(メタデータ) (2024-11-13T01:12:35Z) - Learning from Litigation: Graphs and LLMs for Retrieval and Reasoning in eDiscovery [6.037276428689637]
文書のランク付けと分類を強化するために知識グラフを統合する新システムであるDISCOGを導入する。
DISCOGは、F1スコア、精度、リコールにおいて、バランスの取れたデータセットと不均衡なデータセットの両方において、強力なベースラインを上回っている。
現実世界のデプロイメントでは、訴訟関連のドキュメントレビューコストを約98%削減し、ビジネス上の大きな影響を示している。
論文 参考訳(メタデータ) (2024-05-29T15:08:55Z) - Improving Text Embeddings with Large Language Models [59.930513259982725]
合成データと1k以下のトレーニングステップのみを用いて,高品質なテキスト埋め込みを実現するための,新しい簡易な手法を提案する。
我々は、93言語にまたがる数十万のテキスト埋め込みタスクのための多様な合成データを生成するために、プロプライエタリなLLMを活用している。
実験により,ラベル付きデータを使わずに,高度に競争力のあるテキスト埋め込みベンチマークにおいて高い性能が得られることが示された。
論文 参考訳(メタデータ) (2023-12-31T02:13:18Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。