論文の概要: ExtractBench: A Benchmark and Evaluation Methodology for Complex Structured Extraction
- arxiv url: http://arxiv.org/abs/2602.12247v2
- Date: Fri, 13 Feb 2026 21:59:00 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-02-17 14:17:27.808239
- Title: ExtractBench: A Benchmark and Evaluation Methodology for Complex Structured Extraction
- Title(参考訳): ExtractBench: 複雑な構造化抽出のためのベンチマークと評価手法
- Authors: Nick Ferguson, Josh Pennington, Narek Beghian, Aravind Mohan, Douwe Kiela, Sheshansh Agrawal, Thien Hang Nguyen,
- Abstract要約: エンタープライズ規模のスキーマ幅でPDF-to-JSON抽出を評価するエンドツーエンドベンチマークはない。
ネスト抽出のセマンティクスを捉える原則的手法は存在しない。
ExtractBenchはPDFからJSONへの構造化抽出のためのオープンソースのベンチマークと評価フレームワークである。
- 参考スコア(独自算出の注目度): 11.272127170490059
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Unstructured documents like PDFs contain valuable structured information, but downstream systems require this data in reliable, standardized formats. LLMs are increasingly deployed to automate this extraction, making accuracy and reliability paramount. However, progress is bottlenecked by two gaps. First, no end-to-end benchmark evaluates PDF-to-JSON extraction under enterprise-scale schema breadth. Second, no principled methodology captures the semantics of nested extraction, where fields demand different notions of correctness (exact match for identifiers, tolerance for quantities, semantic equivalence for names), arrays require alignment, and omission must be distinguished from hallucination. We address both gaps with ExtractBench, an open-source benchmark and evaluation framework for PDF-to-JSON structured extraction. The benchmark pairs 35 PDF documents with JSON Schemas and human-annotated gold labels across economically valuable domains, yielding 12,867 evaluatable fields spanning schema complexities from tens to hundreds of fields. The evaluation framework treats the schema as an executable specification: each field declares its scoring metric. Baseline evaluations reveal that frontier models (GPT-5/5.2, Gemini-3 Flash/Pro, Claude 4.5 Opus/Sonnet) remain unreliable on realistic schemas. Performance degrades sharply with schema breadth, culminating in 0% valid output on a 369-field financial reporting schema across all tested models. We release ExtractBench at https://github.com/ContextualAI/extract-bench.
- Abstract(参考訳): PDFのような構造化されていない文書には貴重な構造化情報が含まれているが、下流システムでは信頼性の高い標準化されたフォーマットでこのデータを必要とする。
LLMはこの抽出を自動化し、精度と信頼性を最優先している。
しかし、進歩は2つのギャップでボトルネックになっている。
まず、エンタープライズ規模のスキーマ幅でPDF-to-JSON抽出を評価するエンドツーエンドベンチマークはない。
第二に、ネスト抽出のセマンティクスは、フィールドが異なる正当性(識別子の一致、量への耐性、名前のセマンティック等価性)を要求する場合、配列はアライメントを必要とし、省略は幻覚と区別されなければならない。
PDF-to-JSON構造化抽出のためのオープンソースのベンチマークおよび評価フレームワークであるExtractBenchで、両方のギャップに対処する。
このベンチマークは、35のPDFドキュメントとJSON Schemasと、経済的に価値のあるドメインにまたがる人手による金のラベルを組み合わせ、スキーマの複雑さを数十から数百のフィールドにまたがる評価可能な12,867のフィールドを生成する。
評価フレームワークはスキーマを実行可能な仕様として扱い、各フィールドは評価基準を宣言する。
ベースライン評価によると、フロンティアモデル(GPT-5/5.2、Gemini-3 Flash/Pro、Claude 4.5 Opus/Sonnet)は現実的なスキーマでは信頼性が低い。
パフォーマンスはスキーマの幅で著しく低下し、テスト対象の全モデルで369フィールドの財務報告スキーマで0%の有効出力が達成された。
https://github.com/ContextualAI/extract-bench.comでExtractBenchをリリースします。
関連論文リスト
- DOCR-Inspector: Fine-Grained and Automated Evaluation of Document Parsing with VLM [35.910677096654574]
文書解析は、構造化されていないPDF画像を半構造化データに変換することを目的としており、多様な領域における情報のデジタル化と活用を容易にする。
一般的なプラクティスは、しばしば標準ベンチマークで最高のパフォーマンスモデルを選択する。
本稿では,文書解析評価をきめ細かな誤り検出と解析として形式化するDOCR-Inspectorを紹介する。
論文 参考訳(メタデータ) (2025-12-11T13:16:33Z) - Benchmarking Document Parsers on Mathematical Formula Extraction from PDFs [15.522790536128694]
本稿では,合成されたPDFをベースとした新しいベンチマークフレームワークを提案する。
LLM-as-a-judge のセマンティック・フォーミュラ・アセスメントの先駆的手法である。
論文 参考訳(メタデータ) (2025-12-10T18:01:50Z) - Align-then-Slide: A complete evaluation framework for Ultra-Long Document-Level Machine Translation [26.418216341998953]
ウルトラロングドク-mtの完全な評価フレームワークであるtextittextbfAlign-then-Slide を導入する。
Alignの段階では、文レベルのソースターゲット対応を自動的に推測し、ターゲットを元の文番号に合わせるように再構築する。
n-Chunkスライディング評価段階において,多粒度評価のための1-,2-,3-,4-chunkの平均値を算出する。
論文 参考訳(メタデータ) (2025-09-04T01:50:20Z) - Beyond Isolated Dots: Benchmarking Structured Table Construction as Deep Knowledge Extraction [80.88654868264645]
Arranged and Organized extract Benchmarkは、断片化された文書を理解するための大規模言語モデルの能力を評価するために設計された。
AOEには3つの異なるドメインにまたがる11のタスクが含まれており、さまざまな入力クエリに適したコンテキスト固有のスキーマを生成するモデルが必要である。
結果は、最も先進的なモデルでさえ、かなり苦労したことを示している。
論文 参考訳(メタデータ) (2025-07-22T06:37:51Z) - NEXT-EVAL: Next Evaluation of Traditional and LLM Web Data Record Extraction [6.09502686736443]
本稿では,Webデータ抽出のための具体的な評価フレームワークを提案する。
本フレームワークは,評価スナップショットを生成し,監視ラベルを注釈付けし,一貫したスコア付けに構造対応メトリクスを用いる。
また、LLM(Large Language Model)ベースのアプローチの入力を最適化する前処理も組み込まれている。
論文 参考訳(メタデータ) (2025-05-21T21:03:37Z) - Factcheck-Bench: Fine-Grained Evaluation Benchmark for Automatic Fact-checkers [121.53749383203792]
本稿では,大規模言語モデル (LLM) 生成応答の事実性に注釈を付けるための総合的なエンドツーエンドソリューションを提案する。
オープンドメインの文書レベルの事実性ベンチマークを,クレーム,文,文書の3段階の粒度で構築する。
予備実験によると、FacTool、FactScore、Perplexityは虚偽の主張を識別するのに苦労している。
論文 参考訳(メタデータ) (2023-11-15T14:41:57Z) - AIFB-WebScience at SemEval-2022 Task 12: Relation Extraction First --
Using Relation Extraction to Identify Entities [0.0]
本稿では,変換器に基づく言語モデルに基づくエンドツーエンドのジョイントエンティティと関係抽出手法を提案する。
実体抽出と関係抽出を連続的に行う既存手法とは対照的に,本システムは関係抽出からの情報を実体抽出に組み込む。
論文 参考訳(メタデータ) (2022-03-10T12:19:44Z) - Low-Resource Task-Oriented Semantic Parsing via Intrinsic Modeling [65.51280121472146]
私たちは本質的にオントロジーラベルについて知っているものを利用して、効率的なセマンティック解析モデルを構築します。
我々のモデルはTOPv2から派生した低リソースのベンチマークを用いて高効率である。
論文 参考訳(メタデータ) (2021-04-15T04:01:02Z) - Extractive Summarization as Text Matching [123.09816729675838]
本稿では,ニューラル抽出要約システムの構築方法に関するパラダイムシフトを作成する。
抽出した要約タスクを意味テキストマッチング問題として定式化する。
我々はCNN/DailyMailの最先端抽出結果を新しいレベル(ROUGE-1の44.41)に推し進めた。
論文 参考訳(メタデータ) (2020-04-19T08:27:57Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。