論文の概要: DTBench: A Synthetic Benchmark for Document-to-Table Extraction
- arxiv url: http://arxiv.org/abs/2602.13812v2
- Date: Tue, 17 Feb 2026 15:46:12 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-02-18 13:57:33.62049
- Title: DTBench: A Synthetic Benchmark for Document-to-Table Extraction
- Title(参考訳): DTBench: ドキュメント・ツー・テイブル抽出のための総合ベンチマーク
- Authors: Yuxiang Guo, Zhuoran Du, Nan Tang, Kezheng Tang, Congcong Ge, Yunjun Gao,
- Abstract要約: Document-to-table (Doc2Table) 抽出は、ターゲットスキーマの下で非構造化ドキュメントから構造化テーブルを導出する。
既存のベンチマークでは、Doc2Table抽出に必要なさまざまな機能を明確に区別することも、包括的にカバーすることもできない。
本稿では、Doc2Tableの機能の2段階の分類法を提案する合成ベンチマークDTBenchを紹介する。
- 参考スコア(独自算出の注目度): 19.499877109720945
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Document-to-table (Doc2Table) extraction derives structured tables from unstructured documents under a target schema, enabling reliable and verifiable SQL-based data analytics. Although large language models (LLMs) have shown promise in flexible information extraction, their ability to produce precisely structured tables remains insufficiently understood, particularly for indirect extraction that requires complex capabilities such as reasoning and conflict resolution. Existing benchmarks neither explicitly distinguish nor comprehensively cover the diverse capabilities required in Doc2Table extraction. We argue that a capability-aware benchmark is essential for systematic evaluation. However, constructing such benchmarks using human-annotated document-table pairs is costly, difficult to scale, and limited in capability coverage. To address this, we adopt a reverse Table2Doc paradigm and design a multi-agent synthesis workflow to generate documents from ground-truth tables. Based on this approach, we present DTBench, a synthetic benchmark that adopts a proposed two-level taxonomy of Doc2Table capabilities, covering 5 major categories and 13 subcategories. We evaluate several mainstream LLMs on DTBench, and demonstrate substantial performance gaps across models, as well as persistent challenges in reasoning, faithfulness, and conflict resolution. DTBench provides a comprehensive testbed for data generation and evaluation, facilitating future research on Doc2Table extraction. The benchmark is publicly available at https://github.com/ZJU-DAILY/DTBench.
- Abstract(参考訳): Document-to-table(Doc2Table)抽出は、ターゲットスキーマの下で構造化されていないドキュメントから構造化テーブルを抽出し、信頼性と検証可能なSQLベースのデータ分析を可能にする。
大規模言語モデル(LLM)は、柔軟な情報抽出において有望であるが、特に推論や競合解決のような複雑な機能を必要とする間接抽出において、正確に構造化されたテーブルを生成する能力は十分に理解されていない。
既存のベンチマークでは、Doc2Table抽出に必要なさまざまな機能を明確に区別することも、包括的にカバーすることもできない。
システム評価には,能力認識型ベンチマークが不可欠である,と我々は主張する。
しかしながら、人間の注釈付き文書テーブルペアを使ってこのようなベンチマークを構築するのは、コストがかかり、スケールが難しく、能力カバレッジが制限される。
これを解決するために,逆の Table2Doc パラダイムを採用し,複数エージェントの合成ワークフローを設計し,基底構造表から文書を生成する。
このアプローチに基づいて,提案するDoc2Table能力の2段階分類を採用し,5つの主要なカテゴリと13のサブカテゴリをカバーする合成ベンチマークDTBenchを提案する。
DTBench上でのいくつかの主要なLCMを評価し、モデル間での大幅なパフォーマンスギャップと、推論、忠実性、コンフリクト解決における永続的な課題を示す。
DTBenchはデータ生成と評価のための包括的なテストベッドを提供する。
ベンチマークはhttps://github.com/ZJU-DAILY/DTBench.comで公開されている。
関連論文リスト
- MonkeyOCR v1.5 Technical Report: Unlocking Robust Document Parsing for Complex Patterns [80.05126590825121]
MonkeyOCR v1.5は、レイアウト理解とコンテンツ認識の両方を強化する統合ビジョン言語フレームワークである。
複雑なテーブル構造に対処するために,視覚的整合性に基づく強化学習手法を提案する。
2つの特別なモジュール、Image-Decoupled Table ParsingとType-Guided Table Mergingを導入し、テーブルの信頼性の高いパースを可能にする。
論文 参考訳(メタデータ) (2025-11-13T15:12:17Z) - From Surface to Semantics: Semantic Structure Parsing for Table-Centric Document Analysis [9.526986293067576]
DOTABLERはテーブル中心のセマンティックドキュメント解析フレームワークである。
包括的テーブルアンカレッド意味解析と意味論的関連テーブルの正確な抽出を提供する。
実世界のPDFから1000以上のテーブルを持つ4000ページ近くで評価された。
論文 参考訳(メタデータ) (2025-08-14T03:29:51Z) - Beyond Isolated Dots: Benchmarking Structured Table Construction as Deep Knowledge Extraction [80.88654868264645]
Arranged and Organized extract Benchmarkは、断片化された文書を理解するための大規模言語モデルの能力を評価するために設計された。
AOEには3つの異なるドメインにまたがる11のタスクが含まれており、さまざまな入力クエリに適したコンテキスト固有のスキーマを生成するモデルが必要である。
結果は、最も先進的なモデルでさえ、かなり苦労したことを示している。
論文 参考訳(メタデータ) (2025-07-22T06:37:51Z) - Doc2SoarGraph: Discrete Reasoning over Visually-Rich Table-Text
Documents via Semantic-Oriented Hierarchical Graphs [79.0426838808629]
視覚的にリッチなテーブルテキスト文書に答えるTAT-DQAを提案する。
具体的には、離散推論機能を強化した新しいDoc2SoarGraphフレームワークを提案する。
我々は,TAT-DQAデータセットに関する広範な実験を行い,提案したフレームワークは,テストセット上でのエクサクティマッチ(EM)とF1スコアでそれぞれ17.73%,F1スコアで16.91%の最高のベースラインモデルを上回る結果を得た。
論文 参考訳(メタデータ) (2023-05-03T07:30:32Z) - Document-Level Relation Extraction with Sentences Importance Estimation
and Focusing [52.069206266557266]
文書レベルの関係抽出(DocRE)は、複数の文の文書から2つのエンティティ間の関係を決定することを目的としている。
我々はDocREのための文重要度スコアと文集中損失を設計するSIEF(Sentence Estimation and Focusing)フレームワークを提案する。
2つのドメインの実験結果から、SIEFは全体的なパフォーマンスを改善するだけでなく、DocREモデルをより堅牢にします。
論文 参考訳(メタデータ) (2022-04-27T03:20:07Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。