論文の概要: CTE: A Dataset for Contextualized Table Extraction
- arxiv url: http://arxiv.org/abs/2302.01451v1
- Date: Thu, 2 Feb 2023 22:38:23 GMT
- ステータス: 処理完了
- システム内更新日: 2023-02-06 18:09:31.440211
- Title: CTE: A Dataset for Contextualized Table Extraction
- Title(参考訳): CTE:文脈表抽出のためのデータセット
- Authors: Andrea Gemelli, Emanuele Vivoli, Simone Marinai
- Abstract要約: データセットは、35k以上のテーブルを含む、75kの完全な注釈付き科学論文で構成されている。
PubMed Centralから収集されたデータは、PubTables-1MとPubLayNetデータセットのアノテーションによって提供される情報をマージする。
生成されたアノテーションは、ドキュメントレイアウト分析、テーブル検出、構造認識、機能解析など、さまざまなタスクのためのエンドツーエンドパイプラインの開発に使用することができる。
- 参考スコア(独自算出の注目度): 1.1859913430860336
- License: http://creativecommons.org/licenses/by-sa/4.0/
- Abstract: Relevant information in documents is often summarized in tables, helping the
reader to identify useful facts. Most benchmark datasets support either
document layout analysis or table understanding, but lack in providing data to
apply both tasks in a unified way. We define the task of Contextualized Table
Extraction (CTE), which aims to extract and define the structure of tables
considering the textual context of the document. The dataset comprises 75k
fully annotated pages of scientific papers, including more than 35k tables.
Data are gathered from PubMed Central, merging the information provided by
annotations in the PubTables-1M and PubLayNet datasets. The dataset can support
CTE and adds new classes to the original ones. The generated annotations can be
used to develop end-to-end pipelines for various tasks, including document
layout analysis, table detection, structure recognition, and functional
analysis. We formally define CTE and evaluation metrics, showing which subtasks
can be tackled, describing advantages, limitations, and future works of this
collection of data. Annotations and code will be accessible a
https://github.com/AILab-UniFI/cte-dataset.
- Abstract(参考訳): 文書の関連情報は、しばしば表にまとめられ、読者が有用な事実を特定するのに役立つ。
ほとんどのベンチマークデータセットはドキュメントレイアウト解析またはテーブル理解をサポートしているが、両方のタスクを統一的な方法で適用するためのデータを提供していない。
文書のテクスチュアコンテキストを考慮した表の構造を抽出し,定義することを目的とした文脈化表抽出(CTE)のタスクを定義する。
データセットは、35k以上のテーブルを含む75kページの科学論文からなる。
PubMed Centralから収集されたデータは、PubTables-1MとPubLayNetデータセットのアノテーションによって提供される情報をマージする。
データセットはcteをサポートし、元のクラスに新しいクラスを追加できる。
生成されたアノテーションは、ドキュメントレイアウト分析、テーブル検出、構造認識、機能解析など、さまざまなタスクのエンドツーエンドパイプラインの開発に使用することができる。
我々は、CTEと評価メトリクスを正式に定義し、どのサブタスクに取り組むことができるかを示し、このデータ収集の利点、制限、今後の作業について説明する。
アノテーションとコードはhttps://github.com/AILab-UniFI/cte-dataset.comからアクセスできる。
関連論文リスト
- UniTabNet: Bridging Vision and Language Models for Enhanced Table Structure Recognition [55.153629718464565]
我々は、画像からテキストへのモデルに基づくテーブル構造解析のための新しいフレームワークUniTabNetを紹介する。
UniTabNetは、画像とテキストのモデルを使ってテーブルセルを分離し、物理デコーダと論理デコーダを統合して完全なテーブル構造を再構築する。
論文 参考訳(メタデータ) (2024-09-20T01:26:32Z) - QTSumm: Query-Focused Summarization over Tabular Data [58.62152746690958]
人々は主に、データ分析を行うか、特定の質問に答えるためにテーブルをコンサルティングします。
そこで本研究では,テキスト生成モデルに人間的な推論を行なわなければならない,クエリ中心のテーブル要約タスクを新たに定義する。
このタスクには,2,934テーブル上の7,111の人間注釈付きクエリ-サマリーペアを含む,QTSummという新しいベンチマークを導入する。
論文 参考訳(メタデータ) (2023-05-23T17:43:51Z) - Doc2SoarGraph: Discrete Reasoning over Visually-Rich Table-Text
Documents via Semantic-Oriented Hierarchical Graphs [79.0426838808629]
視覚的にリッチなテーブルテキスト文書に答えるTAT-DQAを提案する。
具体的には、離散推論機能を強化した新しいDoc2SoarGraphフレームワークを提案する。
我々は,TAT-DQAデータセットに関する広範な実験を行い,提案したフレームワークは,テストセット上でのエクサクティマッチ(EM)とF1スコアでそれぞれ17.73%,F1スコアで16.91%の最高のベースラインモデルを上回る結果を得た。
論文 参考訳(メタデータ) (2023-05-03T07:30:32Z) - A large-scale dataset for end-to-end table recognition in the wild [13.717478398235055]
テーブル認識(Table Recognition, TR)は、パターン認識におけるホットスポットの一つ。
現在、実際のシナリオにおけるエンドツーエンドのTRは、3つのサブタスクを同時に達成しているが、まだ探索されていない研究領域である。
そこで本研究では,様々なテーブル形式を持つテーブル認識セット(TabRecSet)という大規模データセットを提案する。
論文 参考訳(メタデータ) (2023-03-27T02:48:51Z) - DocILE Benchmark for Document Information Localization and Extraction [7.944448547470927]
本稿では,鍵情報局所化・抽出・ラインアイテム認識のタスクに対して,ビジネス文書の最大のデータセットを用いたDocILEベンチマークを提案する。
注釈付きビジネス文書6.7k、合成文書100k、教師なし事前訓練のためのラベルなし文書100万近い。
論文 参考訳(メタデータ) (2023-02-11T11:32:10Z) - Long Text and Multi-Table Summarization: Dataset and Method [20.90939310713561]
FINDSumは3,794社から21,125件の年次レポートに基づいて構築されている。
それぞれの会社の運営成果と流動性を要約する2つのサブセットがある。
生成した要約における数値情報の利用状況を評価するための評価指標のセットを提案する。
論文 参考訳(メタデータ) (2023-02-08T00:46:55Z) - A Graph Representation of Semi-structured Data for Web Question
Answering [96.46484690047491]
本稿では、半構造化データとそれらの関係の構成要素の体系的分類に基づいて、Webテーブルとリストのグラフ表現を提案する。
本手法は,最先端のベースラインに対してF1スコアを3.90ポイント向上させる。
論文 参考訳(メタデータ) (2020-10-14T04:01:54Z) - DART: Open-Domain Structured Data Record to Text Generation [91.23798751437835]
82k以上のインスタンス(DART)を持つオープンドメイン構造化DAta Record to Text生成データセットであるDARTを提案する。
本稿では,テーブルヘッダとテーブルタイトル間の意味的依存関係を利用して,その構造を符号化するテーブルから意味的三重項を抽出する手法を提案する。
我々のデータセット構築フレームワークは、オープンドメイン意味解析と対話行動に基づく意味表現タスクからヘテロジニアスソースを効果的に統合する。
論文 参考訳(メタデータ) (2020-07-06T16:35:30Z) - ToTTo: A Controlled Table-To-Text Generation Dataset [61.83159452483026]
ToTToはオープンドメインの英語のテーブル・トゥ・テキストのデータセットで、12万以上のトレーニングサンプルがある。
本稿では、ウィキペディアから既存の候補文を直接修正するデータセット構築プロセスを紹介する。
通常流動的であるが、既存の方法は多くの場合、表がサポートしていないフレーズを幻覚させる。
論文 参考訳(メタデータ) (2020-04-29T17:53:45Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。