論文の概要: A large-scale dataset for end-to-end table recognition in the wild
- arxiv url: http://arxiv.org/abs/2303.14884v1
- Date: Mon, 27 Mar 2023 02:48:51 GMT
- ステータス: 処理完了
- システム内更新日: 2023-03-28 17:05:52.223441
- Title: A large-scale dataset for end-to-end table recognition in the wild
- Title(参考訳): 野生におけるエンドツーエンドのテーブル認識のための大規模データセット
- Authors: Fan Yang, Lei Hu, Xinwu Liu, Shuangping Huang, Zhenghui Gu
- Abstract要約: テーブル認識(Table Recognition, TR)は、パターン認識におけるホットスポットの一つ。
現在、実際のシナリオにおけるエンドツーエンドのTRは、3つのサブタスクを同時に達成しているが、まだ探索されていない研究領域である。
そこで本研究では,様々なテーブル形式を持つテーブル認識セット(TabRecSet)という大規模データセットを提案する。
- 参考スコア(独自算出の注目度): 13.717478398235055
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Table recognition (TR) is one of the research hotspots in pattern
recognition, which aims to extract information from tables in an image. Common
table recognition tasks include table detection (TD), table structure
recognition (TSR) and table content recognition (TCR). TD is to locate tables
in the image, TCR recognizes text content, and TSR recognizes spatial ogical
structure. Currently, the end-to-end TR in real scenarios, accomplishing the
three sub-tasks simultaneously, is yet an unexplored research area. One major
factor that inhibits researchers is the lack of a benchmark dataset. To this
end, we propose a new large-scale dataset named Table Recognition Set
(TabRecSet) with diverse table forms sourcing from multiple scenarios in the
wild, providing complete annotation dedicated to end-to-end TR research. It is
the largest and first bi-lingual dataset for end-to-end TR, with 38.1K tables
in which 20.4K are in English\, and 17.7K are in Chinese. The samples have
diverse forms, such as the border-complete and -incomplete table, regular and
irregular table (rotated, distorted, etc.). The scenarios are multiple in the
wild, varying from scanned to camera-taken images, documents to Excel tables,
educational test papers to financial invoices. The annotations are complete,
consisting of the table body spatial annotation, cell spatial logical
annotation and text content for TD, TSR and TCR, respectively. The spatial
annotation utilizes the polygon instead of the bounding box or quadrilateral
adopted by most datasets. The polygon spatial annotation is more suitable for
irregular tables that are common in wild scenarios. Additionally, we propose a
visualized and interactive annotation tool named TableMe to improve the
efficiency and quality of table annotation.
- Abstract(参考訳): テーブル認識(Table Recognition, TR)は、パターン認識におけるホットスポットの一つで、画像中のテーブルから情報を抽出することを目的としている。
一般的なテーブル認識タスクには、テーブル検出(TD)、テーブル構造認識(TSR)、テーブルコンテンツ認識(TCR)がある。
TDは画像中のテーブルを見つけ、TCRはテキストの内容を認識し、TSRは空間的な図形構造を認識する。
現在、実際のシナリオにおけるエンドツーエンドのTRは、3つのサブタスクを同時に達成しているが、まだ探索されていない研究領域である。
研究者を妨げる主要な要因の1つは、ベンチマークデータセットの欠如である。
そこで本研究では,多様なテーブル形式を持つテーブル認識セット(tabrecset,table recognition set,tabrecset)という新しい大規模データセットを提案する。
エンドツーエンドのTRのための最大かつ最初のバイリンガルデータセットであり、38.1Kのテーブルがあり、20.4Kは英語で、17.7Kは中国語である。
サンプルは、境界完全および不完全なテーブル、正規および不規則なテーブル(回転、歪んだ、等)など、多種多様である。
シナリオは、スキャンされた画像からカメラに取り込まれた画像、ドキュメント、Excelテーブル、教育試験論文、財務請求書まで様々だ。
アノテーションは、それぞれTD、TSR、TR用の表体空間アノテーション、セル空間論理アノテーション、およびテキストコンテンツから構成される。
空間アノテーションは、ほとんどのデータセットで採用されるバウンディングボックスや四角形の代わりにポリゴンを利用する。
ポリゴン空間アノテーションは、野生のシナリオでよく見られる不規則なテーブルに適している。
さらに,テーブルアノテーションの効率と品質を改善するために,テーブルメという対話型アノテーションツールを提案する。
関連論文リスト
- UniTabNet: Bridging Vision and Language Models for Enhanced Table Structure Recognition [55.153629718464565]
我々は、画像からテキストへのモデルに基づくテーブル構造解析のための新しいフレームワークUniTabNetを紹介する。
UniTabNetは、画像とテキストのモデルを使ってテーブルセルを分離し、物理デコーダと論理デコーダを統合して完全なテーブル構造を再構築する。
論文 参考訳(メタデータ) (2024-09-20T01:26:32Z) - TRACE: Table Reconstruction Aligned to Corner and Edges [7.536220920052911]
そこで我々は,テーブルがセルで構成され,各セルがエッジからなる境界で構成されているテーブルの自然特性を解析した。
ボトムアップ方式でテーブルを再構築する新しい手法を提案する。
シンプルな設計はモデルを訓練しやすくし、以前の2段階の手法よりも少ない計算を必要とする。
論文 参考訳(メタデータ) (2023-05-01T02:26:15Z) - SEMv2: Table Separation Line Detection Based on Instance Segmentation [96.36188168694781]
SEMv2(SEM: Split, Embed, Merge)と呼ばれるテーブル構造認識器を提案する。
本稿では,テーブル分離ラインのインスタンスレベルの識別問題に対処し,条件付き畳み込みに基づくテーブル分離ライン検出戦略を提案する。
SEMv2を包括的に評価するために、iFLYTABと呼ばれるテーブル構造認識のためのより困難なデータセットも提示する。
論文 参考訳(メタデータ) (2023-03-08T05:15:01Z) - Split, embed and merge: An accurate table structure recognizer [42.579215135672094]
テーブル構造認識器としてSplit, Embed, Merge (SEM) を導入する。
SEM は SciTSR データセットで平均 F-Measure の 96.9% を達成できる。
論文 参考訳(メタデータ) (2021-07-12T06:26:19Z) - TGRNet: A Table Graph Reconstruction Network for Table Structure
Recognition [76.06530816349763]
本稿では,表構造認識のためのエンドツーエンドのトレーニング可能な表グラフ再構成ネットワーク(TGRNet)を提案する。
具体的には,異なる細胞の空間的位置と論理的位置を共同で予測するために,細胞検出枝と細胞論理的位置分岐の2つの主枝を有する。
論文 参考訳(メタデータ) (2021-06-20T01:57:05Z) - Multi-Type-TD-TSR -- Extracting Tables from Document Images using a
Multi-stage Pipeline for Table Detection and Table Structure Recognition:
from OCR to Structured Table Representations [63.98463053292982]
テーブルの認識は、テーブル検出とテーブル構造認識という2つの主要なタスクから構成される。
最近の研究は、テーブル構造認識のタスクにトランスファーラーニングを併用したディープラーニングアプローチへの明確な傾向を示している。
本稿では,テーブル認識問題に対するエンドツーエンドのソリューションを提供するMulti-Type-TD-TSRというマルチステージパイプラインを提案する。
論文 参考訳(メタデータ) (2021-05-23T21:17:18Z) - GraPPa: Grammar-Augmented Pre-Training for Table Semantic Parsing [117.98107557103877]
テーブルセマンティック解析のための効果的な事前学習手法GraPPaを提案する。
我々は、同期文脈自由文法を用いて、高自由度テーブル上に合成質問ペアを構築する。
実世界のデータを表現できるモデルの能力を維持するため、マスキング言語モデリングも含んでいる。
論文 参考訳(メタデータ) (2020-09-29T08:17:58Z) - ToTTo: A Controlled Table-To-Text Generation Dataset [61.83159452483026]
ToTToはオープンドメインの英語のテーブル・トゥ・テキストのデータセットで、12万以上のトレーニングサンプルがある。
本稿では、ウィキペディアから既存の候補文を直接修正するデータセット構築プロセスを紹介する。
通常流動的であるが、既存の方法は多くの場合、表がサポートしていないフレーズを幻覚させる。
論文 参考訳(メタデータ) (2020-04-29T17:53:45Z) - TableNet: Deep Learning model for end-to-end Table detection and Tabular
data extraction from Scanned Document Images [18.016832803961165]
本稿では,テーブル検出と構造認識のための新しいエンドツーエンドディープラーニングモデルを提案する。
TableNetは、テーブル検出のツインタスクとテーブル構造認識の相互依存性を利用する。
提案手法は, ICDAR 2013 と Marmot Table のデータセットを用いて評価した。
論文 参考訳(メタデータ) (2020-01-06T10:25:32Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。