論文の概要: TableNet: Deep Learning model for end-to-end Table detection and Tabular
data extraction from Scanned Document Images
- arxiv url: http://arxiv.org/abs/2001.01469v1
- Date: Mon, 6 Jan 2020 10:25:32 GMT
- ステータス: 処理完了
- システム内更新日: 2023-01-14 02:17:40.287700
- Title: TableNet: Deep Learning model for end-to-end Table detection and Tabular
data extraction from Scanned Document Images
- Title(参考訳): TableNet: Scanned Document Imagesからエンドツーエンドのテーブル検出とタブラリデータ抽出のためのディープラーニングモデル
- Authors: Shubham Paliwal, Vishwanath D, Rohit Rahul, Monika Sharma, Lovekesh
Vig
- Abstract要約: 本稿では,テーブル検出と構造認識のための新しいエンドツーエンドディープラーニングモデルを提案する。
TableNetは、テーブル検出のツインタスクとテーブル構造認識の相互依存性を利用する。
提案手法は, ICDAR 2013 と Marmot Table のデータセットを用いて評価した。
- 参考スコア(独自算出の注目度): 18.016832803961165
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: With the widespread use of mobile phones and scanners to photograph and
upload documents, the need for extracting the information trapped in
unstructured document images such as retail receipts, insurance claim forms and
financial invoices is becoming more acute. A major hurdle to this objective is
that these images often contain information in the form of tables and
extracting data from tabular sub-images presents a unique set of challenges.
This includes accurate detection of the tabular region within an image, and
subsequently detecting and extracting information from the rows and columns of
the detected table. While some progress has been made in table detection,
extracting the table contents is still a challenge since this involves more
fine grained table structure(rows & columns) recognition. Prior approaches have
attempted to solve the table detection and structure recognition problems
independently using two separate models. In this paper, we propose TableNet: a
novel end-to-end deep learning model for both table detection and structure
recognition. The model exploits the interdependence between the twin tasks of
table detection and table structure recognition to segment out the table and
column regions. This is followed by semantic rule-based row extraction from the
identified tabular sub-regions. The proposed model and extraction approach was
evaluated on the publicly available ICDAR 2013 and Marmot Table datasets
obtaining state of the art results. Additionally, we demonstrate that feeding
additional semantic features further improves model performance and that the
model exhibits transfer learning across datasets. Another contribution of this
paper is to provide additional table structure annotations for the Marmot data,
which currently only has annotations for table detection.
- Abstract(参考訳): 携帯電話やスキャナーが文書の撮影・アップロードに広く使われるようになると、小売レシートや保険請求書、財務請求書などの非構造化文書画像に含まれる情報を抽出する必要性が高まっている。
この目的に対する大きなハードルは、これらの画像がしばしば表の形式で情報を含んでおり、表のサブ画像からデータを抽出することは、ユニークな課題のセットである。
これには、画像内の表領域の正確な検出と、検出されたテーブルの行や列から情報の検出と抽出が含まれる。
テーブル検出の進歩はいくつかあるが、よりきめ細かいテーブル構造(行と列)の認識を含むため、テーブル内容の抽出は依然として困難である。
従来のアプローチでは、2つの異なるモデルを用いてテーブルの検出と構造認識を独立に解決しようと試みてきた。
本稿では,テーブル検出と構造認識のための新しいエンドツーエンドディープラーニングモデルであるTableNetを提案する。
このモデルは、テーブル検出のツインタスクとテーブル構造認識の相互依存性を利用して、テーブルと列領域を分割する。
これに続いて、識別されたタブ状のサブリージョンからセマンティックルールベースの行抽出を行う。
提案手法は,公開可能なicdar 2013およびmarmotテーブルデータセット上で評価され,結果が得られた。
さらに,追加的なセマンティクス機能の提供により,モデルの性能がさらに向上し,モデルがデータセット間での転送学習を示すことを実証する。
この論文のもう一つの貢献は、テーブル検出のためのアノテーションしか持たないmarmotデータに追加のテーブル構造アノテーションを提供することである。
関連論文リスト
- UniTabNet: Bridging Vision and Language Models for Enhanced Table Structure Recognition [55.153629718464565]
我々は、画像からテキストへのモデルに基づくテーブル構造解析のための新しいフレームワークUniTabNetを紹介する。
UniTabNetは、画像とテキストのモデルを使ってテーブルセルを分離し、物理デコーダと論理デコーダを統合して完全なテーブル構造を再構築する。
論文 参考訳(メタデータ) (2024-09-20T01:26:32Z) - A large-scale dataset for end-to-end table recognition in the wild [13.717478398235055]
テーブル認識(Table Recognition, TR)は、パターン認識におけるホットスポットの一つ。
現在、実際のシナリオにおけるエンドツーエンドのTRは、3つのサブタスクを同時に達成しているが、まだ探索されていない研究領域である。
そこで本研究では,様々なテーブル形式を持つテーブル認識セット(TabRecSet)という大規模データセットを提案する。
論文 参考訳(メタデータ) (2023-03-27T02:48:51Z) - SEMv2: Table Separation Line Detection Based on Instance Segmentation [96.36188168694781]
SEMv2(SEM: Split, Embed, Merge)と呼ばれるテーブル構造認識器を提案する。
本稿では,テーブル分離ラインのインスタンスレベルの識別問題に対処し,条件付き畳み込みに基づくテーブル分離ライン検出戦略を提案する。
SEMv2を包括的に評価するために、iFLYTABと呼ばれるテーブル構造認識のためのより困難なデータセットも提示する。
論文 参考訳(メタデータ) (2023-03-08T05:15:01Z) - Table Retrieval May Not Necessitate Table-specific Model Design [83.27735758203089]
テーブル検索のタスクに焦点をあてて、"テーブル固有のモデル設計はテーブル検索に必要か?
自然質問データセット (NQ-table) の表に基づく分析の結果, 70%以上の症例では構造が無視できる役割を担っていることがわかった。
次に、テーブル構造、すなわち補助列/カラム埋め込み、ハードアテンションマスク、ソフトリレーションに基づくアテンションバイアスを明示的にエンコードする3つのモジュールを実験する。
いずれも大きな改善は得られず、テーブル固有のモデル設計がテーブル検索に不要である可能性が示唆された。
論文 参考訳(メタデータ) (2022-05-19T20:35:23Z) - TGRNet: A Table Graph Reconstruction Network for Table Structure
Recognition [76.06530816349763]
本稿では,表構造認識のためのエンドツーエンドのトレーニング可能な表グラフ再構成ネットワーク(TGRNet)を提案する。
具体的には,異なる細胞の空間的位置と論理的位置を共同で予測するために,細胞検出枝と細胞論理的位置分岐の2つの主枝を有する。
論文 参考訳(メタデータ) (2021-06-20T01:57:05Z) - Multi-Type-TD-TSR -- Extracting Tables from Document Images using a
Multi-stage Pipeline for Table Detection and Table Structure Recognition:
from OCR to Structured Table Representations [63.98463053292982]
テーブルの認識は、テーブル検出とテーブル構造認識という2つの主要なタスクから構成される。
最近の研究は、テーブル構造認識のタスクにトランスファーラーニングを併用したディープラーニングアプローチへの明確な傾向を示している。
本稿では,テーブル認識問題に対するエンドツーエンドのソリューションを提供するMulti-Type-TD-TSRというマルチステージパイプラインを提案する。
論文 参考訳(メタデータ) (2021-05-23T21:17:18Z) - Deep Structured Feature Networks for Table Detection and Tabular Data
Extraction from Scanned Financial Document Images [0.6299766708197884]
本研究では、財務PDF文書から自動テーブル検出と表データ抽出を提案する。
我々は,より高速なR-CNN(Region-based Convolutional Neural Network)モデルを用いて,テーブル領域を検出する3つの主要なプロセスからなる手法を提案する。
提案したデータセットから,検出モデルの卓越したテーブル検出性能を得た。
論文 参考訳(メタデータ) (2021-02-20T08:21:17Z) - A Graph Representation of Semi-structured Data for Web Question
Answering [96.46484690047491]
本稿では、半構造化データとそれらの関係の構成要素の体系的分類に基づいて、Webテーブルとリストのグラフ表現を提案する。
本手法は,最先端のベースラインに対してF1スコアを3.90ポイント向上させる。
論文 参考訳(メタデータ) (2020-10-14T04:01:54Z) - Identifying Table Structure in Documents using Conditional Generative
Adversarial Networks [0.0]
多くの産業や学術研究において、情報は主に構造化されていない文書の形で伝達される。
本稿では,まず,テーブルイメージを標準化されたスケルトンテーブル形式にマッピングするために,条件付き生成逆数ネットワークを用いたトップダウンアプローチを提案する。
次に、xy-cutプロジェクションと遺伝的アルゴリズムを用いた潜在テーブル構造を導出する。
論文 参考訳(メタデータ) (2020-01-13T20:42:40Z) - Table Structure Extraction with Bi-directional Gated Recurrent Unit
Networks [5.350788087718877]
本稿では,検出されたテーブルから行や列を高精度に抽出する,堅牢な深層学習手法を提案する。
我々は、現在利用可能なUNLVとICDAR 2013データセットのベンチマークを行い、最先端のテーブル構造抽出システムよりも大幅に性能を向上した。
論文 参考訳(メタデータ) (2020-01-08T13:17:44Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。