論文の概要: Robust Table Detection and Structure Recognition from Heterogeneous
Document Images
- arxiv url: http://arxiv.org/abs/2203.09056v1
- Date: Thu, 17 Mar 2022 03:35:12 GMT
- ステータス: 処理完了
- システム内更新日: 2022-03-18 14:40:32.649731
- Title: Robust Table Detection and Structure Recognition from Heterogeneous
Document Images
- Title(参考訳): 不均一文書画像からのロバストテーブル検出と構造認識
- Authors: Chixiang Ma, Weihong Lin, Lei Sun, Qiang Huo
- Abstract要約: 我々はRobusTabNetを導入し、テーブルの境界を検出し、異種文書画像からテーブルの細胞構造を再構築する。
テーブル検出のために、我々は、より高速なR-CNNのための高品質なテーブル提案を生成するために、新しい領域提案ネットワークとしてCornerNetを使用することを提案する。
我々の表構造認識手法は,SciTSR,PubTabNet,cTDaR TrackBの3つの公開ベンチマークにおいて,最先端の性能を実現する。
- 参考スコア(独自算出の注目度): 6.961470641696773
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: We introduce a new table detection and structure recognition approach named
RobusTabNet to detect the boundaries of tables and reconstruct the cellular
structure of the table from heterogeneous document images. For table detection,
we propose to use CornerNet as a new region proposal network to generate higher
quality table proposals for Faster R-CNN, which has significantly improved the
localization accuracy of Faster R-CNN for table detection. Consequently, our
table detection approach achieves state-of-the-art performance on three public
table detection benchmarks, namely cTDaR TrackA, PubLayNet and IIIT-AR-13K, by
only using a lightweight ResNet-18 backbone network. Furthermore, we propose a
new split-and-merge based table structure recognition approach, in which a
novel spatial CNN based separation line prediction module is proposed to split
each detected table into a grid of cells, and a Grid CNN based cell merging
module is applied to recover the spanning cells. As the spatial CNN module can
effectively propagate contextual information across the whole table image, our
table structure recognizer can robustly recognize tables with large blank
spaces and geometrically distorted (even curved) tables. Thanks to these two
techniques, our table structure recognition approach achieves state-of-the-art
performance on three public benchmarks, including SciTSR, PubTabNet and cTDaR
TrackB. Moreover, we have further demonstrated the advantages of our approach
in recognizing tables with complex structures, large blank spaces, empty or
spanning cells as well as geometrically distorted or even curved tables on a
more challenging in-house dataset.
- Abstract(参考訳): 我々は、テーブルの境界を検出し、異種文書画像からテーブルの細胞構造を再構築するRobusTabNetという新しいテーブル検出と構造認識手法を提案する。
テーブル検出のために,我々はCornerNetを新しい領域提案ネットワークとして使用し,テーブル検出のための高速R-CNNのローカライズ精度を大幅に向上させた高速R-CNNの高品質なテーブル提案を生成することを提案する。
これにより,軽量なresnet-18バックボーンネットワークのみを用いて,ctdar tracka,publaynet,iiit-ar-13kの3つの公開テーブル検出ベンチマークで最先端のパフォーマンスを実現する。
さらに,新たな分割・統合型テーブル構造認識手法を提案し,新たに空間的CNNベースの分離線予測モジュールを提案し,検出したテーブルを格子状に分割し,グリッドCNNベースのセルマージモジュールを適用して分散セルを復元する。
空間的CNNモジュールは表画像全体にわたって文脈情報を効果的に伝達できるため、テーブル構造認識器は大きな空白空間を持つテーブルと幾何学的に歪んだテーブルをしっかり認識することができる。
これらの2つの手法により、SciTSR、PubTabNet、cTDaR TrackBを含む3つの公開ベンチマークにおいて、テーブル構造認識手法は最先端のパフォーマンスを実現する。
さらに,複雑な構造を持つテーブル,大きな空白空間,空セルあるいはスパンセル,さらには幾何学的に歪んだテーブルや曲面テーブルを,社内でより困難なデータセット上で認識する手法の利点をさらに実証した。
関連論文リスト
- UniTabNet: Bridging Vision and Language Models for Enhanced Table Structure Recognition [55.153629718464565]
我々は、画像からテキストへのモデルに基づくテーブル構造解析のための新しいフレームワークUniTabNetを紹介する。
UniTabNetは、画像とテキストのモデルを使ってテーブルセルを分離し、物理デコーダと論理デコーダを統合して完全なテーブル構造を再構築する。
論文 参考訳(メタデータ) (2024-09-20T01:26:32Z) - ClusterTabNet: Supervised clustering method for table detection and table structure recognition [0.0]
文書中の単語をクラスタリングする深層学習に基づく新しい手法を提案する。
表構造ボトムアップを一対の単語間の関係グラフとして解釈し、変圧器エンコーダモデルを用いてその隣接行列を予測する。
DETRやFaster R-CNNのような現在の最先端検出手法と比較して,本手法は比較的小さなモデルを必要とするが,類似性や精度が向上する。
論文 参考訳(メタデータ) (2024-02-12T09:10:24Z) - SEMv2: Table Separation Line Detection Based on Instance Segmentation [96.36188168694781]
SEMv2(SEM: Split, Embed, Merge)と呼ばれるテーブル構造認識器を提案する。
本稿では,テーブル分離ラインのインスタンスレベルの識別問題に対処し,条件付き畳み込みに基づくテーブル分離ライン検出戦略を提案する。
SEMv2を包括的に評価するために、iFLYTABと呼ばれるテーブル構造認識のためのより困難なデータセットも提示する。
論文 参考訳(メタデータ) (2023-03-08T05:15:01Z) - EGRC-Net: Embedding-induced Graph Refinement Clustering Network [66.44293190793294]
埋め込みによるグラフリファインメントクラスタリングネットワーク (EGRC-Net) という新しいグラフクラスタリングネットワークを提案する。
EGRC-Netは学習した埋め込みを利用して初期グラフを適応的に洗練し、クラスタリング性能を向上させる。
提案手法はいくつかの最先端手法より一貫して優れている。
論文 参考訳(メタデータ) (2022-11-19T09:08:43Z) - TRUST: An Accurate and End-to-End Table structure Recognizer Using
Splitting-based Transformers [56.56591337457137]
本稿では,TRUSTと呼ばれるテーブル構造認識手法を提案する。
変換器は、大域的な計算、完全メモリ、並列計算のためにテーブル構造認識に適している。
我々はPubTabNetやSynthTableなど,いくつかの人気のあるベンチマークで実験を行い,新しい最先端の結果を得た。
論文 参考訳(メタデータ) (2022-08-31T08:33:36Z) - TSRFormer: Table Structure Recognition with Transformers [15.708108572696064]
本稿では,TSRFormerと呼ばれる新しいテーブル構造認識手法を提案する。
新たな2段階DETRに基づくセパレータ予測手法である textbfSeparator textbfREgression textbfTRansformer (SepRETR) を提案する。
我々は、SciTSR、PubTabNet、WTWなど、いくつかのベンチマークデータセットで最先端のパフォーマンスを実現する。
論文 参考訳(メタデータ) (2022-08-09T17:36:13Z) - TGRNet: A Table Graph Reconstruction Network for Table Structure
Recognition [76.06530816349763]
本稿では,表構造認識のためのエンドツーエンドのトレーニング可能な表グラフ再構成ネットワーク(TGRNet)を提案する。
具体的には,異なる細胞の空間的位置と論理的位置を共同で予測するために,細胞検出枝と細胞論理的位置分岐の2つの主枝を有する。
論文 参考訳(メタデータ) (2021-06-20T01:57:05Z) - Multi-Type-TD-TSR -- Extracting Tables from Document Images using a
Multi-stage Pipeline for Table Detection and Table Structure Recognition:
from OCR to Structured Table Representations [63.98463053292982]
テーブルの認識は、テーブル検出とテーブル構造認識という2つの主要なタスクから構成される。
最近の研究は、テーブル構造認識のタスクにトランスファーラーニングを併用したディープラーニングアプローチへの明確な傾向を示している。
本稿では,テーブル認識問題に対するエンドツーエンドのソリューションを提供するMulti-Type-TD-TSRというマルチステージパイプラインを提案する。
論文 参考訳(メタデータ) (2021-05-23T21:17:18Z) - Global Table Extractor (GTE): A Framework for Joint Table Identification
and Cell Structure Recognition Using Visual Context [11.99452212008243]
本稿では,共同テーブル検出とセル構造認識のための視覚誘導型システムフレームワークを提案する。
GTE-Tableでは、テーブルネットワークをトレーニングするために、テーブルの自然セル封じ込め制約に基づく新たなペナルティを発明する。
これを使って、セルラベルでPubTabNetを強化し、FinTabNet、実世界の複雑な科学的および財務的なデータセットを作成します。
論文 参考訳(メタデータ) (2020-05-01T20:14:49Z) - CascadeTabNet: An approach for end to end table detection and structure
recognition from image-based documents [4.199844472131922]
本稿では、テーブル検出と構造認識の両問題を解決するために、ディープラーニングに基づくエンドツーエンドアプローチの改善を提案する。
本稿ではカスケードマスク領域に基づくCNN高分解ネットワーク(カスケードマスクR-CNN HRNet)モデルを提案する。
ICDAR 2019テーブル構造認識データセットにおいて,最も精度の高い結果を得た。
論文 参考訳(メタデータ) (2020-04-27T08:12:48Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。