論文の概要: TSR-DSAW: Table Structure Recognition via Deep Spatial Association of
Words
- arxiv url: http://arxiv.org/abs/2203.06873v1
- Date: Mon, 14 Mar 2022 06:02:28 GMT
- ステータス: 処理完了
- システム内更新日: 2022-03-15 16:01:35.461090
- Title: TSR-DSAW: Table Structure Recognition via Deep Spatial Association of
Words
- Title(参考訳): TSR-DSAW:単語の深部空間結合による表構造認識
- Authors: Arushi Jain, Shubham Paliwal, Monika Sharma, Lovekesh Vig
- Abstract要約: そこで本稿では,表構造を乱すために,表画像に存在する異なる単語対間の空間的関連を捉えるために,深層ネットワークを訓練することを提案する。
TSR-DSAW: TSR through Deep Spatial Association of Words, which outputs a digital representation of a table image in a structured format as HTML。
- 参考スコア(独自算出の注目度): 20.59970119209079
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Existing methods for Table Structure Recognition (TSR) from camera-captured
or scanned documents perform poorly on complex tables consisting of nested rows
/ columns, multi-line texts and missing cell data. This is because current
data-driven methods work by simply training deep models on large volumes of
data and fail to generalize when an unseen table structure is encountered. In
this paper, we propose to train a deep network to capture the spatial
associations between different word pairs present in the table image for
unravelling the table structure. We present an end-to-end pipeline, named
TSR-DSAW: TSR via Deep Spatial Association of Words, which outputs a digital
representation of a table image in a structured format such as HTML. Given a
table image as input, the proposed method begins with the detection of all the
words present in the image using a text-detection network like CRAFT which is
followed by the generation of word-pairs using dynamic programming. These
word-pairs are highlighted in individual images and subsequently, fed into a
DenseNet-121 classifier trained to capture spatial associations such as
same-row, same-column, same-cell or none. Finally, we perform post-processing
on the classifier output to generate the table structure in HTML format. We
evaluate our TSR-DSAW pipeline on two public table-image datasets -- PubTabNet
and ICDAR 2013, and demonstrate improvement over previous methods such as
TableNet and DeepDeSRT.
- Abstract(参考訳): カメラキャプチャやスキャンされた文書からのテーブル構造認識(TSR)の既存の方法は、ネストされた行/列、複数行のテキスト、欠落したセルデータからなる複雑なテーブル上では不十分である。
これは、現在のデータ駆動型メソッドは、単に大量のデータで深いモデルをトレーニングするだけで動作し、目に見えないテーブル構造に遭遇したときの一般化に失敗するためである。
本稿では、テーブル構造を解き明かすために、テーブル画像に存在する異なる単語対間の空間関係を捉えるために、深層ネットワークを訓練することを提案する。
tsr via deep spatial association of wordsは、htmlのような構造化されたフォーマットで表画像のデジタル表現を出力する。
入力として表画像が与えられた場合,提案手法は,craft のようなテキスト検出ネットワークを用いて画像中のすべての単語を検出し,動的プログラミングを用いて単語ペアを生成することから始まる。
これらのワードペアは個々の画像で強調表示され、その後、同一列、同一列、同一セル、ゼロといった空間的関連を捉えるように訓練された密度ネット-121分類器に供給される。
最後に,HTML形式でテーブル構造を生成するために,分類器出力の処理後処理を行う。
TSR-DSAWパイプラインをPubTabNetとICDAR 2013という2つのパブリックなテーブルイメージデータセット上で評価し、TableNetやDeepDeSRTといった従来の手法よりも改善したことを示す。
関連論文リスト
- UniTabNet: Bridging Vision and Language Models for Enhanced Table Structure Recognition [55.153629718464565]
我々は、画像からテキストへのモデルに基づくテーブル構造解析のための新しいフレームワークUniTabNetを紹介する。
UniTabNetは、画像とテキストのモデルを使ってテーブルセルを分離し、物理デコーダと論理デコーダを統合して完全なテーブル構造を再構築する。
論文 参考訳(メタデータ) (2024-09-20T01:26:32Z) - SEMv2: Table Separation Line Detection Based on Instance Segmentation [96.36188168694781]
SEMv2(SEM: Split, Embed, Merge)と呼ばれるテーブル構造認識器を提案する。
本稿では,テーブル分離ラインのインスタンスレベルの識別問題に対処し,条件付き畳み込みに基づくテーブル分離ライン検出戦略を提案する。
SEMv2を包括的に評価するために、iFLYTABと呼ばれるテーブル構造認識のためのより困難なデータセットも提示する。
論文 参考訳(メタデータ) (2023-03-08T05:15:01Z) - Split, embed and merge: An accurate table structure recognizer [42.579215135672094]
テーブル構造認識器としてSplit, Embed, Merge (SEM) を導入する。
SEM は SciTSR データセットで平均 F-Measure の 96.9% を達成できる。
論文 参考訳(メタデータ) (2021-07-12T06:26:19Z) - TGRNet: A Table Graph Reconstruction Network for Table Structure
Recognition [76.06530816349763]
本稿では,表構造認識のためのエンドツーエンドのトレーニング可能な表グラフ再構成ネットワーク(TGRNet)を提案する。
具体的には,異なる細胞の空間的位置と論理的位置を共同で予測するために,細胞検出枝と細胞論理的位置分岐の2つの主枝を有する。
論文 参考訳(メタデータ) (2021-06-20T01:57:05Z) - Multi-Type-TD-TSR -- Extracting Tables from Document Images using a
Multi-stage Pipeline for Table Detection and Table Structure Recognition:
from OCR to Structured Table Representations [63.98463053292982]
テーブルの認識は、テーブル検出とテーブル構造認識という2つの主要なタスクから構成される。
最近の研究は、テーブル構造認識のタスクにトランスファーラーニングを併用したディープラーニングアプローチへの明確な傾向を示している。
本稿では,テーブル認識問題に対するエンドツーエンドのソリューションを提供するMulti-Type-TD-TSRというマルチステージパイプラインを提案する。
論文 参考訳(メタデータ) (2021-05-23T21:17:18Z) - A Graph Representation of Semi-structured Data for Web Question
Answering [96.46484690047491]
本稿では、半構造化データとそれらの関係の構成要素の体系的分類に基づいて、Webテーブルとリストのグラフ表現を提案する。
本手法は,最先端のベースラインに対してF1スコアを3.90ポイント向上させる。
論文 参考訳(メタデータ) (2020-10-14T04:01:54Z) - DART: Open-Domain Structured Data Record to Text Generation [91.23798751437835]
82k以上のインスタンス(DART)を持つオープンドメイン構造化DAta Record to Text生成データセットであるDARTを提案する。
本稿では,テーブルヘッダとテーブルタイトル間の意味的依存関係を利用して,その構造を符号化するテーブルから意味的三重項を抽出する手法を提案する。
我々のデータセット構築フレームワークは、オープンドメイン意味解析と対話行動に基づく意味表現タスクからヘテロジニアスソースを効果的に統合する。
論文 参考訳(メタデータ) (2020-07-06T16:35:30Z) - Identifying Table Structure in Documents using Conditional Generative
Adversarial Networks [0.0]
多くの産業や学術研究において、情報は主に構造化されていない文書の形で伝達される。
本稿では,まず,テーブルイメージを標準化されたスケルトンテーブル形式にマッピングするために,条件付き生成逆数ネットワークを用いたトップダウンアプローチを提案する。
次に、xy-cutプロジェクションと遺伝的アルゴリズムを用いた潜在テーブル構造を導出する。
論文 参考訳(メタデータ) (2020-01-13T20:42:40Z) - Table Structure Extraction with Bi-directional Gated Recurrent Unit
Networks [5.350788087718877]
本稿では,検出されたテーブルから行や列を高精度に抽出する,堅牢な深層学習手法を提案する。
我々は、現在利用可能なUNLVとICDAR 2013データセットのベンチマークを行い、最先端のテーブル構造抽出システムよりも大幅に性能を向上した。
論文 参考訳(メタデータ) (2020-01-08T13:17:44Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。