論文の概要: Table Structure Recognition using Top-Down and Bottom-Up Cues
- arxiv url: http://arxiv.org/abs/2010.04565v1
- Date: Fri, 9 Oct 2020 13:32:53 GMT
- ステータス: 処理完了
- システム内更新日: 2022-10-09 06:00:36.595317
- Title: Table Structure Recognition using Top-Down and Bottom-Up Cues
- Title(参考訳): トップダウンとボトムアップによる表構造認識
- Authors: Sachin Raja, Ajoy Mondal, and C. V. Jawahar
- Abstract要約: 本稿では,細胞検出と相互作用モジュールを組み合わせたテーブル構造認識手法を提案する。
実際に利用可能な実世界のデータセット上で,我々の手法を実証的に検証する。
- 参考スコア(独自算出の注目度): 28.65687982486627
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Tables are information-rich structured objects in document images. While
significant work has been done in localizing tables as graphic objects in
document images, only limited attempts exist on table structure recognition.
Most existing literature on structure recognition depends on extraction of
meta-features from the PDF document or on the optical character recognition
(OCR) models to extract low-level layout features from the image. However,
these methods fail to generalize well because of the absence of meta-features
or errors made by the OCR when there is a significant variance in table layouts
and text organization. In our work, we focus on tables that have complex
structures, dense content, and varying layouts with no dependency on
meta-features and/or OCR.
We present an approach for table structure recognition that combines cell
detection and interaction modules to localize the cells and predict their row
and column associations with other detected cells. We incorporate structural
constraints as additional differential components to the loss function for cell
detection. We empirically validate our method on the publicly available
real-world datasets - ICDAR-2013, ICDAR-2019 (cTDaR) archival, UNLV, SciTSR,
SciTSR-COMP, TableBank, and PubTabNet. Our attempt opens up a new direction for
table structure recognition by combining top-down (table cells detection) and
bottom-up (structure recognition) cues in visually understanding the tables.
- Abstract(参考訳): テーブルはドキュメントイメージ内の情報豊富な構造化オブジェクトである。
文書画像中のグラフィックオブジェクトとしてテーブルをローカライズする作業は行われているが、テーブル構造認識には限られた試みしか存在しない。
構造認識に関する文献の多くは、PDF文書からのメタ機能抽出や、画像から低レベルのレイアウト特徴を抽出する光学文字認識(OCR)モデルに依存している。
しかし,表のレイアウトやテキスト構造に大きな違いがある場合,OCRのメタ機能やエラーが欠如しているため,これらの手法はうまく一般化できない。
我々の研究では、メタ機能やOCRに依存しない複雑な構造、高密度なコンテンツ、さまざまなレイアウトを持つテーブルに焦点を当てています。
本稿では,細胞検出と相互作用モジュールを組み合わせることにより,細胞を局所化し,他の検出された細胞との行と列の関連を予測できるテーブル構造認識手法を提案する。
細胞検出のための損失関数に、構造的制約を付加的な差分成分として組み込む。
ICDAR-2013, ICDAR-2019 (cTDaR) Archival, UNLV, SciTSR, SciTSR-COMP, TableBank, PubTabNet という,公開可能な実世界のデータセットに対して,我々の手法を実証的に検証した。
我々の試みは、テーブルの視覚的理解にトップダウン(テーブル細胞検出)とボトムアップ(構造認識)を組み合わせたテーブル構造認識の新しい方向を開く。
関連論文リスト
- UniTabNet: Bridging Vision and Language Models for Enhanced Table Structure Recognition [55.153629718464565]
我々は、画像からテキストへのモデルに基づくテーブル構造解析のための新しいフレームワークUniTabNetを紹介する。
UniTabNetは、画像とテキストのモデルを使ってテーブルセルを分離し、物理デコーダと論理デコーダを統合して完全なテーブル構造を再構築する。
論文 参考訳(メタデータ) (2024-09-20T01:26:32Z) - SEMv2: Table Separation Line Detection Based on Instance Segmentation [96.36188168694781]
SEMv2(SEM: Split, Embed, Merge)と呼ばれるテーブル構造認識器を提案する。
本稿では,テーブル分離ラインのインスタンスレベルの識別問題に対処し,条件付き畳み込みに基づくテーブル分離ライン検出戦略を提案する。
SEMv2を包括的に評価するために、iFLYTABと呼ばれるテーブル構造認識のためのより困難なデータセットも提示する。
論文 参考訳(メタデータ) (2023-03-08T05:15:01Z) - TRUST: An Accurate and End-to-End Table structure Recognizer Using
Splitting-based Transformers [56.56591337457137]
本稿では,TRUSTと呼ばれるテーブル構造認識手法を提案する。
変換器は、大域的な計算、完全メモリ、並列計算のためにテーブル構造認識に適している。
我々はPubTabNetやSynthTableなど,いくつかの人気のあるベンチマークで実験を行い,新しい最先端の結果を得た。
論文 参考訳(メタデータ) (2022-08-31T08:33:36Z) - Table Structure Recognition with Conditional Attention [13.976736586808308]
テーブル構造認識(TSR)問題は、テーブルの構造を認識し、非構造化テーブルを構造化および機械可読フォーマットに変換することを目的としている。
本研究では, 複雑なテーブル構造を, 頂点と辺がそれぞれ細胞を表し, 細胞間の関連を表わすグラフで表すことができると仮定する。
実験の結果,セル境界ボックスのアライメントは,マイクロ平均F1スコアが0.915から0.963に,マクロ平均F1スコアが0.787から0.923に向上することがわかった。
論文 参考訳(メタデータ) (2022-03-08T02:44:58Z) - Split, embed and merge: An accurate table structure recognizer [42.579215135672094]
テーブル構造認識器としてSplit, Embed, Merge (SEM) を導入する。
SEM は SciTSR データセットで平均 F-Measure の 96.9% を達成できる。
論文 参考訳(メタデータ) (2021-07-12T06:26:19Z) - TGRNet: A Table Graph Reconstruction Network for Table Structure
Recognition [76.06530816349763]
本稿では,表構造認識のためのエンドツーエンドのトレーニング可能な表グラフ再構成ネットワーク(TGRNet)を提案する。
具体的には,異なる細胞の空間的位置と論理的位置を共同で予測するために,細胞検出枝と細胞論理的位置分岐の2つの主枝を有する。
論文 参考訳(メタデータ) (2021-06-20T01:57:05Z) - Multi-Type-TD-TSR -- Extracting Tables from Document Images using a
Multi-stage Pipeline for Table Detection and Table Structure Recognition:
from OCR to Structured Table Representations [63.98463053292982]
テーブルの認識は、テーブル検出とテーブル構造認識という2つの主要なタスクから構成される。
最近の研究は、テーブル構造認識のタスクにトランスファーラーニングを併用したディープラーニングアプローチへの明確な傾向を示している。
本稿では,テーブル認識問題に対するエンドツーエンドのソリューションを提供するMulti-Type-TD-TSRというマルチステージパイプラインを提案する。
論文 参考訳(メタデータ) (2021-05-23T21:17:18Z) - Global Table Extractor (GTE): A Framework for Joint Table Identification
and Cell Structure Recognition Using Visual Context [11.99452212008243]
本稿では,共同テーブル検出とセル構造認識のための視覚誘導型システムフレームワークを提案する。
GTE-Tableでは、テーブルネットワークをトレーニングするために、テーブルの自然セル封じ込め制約に基づく新たなペナルティを発明する。
これを使って、セルラベルでPubTabNetを強化し、FinTabNet、実世界の複雑な科学的および財務的なデータセットを作成します。
論文 参考訳(メタデータ) (2020-05-01T20:14:49Z) - Table Structure Extraction with Bi-directional Gated Recurrent Unit
Networks [5.350788087718877]
本稿では,検出されたテーブルから行や列を高精度に抽出する,堅牢な深層学習手法を提案する。
我々は、現在利用可能なUNLVとICDAR 2013データセットのベンチマークを行い、最先端のテーブル構造抽出システムよりも大幅に性能を向上した。
論文 参考訳(メタデータ) (2020-01-08T13:17:44Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。