論文の概要: Table Structure Extraction with Bi-directional Gated Recurrent Unit
Networks
- arxiv url: http://arxiv.org/abs/2001.02501v1
- Date: Wed, 8 Jan 2020 13:17:44 GMT
- ステータス: 処理完了
- システム内更新日: 2023-01-13 13:05:15.361588
- Title: Table Structure Extraction with Bi-directional Gated Recurrent Unit
Networks
- Title(参考訳): 双方向Gated Recurrent Unit Networkによるテーブル構造抽出
- Authors: Saqib Ali Khan, Syed Muhammad Daniyal Khalid, Muhammad Ali Shahzad and
Faisal Shafait
- Abstract要約: 本稿では,検出されたテーブルから行や列を高精度に抽出する,堅牢な深層学習手法を提案する。
我々は、現在利用可能なUNLVとICDAR 2013データセットのベンチマークを行い、最先端のテーブル構造抽出システムよりも大幅に性能を向上した。
- 参考スコア(独自算出の注目度): 5.350788087718877
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Tables present summarized and structured information to the reader, which
makes table structure extraction an important part of document understanding
applications. However, table structure identification is a hard problem not
only because of the large variation in the table layouts and styles, but also
owing to the variations in the page layouts and the noise contamination levels.
A lot of research has been done to identify table structure, most of which is
based on applying heuristics with the aid of optical character recognition
(OCR) to hand pick layout features of the tables. These methods fail to
generalize well because of the variations in the table layouts and the errors
generated by OCR. In this paper, we have proposed a robust deep learning based
approach to extract rows and columns from a detected table in document images
with a high precision. In the proposed solution, the table images are first
pre-processed and then fed to a bi-directional Recurrent Neural Network with
Gated Recurrent Units (GRU) followed by a fully-connected layer with soft max
activation. The network scans the images from top-to-bottom as well as
left-to-right and classifies each input as either a row-separator or a
column-separator. We have benchmarked our system on publicly available UNLV as
well as ICDAR 2013 datasets on which it outperformed the state-of-the-art table
structure extraction systems by a significant margin.
- Abstract(参考訳): テーブルは要約され構造化された情報を読者に提示するので、表構造抽出は文書理解アプリケーションの重要な部分となる。
しかし,表の構造の同定は,表のレイアウトやスタイルに大きな変化があるだけでなく,ページのレイアウトや騒音汚染レベルの変化によっても困難である。
表の構造を特定するために多くの研究が行われており、その大部分は、表のレイアウトを手作業で選択するための光学文字認識(OCR)によるヒューリスティックスの適用に基づいている。
これらの手法は、表レイアウトのばらつきとOCRが生成したエラーのために、うまく一般化できない。
本稿では,文書画像中の検出されたテーブルから列や列を高精度に抽出する,頑健なディープラーニング手法を提案する。
提案手法では、まずテーブルイメージを前処理し、次にGRU(Gated Recurrent Units)を備えた双方向のリカレントニューラルネットワークに供給し、続いてソフトマックスアクティベーションを備えた全接続層に供給する。
ネットワークは、トップからボトムまでの画像を左から右にスキャンし、各入力を行分離子またはカラム分離子として分類する。
我々は、現在利用可能なUNLVとICDAR 2013データセットのベンチマークを行い、最先端のテーブル構造抽出システムよりも大幅に性能を向上した。
関連論文リスト
- SEMv3: A Fast and Robust Approach to Table Separation Line Detection [48.75713662571455]
テーブル構造認識(TSR)は、テーブル固有の構造を入力画像から解析することを目的としている。
スプリット・アンド・マージ(Split-and-merge)パラダイムは、テーブル分離線検出が不可欠であるテーブル構造を解析するための重要なアプローチである。
本稿では, SEMv3 (Split, Embed, Merge) を提案する。
論文 参考訳(メタデータ) (2024-05-20T08:13:46Z) - SEMv2: Table Separation Line Detection Based on Instance Segmentation [96.36188168694781]
SEMv2(SEM: Split, Embed, Merge)と呼ばれるテーブル構造認識器を提案する。
本稿では,テーブル分離ラインのインスタンスレベルの識別問題に対処し,条件付き畳み込みに基づくテーブル分離ライン検出戦略を提案する。
SEMv2を包括的に評価するために、iFLYTABと呼ばれるテーブル構造認識のためのより困難なデータセットも提示する。
論文 参考訳(メタデータ) (2023-03-08T05:15:01Z) - TRUST: An Accurate and End-to-End Table structure Recognizer Using
Splitting-based Transformers [56.56591337457137]
本稿では,TRUSTと呼ばれるテーブル構造認識手法を提案する。
変換器は、大域的な計算、完全メモリ、並列計算のためにテーブル構造認識に適している。
我々はPubTabNetやSynthTableなど,いくつかの人気のあるベンチマークで実験を行い,新しい最先端の結果を得た。
論文 参考訳(メタデータ) (2022-08-31T08:33:36Z) - Table Retrieval May Not Necessitate Table-specific Model Design [83.27735758203089]
テーブル検索のタスクに焦点をあてて、"テーブル固有のモデル設計はテーブル検索に必要か?
自然質問データセット (NQ-table) の表に基づく分析の結果, 70%以上の症例では構造が無視できる役割を担っていることがわかった。
次に、テーブル構造、すなわち補助列/カラム埋め込み、ハードアテンションマスク、ソフトリレーションに基づくアテンションバイアスを明示的にエンコードする3つのモジュールを実験する。
いずれも大きな改善は得られず、テーブル固有のモデル設計がテーブル検索に不要である可能性が示唆された。
論文 参考訳(メタデータ) (2022-05-19T20:35:23Z) - Split, embed and merge: An accurate table structure recognizer [42.579215135672094]
テーブル構造認識器としてSplit, Embed, Merge (SEM) を導入する。
SEM は SciTSR データセットで平均 F-Measure の 96.9% を達成できる。
論文 参考訳(メタデータ) (2021-07-12T06:26:19Z) - TGRNet: A Table Graph Reconstruction Network for Table Structure
Recognition [76.06530816349763]
本稿では,表構造認識のためのエンドツーエンドのトレーニング可能な表グラフ再構成ネットワーク(TGRNet)を提案する。
具体的には,異なる細胞の空間的位置と論理的位置を共同で予測するために,細胞検出枝と細胞論理的位置分岐の2つの主枝を有する。
論文 参考訳(メタデータ) (2021-06-20T01:57:05Z) - Multi-Type-TD-TSR -- Extracting Tables from Document Images using a
Multi-stage Pipeline for Table Detection and Table Structure Recognition:
from OCR to Structured Table Representations [63.98463053292982]
テーブルの認識は、テーブル検出とテーブル構造認識という2つの主要なタスクから構成される。
最近の研究は、テーブル構造認識のタスクにトランスファーラーニングを併用したディープラーニングアプローチへの明確な傾向を示している。
本稿では,テーブル認識問題に対するエンドツーエンドのソリューションを提供するMulti-Type-TD-TSRというマルチステージパイプラインを提案する。
論文 参考訳(メタデータ) (2021-05-23T21:17:18Z) - Table Structure Recognition using Top-Down and Bottom-Up Cues [28.65687982486627]
本稿では,細胞検出と相互作用モジュールを組み合わせたテーブル構造認識手法を提案する。
実際に利用可能な実世界のデータセット上で,我々の手法を実証的に検証する。
論文 参考訳(メタデータ) (2020-10-09T13:32:53Z) - Identifying Table Structure in Documents using Conditional Generative
Adversarial Networks [0.0]
多くの産業や学術研究において、情報は主に構造化されていない文書の形で伝達される。
本稿では,まず,テーブルイメージを標準化されたスケルトンテーブル形式にマッピングするために,条件付き生成逆数ネットワークを用いたトップダウンアプローチを提案する。
次に、xy-cutプロジェクションと遺伝的アルゴリズムを用いた潜在テーブル構造を導出する。
論文 参考訳(メタデータ) (2020-01-13T20:42:40Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。