論文の概要: Split, embed and merge: An accurate table structure recognizer
- arxiv url: http://arxiv.org/abs/2107.05214v1
- Date: Mon, 12 Jul 2021 06:26:19 GMT
- ステータス: 処理完了
- システム内更新日: 2021-07-13 22:46:33.120193
- Title: Split, embed and merge: An accurate table structure recognizer
- Title(参考訳): Split, Embed and merge: 正確なテーブル構造認識器
- Authors: Zhenrong Zhang, Jianshu Zhang and Jun Du
- Abstract要約: テーブル構造認識器としてSplit, Embed, Merge (SEM) を導入する。
SEM は SciTSR データセットで平均 F-Measure の 96.9% を達成できる。
- 参考スコア(独自算出の注目度): 42.579215135672094
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: The task of table structure recognition is to recognize the internal
structure of a table, which is a key step to make machines understand tables.
However, tabular data in unstructured digital documents, e.g. Portable Document
Format (PDF) and images, are difficult to parse into structured
machine-readable format, due to complexity and diversity in their structure and
style, especially for complex tables. In this paper, we introduce Split, Embed
and Merge (SEM), an accurate table structure recognizer. In the first stage, we
use the FCN to predict the potential regions of the table row (column)
separators, so as to obtain the bounding boxes of the basic grids in the table.
In the second stage, we not only extract the visual features corresponding to
each grid through RoIAlign, but also use the off-the-shelf recognizer and the
BERT to extract the semantic features. The fused features of both are used to
characterize each table grid. We find that by adding additional semantic
features to each grid, the ambiguity problem of the table structure from the
visual perspective can be solved to a certain extent and achieve higher
precision. Finally, we process the merging of these basic grids in a
self-regression manner. The correspondent merging results is learned by the
attention maps in attention mechanism. With the proposed method, we can
recognize the structure of tables well, even for complex tables. SEM can
achieve an average F-Measure of $96.9\%$ on the SciTSR dataset which
outperforms other methods by a large margin. Extensive experiments on other
publicly available table structure recognition datasets show that our model
achieves state-of-the-art.
- Abstract(参考訳): テーブル構造認識のタスクは、マシンにテーブルを理解するための重要なステップであるテーブルの内部構造を認識することである。
しかし、例えば、構造化されていないデジタル文書の表データ。
Portable Document Format (PDF) とイメージは、特に複雑なテーブルにおいて、その構造とスタイルの複雑さと多様性のため、構造化機械可読形式に解析することは困難である。
本稿では,テーブル構造認識器であるSplit, Embed and Merge(SEM)を紹介する。
最初の段階では、FCNを用いてテーブル行(カラム)セパレータの潜在領域を予測し、テーブルの基本的なグリッドの境界ボックスを得る。
第2段階では、RoIAlignを介して各グリッドに対応する視覚的特徴を抽出するだけでなく、オフザシェルフ認識器とBERTを用いて意味的特徴を抽出する。
両者の融合した特徴は、各テーブルグリッドの特徴付けに使用される。
各グリッドに追加のセマンティック機能を追加することにより、視覚的視点から表構造のあいまいさをある程度解決し、高い精度を実現することができることがわかった。
最後に、これらの基本グリッドのマージを自己回帰的に処理する。
アテンション機構のアテンションマップによって対応子マージ結果が学習される。
提案手法により,複雑なテーブルであっても,テーブルの構造をよく認識することができる。
SEM は SciTSR データセット上で平均 F-Measure の 96.9 %$ を達成することができ、他の手法よりも大きなマージンで優れている。
他の利用可能なテーブル構造認識データセットに対する大規模な実験は、我々のモデルが最先端を達成することを示す。
関連論文リスト
- UniTabNet: Bridging Vision and Language Models for Enhanced Table Structure Recognition [55.153629718464565]
我々は、画像からテキストへのモデルに基づくテーブル構造解析のための新しいフレームワークUniTabNetを紹介する。
UniTabNetは、画像とテキストのモデルを使ってテーブルセルを分離し、物理デコーダと論理デコーダを統合して完全なテーブル構造を再構築する。
論文 参考訳(メタデータ) (2024-09-20T01:26:32Z) - SEMv3: A Fast and Robust Approach to Table Separation Line Detection [48.75713662571455]
テーブル構造認識(TSR)は、テーブル固有の構造を入力画像から解析することを目的としている。
スプリット・アンド・マージ(Split-and-merge)パラダイムは、テーブル分離線検出が不可欠であるテーブル構造を解析するための重要なアプローチである。
本稿では, SEMv3 (Split, Embed, Merge) を提案する。
論文 参考訳(メタデータ) (2024-05-20T08:13:46Z) - SEMv2: Table Separation Line Detection Based on Instance Segmentation [96.36188168694781]
SEMv2(SEM: Split, Embed, Merge)と呼ばれるテーブル構造認識器を提案する。
本稿では,テーブル分離ラインのインスタンスレベルの識別問題に対処し,条件付き畳み込みに基づくテーブル分離ライン検出戦略を提案する。
SEMv2を包括的に評価するために、iFLYTABと呼ばれるテーブル構造認識のためのより困難なデータセットも提示する。
論文 参考訳(メタデータ) (2023-03-08T05:15:01Z) - TRUST: An Accurate and End-to-End Table structure Recognizer Using
Splitting-based Transformers [56.56591337457137]
本稿では,TRUSTと呼ばれるテーブル構造認識手法を提案する。
変換器は、大域的な計算、完全メモリ、並列計算のためにテーブル構造認識に適している。
我々はPubTabNetやSynthTableなど,いくつかの人気のあるベンチマークで実験を行い,新しい最先端の結果を得た。
論文 参考訳(メタデータ) (2022-08-31T08:33:36Z) - Table Structure Recognition with Conditional Attention [13.976736586808308]
テーブル構造認識(TSR)問題は、テーブルの構造を認識し、非構造化テーブルを構造化および機械可読フォーマットに変換することを目的としている。
本研究では, 複雑なテーブル構造を, 頂点と辺がそれぞれ細胞を表し, 細胞間の関連を表わすグラフで表すことができると仮定する。
実験の結果,セル境界ボックスのアライメントは,マイクロ平均F1スコアが0.915から0.963に,マクロ平均F1スコアが0.787から0.923に向上することがわかった。
論文 参考訳(メタデータ) (2022-03-08T02:44:58Z) - TGRNet: A Table Graph Reconstruction Network for Table Structure
Recognition [76.06530816349763]
本稿では,表構造認識のためのエンドツーエンドのトレーニング可能な表グラフ再構成ネットワーク(TGRNet)を提案する。
具体的には,異なる細胞の空間的位置と論理的位置を共同で予測するために,細胞検出枝と細胞論理的位置分岐の2つの主枝を有する。
論文 参考訳(メタデータ) (2021-06-20T01:57:05Z) - Table Structure Recognition using Top-Down and Bottom-Up Cues [28.65687982486627]
本稿では,細胞検出と相互作用モジュールを組み合わせたテーブル構造認識手法を提案する。
実際に利用可能な実世界のデータセット上で,我々の手法を実証的に検証する。
論文 参考訳(メタデータ) (2020-10-09T13:32:53Z) - Identifying Table Structure in Documents using Conditional Generative
Adversarial Networks [0.0]
多くの産業や学術研究において、情報は主に構造化されていない文書の形で伝達される。
本稿では,まず,テーブルイメージを標準化されたスケルトンテーブル形式にマッピングするために,条件付き生成逆数ネットワークを用いたトップダウンアプローチを提案する。
次に、xy-cutプロジェクションと遺伝的アルゴリズムを用いた潜在テーブル構造を導出する。
論文 参考訳(メタデータ) (2020-01-13T20:42:40Z) - Table Structure Extraction with Bi-directional Gated Recurrent Unit
Networks [5.350788087718877]
本稿では,検出されたテーブルから行や列を高精度に抽出する,堅牢な深層学習手法を提案する。
我々は、現在利用可能なUNLVとICDAR 2013データセットのベンチマークを行い、最先端のテーブル構造抽出システムよりも大幅に性能を向上した。
論文 参考訳(メタデータ) (2020-01-08T13:17:44Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。