論文の概要: SEMv2: Table Separation Line Detection Based on Instance Segmentation
- arxiv url: http://arxiv.org/abs/2303.04384v2
- Date: Fri, 12 Jan 2024 07:00:30 GMT
- ステータス: 処理完了
- システム内更新日: 2024-01-16 00:32:38.707390
- Title: SEMv2: Table Separation Line Detection Based on Instance Segmentation
- Title(参考訳): SEMv2:インスタンスセグメンテーションに基づくテーブル分離線検出
- Authors: Zhenrong Zhang, Pengfei Hu, Jiefeng Ma, Jun Du, Jianshu Zhang, Huihui
Zhu, Baocai Yin, Bing Yin and Cong Liu
- Abstract要約: SEMv2(SEM: Split, Embed, Merge)と呼ばれるテーブル構造認識器を提案する。
本稿では,テーブル分離ラインのインスタンスレベルの識別問題に対処し,条件付き畳み込みに基づくテーブル分離ライン検出戦略を提案する。
SEMv2を包括的に評価するために、iFLYTABと呼ばれるテーブル構造認識のためのより困難なデータセットも提示する。
- 参考スコア(独自算出の注目度): 96.36188168694781
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Table structure recognition is an indispensable element for enabling machines
to comprehend tables. Its primary purpose is to identify the internal structure
of a table. Nevertheless, due to the complexity and diversity of their
structure and style, it is highly challenging to parse the tabular data into a
structured format that machines can comprehend. In this work, we adhere to the
principle of the split-and-merge based methods and propose an accurate table
structure recognizer, termed SEMv2 (SEM: Split, Embed and Merge). Unlike the
previous works in the ``split'' stage, we aim to address the table separation
line instance-level discrimination problem and introduce a table separation
line detection strategy based on conditional convolution. Specifically, we
design the ``split'' in a top-down manner that detects the table separation
line instance first and then dynamically predicts the table separation line
mask for each instance. The final table separation line shape can be accurately
obtained by processing the table separation line mask in a row-wise/column-wise
manner. To comprehensively evaluate the SEMv2, we also present a more
challenging dataset for table structure recognition, dubbed iFLYTAB, which
encompasses multiple style tables in various scenarios such as photos, scanned
documents, etc. Extensive experiments on publicly available datasets (e.g.
SciTSR, PubTabNet and iFLYTAB) demonstrate the efficacy of our proposed
approach. The code and iFLYTAB dataset are available at
https://github.com/ZZR8066/SEMv2.
- Abstract(参考訳): テーブル構造認識は、機械がテーブルを理解するために欠かせない要素である。
その主な目的はテーブルの内部構造を特定することである。
それでも、その構造とスタイルの複雑さと多様性のため、表形式のデータを機械が理解できる構造化形式に解析することは極めて困難である。
本研究では,スプリット・アンド・マージ方式の原理に従い,semv2 (sem: split, embedded and merge) と呼ばれる正確な表構造認識器を提案する。
従来の「スプリット」段階とは違って、テーブル分離ラインのインスタンスレベルの識別問題に対処し、条件付き畳み込みに基づくテーブル分離ライン検出戦略を導入することを目指している。
具体的には、``split''をトップダウンで設計し、まずテーブル分離ラインインスタンスを検出し、次に各インスタンスのテーブル分離ラインマスクを動的に予測する。
テーブル分離線マスクを行方向/列方向に加工することにより、最終テーブル分離線形状を正確に得ることができる。
また,semv2を包括的に評価するために,iflytabと呼ばれるテーブル構造認識のためのより難解なデータセットを提案する。
公開データセット(SciTSR、PubTabNet、iFLYTABなど)に関する大規模な実験は、提案手法の有効性を実証している。
コードとiFLYTABデータセットはhttps://github.com/ZZR8066/SEMv2で公開されている。
関連論文リスト
- 2D-TPE: Two-Dimensional Positional Encoding Enhances Table Understanding for Large Language Models [48.123582712115336]
既存の方法はしばしば2次元のテーブル構造をトークンの列に平らにする。
2D-TPEは、計算効率を保ちながら本質的な空間情報を失うリスクを効果的に軽減する。
5つのベンチマークによる大規模な実験は、2D-TPEが強いベースラインより優れていることを示している。
論文 参考訳(メタデータ) (2024-09-29T13:16:37Z) - SEMv3: A Fast and Robust Approach to Table Separation Line Detection [48.75713662571455]
テーブル構造認識(TSR)は、テーブル固有の構造を入力画像から解析することを目的としている。
スプリット・アンド・マージ(Split-and-merge)パラダイムは、テーブル分離線検出が不可欠であるテーブル構造を解析するための重要なアプローチである。
本稿では, SEMv3 (Split, Embed, Merge) を提案する。
論文 参考訳(メタデータ) (2024-05-20T08:13:46Z) - TRUST: An Accurate and End-to-End Table structure Recognizer Using
Splitting-based Transformers [56.56591337457137]
本稿では,TRUSTと呼ばれるテーブル構造認識手法を提案する。
変換器は、大域的な計算、完全メモリ、並列計算のためにテーブル構造認識に適している。
我々はPubTabNetやSynthTableなど,いくつかの人気のあるベンチマークで実験を行い,新しい最先端の結果を得た。
論文 参考訳(メタデータ) (2022-08-31T08:33:36Z) - Split, embed and merge: An accurate table structure recognizer [42.579215135672094]
テーブル構造認識器としてSplit, Embed, Merge (SEM) を導入する。
SEM は SciTSR データセットで平均 F-Measure の 96.9% を達成できる。
論文 参考訳(メタデータ) (2021-07-12T06:26:19Z) - TGRNet: A Table Graph Reconstruction Network for Table Structure
Recognition [76.06530816349763]
本稿では,表構造認識のためのエンドツーエンドのトレーニング可能な表グラフ再構成ネットワーク(TGRNet)を提案する。
具体的には,異なる細胞の空間的位置と論理的位置を共同で予測するために,細胞検出枝と細胞論理的位置分岐の2つの主枝を有する。
論文 参考訳(メタデータ) (2021-06-20T01:57:05Z) - Identifying Table Structure in Documents using Conditional Generative
Adversarial Networks [0.0]
多くの産業や学術研究において、情報は主に構造化されていない文書の形で伝達される。
本稿では,まず,テーブルイメージを標準化されたスケルトンテーブル形式にマッピングするために,条件付き生成逆数ネットワークを用いたトップダウンアプローチを提案する。
次に、xy-cutプロジェクションと遺伝的アルゴリズムを用いた潜在テーブル構造を導出する。
論文 参考訳(メタデータ) (2020-01-13T20:42:40Z) - Table Structure Extraction with Bi-directional Gated Recurrent Unit
Networks [5.350788087718877]
本稿では,検出されたテーブルから行や列を高精度に抽出する,堅牢な深層学習手法を提案する。
我々は、現在利用可能なUNLVとICDAR 2013データセットのベンチマークを行い、最先端のテーブル構造抽出システムよりも大幅に性能を向上した。
論文 参考訳(メタデータ) (2020-01-08T13:17:44Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。