論文の概要: Table Structure Recognition with Conditional Attention
- arxiv url: http://arxiv.org/abs/2203.03819v1
- Date: Tue, 8 Mar 2022 02:44:58 GMT
- ステータス: 処理完了
- システム内更新日: 2022-03-09 15:48:32.195237
- Title: Table Structure Recognition with Conditional Attention
- Title(参考訳): 条件付き注意によるテーブル構造認識
- Authors: Bin Xiao, Murat Simsek, Burak Kantarci and Ala Abu Alkheir
- Abstract要約: テーブル構造認識(TSR)問題は、テーブルの構造を認識し、非構造化テーブルを構造化および機械可読フォーマットに変換することを目的としている。
本研究では, 複雑なテーブル構造を, 頂点と辺がそれぞれ細胞を表し, 細胞間の関連を表わすグラフで表すことができると仮定する。
実験の結果,セル境界ボックスのアライメントは,マイクロ平均F1スコアが0.915から0.963に,マクロ平均F1スコアが0.787から0.923に向上することがわかった。
- 参考スコア(独自算出の注目度): 13.976736586808308
- License: http://creativecommons.org/licenses/by-nc-sa/4.0/
- Abstract: Tabular data in digital documents is widely used to express compact and
important information for readers. However, it is challenging to parse tables
from unstructured digital documents, such as PDFs and images, into
machine-readable format because of the complexity of table structures and the
missing of meta-information. Table Structure Recognition (TSR) problem aims to
recognize the structure of a table and transform the unstructured tables into a
structured and machine-readable format so that the tabular data can be further
analysed by the down-stream tasks, such as semantic modeling and information
retrieval. In this study, we hypothesize that a complicated table structure can
be represented by a graph whose vertices and edges represent the cells and
association between cells, respectively. Then we define the table structure
recognition problem as a cell association classification problem and propose a
conditional attention network (CATT-Net). The experimental results demonstrate
the superiority of our proposed method over the state-of-the-art methods on
various datasets. Besides, we investigate whether the alignment of a cell
bounding box or a text-focused approach has more impact on the model
performance. Due to the lack of public dataset annotations based on these two
approaches, we further annotate the ICDAR2013 dataset providing both types of
bounding boxes, which can be a new benchmark dataset for evaluating the methods
in this field. Experimental results show that the alignment of a cell bounding
box can help improve the Micro-averaged F1 score from 0.915 to 0.963, and the
Macro-average F1 score from 0.787 to 0.923.
- Abstract(参考訳): デジタル文書の表データは、読者にとってコンパクトで重要な情報を表現するために広く使われている。
しかし、テーブル構造が複雑でメタ情報の欠如のため、pdfや画像などの構造化されていないデジタル文書からテーブルを機械可読形式に解析することは困難である。
表構造認識(TSR)問題は、テーブルの構造を認識し、非構造化テーブルを構造化および機械可読形式に変換して、セマンティックモデリングや情報検索などの下流タスクによってさらに解析できるようにすることである。
本研究では, 複雑なテーブル構造を, 頂点と辺がそれぞれ細胞を表し, 細胞間の関連を表わすグラフで表すことができると仮定する。
そこで我々は,表構造認識問題をセル関連分類問題として定義し,条件付き注意ネットワーク(CATT-Net)を提案する。
実験により,提案手法が各種データセットの最先端手法よりも優れていることを示す。
さらに,セル境界ボックスのアライメントやテキスト中心のアプローチがモデル性能に与える影響についても検討する。
これらの2つのアプローチに基づいた公開データセットアノテーションが欠如しているため、この分野でメソッドを評価するための新しいベンチマークデータセットである、両方のバウンディングボックスを提供するICDAR2013データセットをさらに注釈付けする。
実験の結果,セル境界ボックスのアライメントは,マイクロ平均F1スコアが0.915から0.963に,マクロ平均F1スコアが0.787から0.923に向上することがわかった。
関連論文リスト
- UniTabNet: Bridging Vision and Language Models for Enhanced Table Structure Recognition [55.153629718464565]
我々は、画像からテキストへのモデルに基づくテーブル構造解析のための新しいフレームワークUniTabNetを紹介する。
UniTabNetは、画像とテキストのモデルを使ってテーブルセルを分離し、物理デコーダと論理デコーダを統合して完全なテーブル構造を再構築する。
論文 参考訳(メタデータ) (2024-09-20T01:26:32Z) - Doc2SoarGraph: Discrete Reasoning over Visually-Rich Table-Text
Documents via Semantic-Oriented Hierarchical Graphs [79.0426838808629]
視覚的にリッチなテーブルテキスト文書に答えるTAT-DQAを提案する。
具体的には、離散推論機能を強化した新しいDoc2SoarGraphフレームワークを提案する。
我々は,TAT-DQAデータセットに関する広範な実験を行い,提案したフレームワークは,テストセット上でのエクサクティマッチ(EM)とF1スコアでそれぞれ17.73%,F1スコアで16.91%の最高のベースラインモデルを上回る結果を得た。
論文 参考訳(メタデータ) (2023-05-03T07:30:32Z) - SEMv2: Table Separation Line Detection Based on Instance Segmentation [96.36188168694781]
SEMv2(SEM: Split, Embed, Merge)と呼ばれるテーブル構造認識器を提案する。
本稿では,テーブル分離ラインのインスタンスレベルの識別問題に対処し,条件付き畳み込みに基づくテーブル分離ライン検出戦略を提案する。
SEMv2を包括的に評価するために、iFLYTABと呼ばれるテーブル構造認識のためのより困難なデータセットも提示する。
論文 参考訳(メタデータ) (2023-03-08T05:15:01Z) - TRUST: An Accurate and End-to-End Table structure Recognizer Using
Splitting-based Transformers [56.56591337457137]
本稿では,TRUSTと呼ばれるテーブル構造認識手法を提案する。
変換器は、大域的な計算、完全メモリ、並列計算のためにテーブル構造認識に適している。
我々はPubTabNetやSynthTableなど,いくつかの人気のあるベンチマークで実験を行い,新しい最先端の結果を得た。
論文 参考訳(メタデータ) (2022-08-31T08:33:36Z) - Visual Understanding of Complex Table Structures from Document Images [32.95187519339354]
本稿では,テーブル内におけるセル固有のアライメントをキャプチャするオブジェクト検出に基づく新しいディープモデルを提案する。
また,新しい直線グラフに基づく定式化を導出することにより,構造認識の改善も目指している。
我々のフレームワークは、ベンチマークデータセットの平均F1スコアを2.7%改善する。
論文 参考訳(メタデータ) (2021-11-13T14:54:33Z) - Split, embed and merge: An accurate table structure recognizer [42.579215135672094]
テーブル構造認識器としてSplit, Embed, Merge (SEM) を導入する。
SEM は SciTSR データセットで平均 F-Measure の 96.9% を達成できる。
論文 参考訳(メタデータ) (2021-07-12T06:26:19Z) - TGRNet: A Table Graph Reconstruction Network for Table Structure
Recognition [76.06530816349763]
本稿では,表構造認識のためのエンドツーエンドのトレーニング可能な表グラフ再構成ネットワーク(TGRNet)を提案する。
具体的には,異なる細胞の空間的位置と論理的位置を共同で予測するために,細胞検出枝と細胞論理的位置分岐の2つの主枝を有する。
論文 参考訳(メタデータ) (2021-06-20T01:57:05Z) - TCN: Table Convolutional Network for Web Table Interpretation [52.32515851633981]
テーブル内情報とテーブル間情報の両方を考慮した新しいテーブル表現学習手法を提案する。
カラムタイプ予測ではf1の4.8%、カラム対関係予測ではf1の4.1%で競合ベースラインを上回ることができる。
論文 参考訳(メタデータ) (2021-02-17T02:18:10Z) - Table Structure Recognition using Top-Down and Bottom-Up Cues [28.65687982486627]
本稿では,細胞検出と相互作用モジュールを組み合わせたテーブル構造認識手法を提案する。
実際に利用可能な実世界のデータセット上で,我々の手法を実証的に検証する。
論文 参考訳(メタデータ) (2020-10-09T13:32:53Z) - Identifying Table Structure in Documents using Conditional Generative
Adversarial Networks [0.0]
多くの産業や学術研究において、情報は主に構造化されていない文書の形で伝達される。
本稿では,まず,テーブルイメージを標準化されたスケルトンテーブル形式にマッピングするために,条件付き生成逆数ネットワークを用いたトップダウンアプローチを提案する。
次に、xy-cutプロジェクションと遺伝的アルゴリズムを用いた潜在テーブル構造を導出する。
論文 参考訳(メタデータ) (2020-01-13T20:42:40Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。