論文の概要: Global Table Extractor (GTE): A Framework for Joint Table Identification
and Cell Structure Recognition Using Visual Context
- arxiv url: http://arxiv.org/abs/2005.00589v2
- Date: Wed, 2 Dec 2020 04:45:25 GMT
- ステータス: 処理完了
- システム内更新日: 2022-12-08 00:12:42.658666
- Title: Global Table Extractor (GTE): A Framework for Joint Table Identification
and Cell Structure Recognition Using Visual Context
- Title(参考訳): global table extractor (gte): 視覚的コンテキストを用いた共同テーブル識別と細胞構造認識のためのフレームワーク
- Authors: Xinyi Zheng, Doug Burdick, Lucian Popa, Xu Zhong, Nancy Xin Ru Wang
- Abstract要約: 本稿では,共同テーブル検出とセル構造認識のための視覚誘導型システムフレームワークを提案する。
GTE-Tableでは、テーブルネットワークをトレーニングするために、テーブルの自然セル封じ込め制約に基づく新たなペナルティを発明する。
これを使って、セルラベルでPubTabNetを強化し、FinTabNet、実世界の複雑な科学的および財務的なデータセットを作成します。
- 参考スコア(独自算出の注目度): 11.99452212008243
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Documents are often used for knowledge sharing and preservation in business
and science, within which are tables that capture most of the critical data.
Unfortunately, most documents are stored and distributed as PDF or scanned
images, which fail to preserve logical table structure. Recent vision-based
deep learning approaches have been proposed to address this gap, but most still
cannot achieve state-of-the-art results. We present Global Table Extractor
(GTE), a vision-guided systematic framework for joint table detection and cell
structured recognition, which could be built on top of any object detection
model. With GTE-Table, we invent a new penalty based on the natural cell
containment constraint of tables to train our table network aided by cell
location predictions. GTE-Cell is a new hierarchical cell detection network
that leverages table styles. Further, we design a method to automatically label
table and cell structure in existing documents to cheaply create a large corpus
of training and test data. We use this to enhance PubTabNet with cell labels
and create FinTabNet, real-world and complex scientific and financial datasets
with detailed table structure annotations to help train and test structure
recognition. Our framework surpasses previous state-of-the-art results on the
ICDAR 2013 and ICDAR 2019 table competition in both table detection and cell
structure recognition with a significant 5.8% improvement in the full table
extraction system. Further experiments demonstrate a greater than 45%
improvement in cell structure recognition when compared to a vanilla RetinaNet
object detection model in our new out-of-domain FinTabNet.
- Abstract(参考訳): 文書はビジネスや科学における知識の共有や保存によく使われ、その中に重要なデータの大半をキャプチャする表がある。
残念なことに、ほとんどの文書はPDFやスキャンされた画像として保存され配布され、論理テーブル構造を保存できない。
このギャップに対処するために、近年の視覚に基づくディープラーニングアプローチが提案されているが、ほとんどの場合、最先端の結果は得られていない。
我々は,任意のオブジェクト検出モデル上に構築可能な,共同テーブル検出とセル構造認識のための視覚誘導型システムフレームワークであるGTE(Global Table Extractor)を提案する。
GTE-Tableでは,テーブルの自然セル封じ込め制約に基づく新たなペナルティを考案し,セル位置予測によるテーブルネットワークのトレーニングを行う。
GTE-Cellはテーブルスタイルを活用する新しい階層型細胞検出ネットワークである。
さらに,既存の文書の表やセル構造を自動的にラベル付けして,大規模なトレーニングデータとテストデータのコーパスを安価に作成する手法を設計する。
私たちはこれを使って、細胞ラベル付きpubtabnetを拡張し、fintabnet、実世界および複雑な科学および金融データセットを詳細なテーブル構造アノテーションで作成し、構造認識のトレーニングとテストを支援します。
ICDAR 2013 と ICDAR 2019 のテーブル検出とセル構造認識の両コンペティションにおいて,本フレームワークはこれまでの成果を上回り,全テーブル抽出システムでは5.8%向上した。
さらに、新たなドメイン外FinTabNetのバニラRetinaNetオブジェクト検出モデルと比較して、細胞構造認識の45%以上の改善が示されている。
関連論文リスト
- UniTabNet: Bridging Vision and Language Models for Enhanced Table Structure Recognition [55.153629718464565]
我々は、画像からテキストへのモデルに基づくテーブル構造解析のための新しいフレームワークUniTabNetを紹介する。
UniTabNetは、画像とテキストのモデルを使ってテーブルセルを分離し、物理デコーダと論理デコーダを統合して完全なテーブル構造を再構築する。
論文 参考訳(メタデータ) (2024-09-20T01:26:32Z) - UniCell: Universal Cell Nucleus Classification via Prompt Learning [76.11864242047074]
ユニバーサル細胞核分類フレームワーク(UniCell)を提案する。
異なるデータセットドメインから対応する病理画像のカテゴリを均一に予測するために、新しいプロンプト学習機構を採用している。
特に,本フレームワークでは,原子核検出と分類のためのエンドツーエンドアーキテクチャを採用し,フレキシブルな予測ヘッドを用いて様々なデータセットを適応する。
論文 参考訳(メタデータ) (2024-02-20T11:50:27Z) - TRUST: An Accurate and End-to-End Table structure Recognizer Using
Splitting-based Transformers [56.56591337457137]
本稿では,TRUSTと呼ばれるテーブル構造認識手法を提案する。
変換器は、大域的な計算、完全メモリ、並列計算のためにテーブル構造認識に適している。
我々はPubTabNetやSynthTableなど,いくつかの人気のあるベンチマークで実験を行い,新しい最先端の結果を得た。
論文 参考訳(メタデータ) (2022-08-31T08:33:36Z) - Robust Table Detection and Structure Recognition from Heterogeneous
Document Images [6.961470641696773]
我々はRobusTabNetを導入し、テーブルの境界を検出し、異種文書画像からテーブルの細胞構造を再構築する。
テーブル検出のために、我々は、より高速なR-CNNのための高品質なテーブル提案を生成するために、新しい領域提案ネットワークとしてCornerNetを使用することを提案する。
我々の表構造認識手法は,SciTSR,PubTabNet,cTDaR TrackBの3つの公開ベンチマークにおいて,最先端の性能を実現する。
論文 参考訳(メタデータ) (2022-03-17T03:35:12Z) - Table Structure Recognition with Conditional Attention [13.976736586808308]
テーブル構造認識(TSR)問題は、テーブルの構造を認識し、非構造化テーブルを構造化および機械可読フォーマットに変換することを目的としている。
本研究では, 複雑なテーブル構造を, 頂点と辺がそれぞれ細胞を表し, 細胞間の関連を表わすグラフで表すことができると仮定する。
実験の結果,セル境界ボックスのアライメントは,マイクロ平均F1スコアが0.915から0.963に,マクロ平均F1スコアが0.787から0.923に向上することがわかった。
論文 参考訳(メタデータ) (2022-03-08T02:44:58Z) - TGRNet: A Table Graph Reconstruction Network for Table Structure
Recognition [76.06530816349763]
本稿では,表構造認識のためのエンドツーエンドのトレーニング可能な表グラフ再構成ネットワーク(TGRNet)を提案する。
具体的には,異なる細胞の空間的位置と論理的位置を共同で予測するために,細胞検出枝と細胞論理的位置分岐の2つの主枝を有する。
論文 参考訳(メタデータ) (2021-06-20T01:57:05Z) - Multi-Type-TD-TSR -- Extracting Tables from Document Images using a
Multi-stage Pipeline for Table Detection and Table Structure Recognition:
from OCR to Structured Table Representations [63.98463053292982]
テーブルの認識は、テーブル検出とテーブル構造認識という2つの主要なタスクから構成される。
最近の研究は、テーブル構造認識のタスクにトランスファーラーニングを併用したディープラーニングアプローチへの明確な傾向を示している。
本稿では,テーブル認識問題に対するエンドツーエンドのソリューションを提供するMulti-Type-TD-TSRというマルチステージパイプラインを提案する。
論文 参考訳(メタデータ) (2021-05-23T21:17:18Z) - TCN: Table Convolutional Network for Web Table Interpretation [52.32515851633981]
テーブル内情報とテーブル間情報の両方を考慮した新しいテーブル表現学習手法を提案する。
カラムタイプ予測ではf1の4.8%、カラム対関係予測ではf1の4.1%で競合ベースラインを上回ることができる。
論文 参考訳(メタデータ) (2021-02-17T02:18:10Z) - Table Structure Recognition using Top-Down and Bottom-Up Cues [28.65687982486627]
本稿では,細胞検出と相互作用モジュールを組み合わせたテーブル構造認識手法を提案する。
実際に利用可能な実世界のデータセット上で,我々の手法を実証的に検証する。
論文 参考訳(メタデータ) (2020-10-09T13:32:53Z) - CascadeTabNet: An approach for end to end table detection and structure
recognition from image-based documents [4.199844472131922]
本稿では、テーブル検出と構造認識の両問題を解決するために、ディープラーニングに基づくエンドツーエンドアプローチの改善を提案する。
本稿ではカスケードマスク領域に基づくCNN高分解ネットワーク(カスケードマスクR-CNN HRNet)モデルを提案する。
ICDAR 2019テーブル構造認識データセットにおいて,最も精度の高い結果を得た。
論文 参考訳(メタデータ) (2020-04-27T08:12:48Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。