論文の概要: Multi-Type-TD-TSR -- Extracting Tables from Document Images using a
Multi-stage Pipeline for Table Detection and Table Structure Recognition:
from OCR to Structured Table Representations
- arxiv url: http://arxiv.org/abs/2105.11021v1
- Date: Sun, 23 May 2021 21:17:18 GMT
- ステータス: 処理完了
- システム内更新日: 2021-05-26 06:23:51.734199
- Title: Multi-Type-TD-TSR -- Extracting Tables from Document Images using a
Multi-stage Pipeline for Table Detection and Table Structure Recognition:
from OCR to Structured Table Representations
- Title(参考訳): Multi-Type-TD-TSR -- テーブル検出とテーブル構造認識のための多段階パイプラインを用いた文書画像からのテーブル抽出:OCRから構造化テーブル表現へ
- Authors: Pascal Fischer, Alen Smajic, Alexander Mehler, Giuseppe Abrami
- Abstract要約: テーブルの認識は、テーブル検出とテーブル構造認識という2つの主要なタスクから構成される。
最近の研究は、テーブル構造認識のタスクにトランスファーラーニングを併用したディープラーニングアプローチへの明確な傾向を示している。
本稿では,テーブル認識問題に対するエンドツーエンドのソリューションを提供するMulti-Type-TD-TSRというマルチステージパイプラインを提案する。
- 参考スコア(独自算出の注目度): 63.98463053292982
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: As global trends are shifting towards data-driven industries, the demand for
automated algorithms that can convert digital images of scanned documents into
machine readable information is rapidly growing. Besides the opportunity of
data digitization for the application of data analytic tools, there is also a
massive improvement towards automation of processes, which previously would
require manual inspection of the documents. Although the introduction of
optical character recognition technologies mostly solved the task of converting
human-readable characters from images into machine-readable characters, the
task of extracting table semantics has been less focused on over the years. The
recognition of tables consists of two main tasks, namely table detection and
table structure recognition. Most prior work on this problem focuses on either
task without offering an end-to-end solution or paying attention to real
application conditions like rotated images or noise artefacts inside the
document image. Recent work shows a clear trend towards deep learning
approaches coupled with the use of transfer learning for the task of table
structure recognition due to the lack of sufficiently large datasets. In this
paper we present a multistage pipeline named Multi-Type-TD-TSR, which offers an
end-to-end solution for the problem of table recognition. It utilizes
state-of-the-art deep learning models for table detection and differentiates
between 3 different types of tables based on the tables' borders. For the table
structure recognition we use a deterministic non-data driven algorithm, which
works on all table types. We additionally present two algorithms. One for
unbordered tables and one for bordered tables, which are the base of the used
table structure recognition algorithm. We evaluate Multi-Type-TD-TSR on the
ICDAR 2019 table structure recognition dataset and achieve a new
state-of-the-art.
- Abstract(参考訳): 世界的トレンドがデータ駆動産業にシフトする中、スキャンされた文書のデジタル画像を機械可読情報に変換する自動アルゴリズムの需要は急速に増加している。
データ分析ツールの適用のためのデータデジタル化の機会に加えて、以前は手動で文書を検査する必要があったプロセスの自動化にも大きな改善が加えられている。
光文字認識技術の導入により、画像から可読文字を機械可読文字に変換する作業はほとんど解決されたが、テーブル意味論の抽出作業は長年にわたってあまり注目されていない。
テーブルの認識は、テーブル検出とテーブル構造認識という2つの主なタスクで構成される。
この問題に関するほとんどの以前の研究は、エンドツーエンドのソリューションを提供することなく、あるいはドキュメントイメージ内の回転画像やノイズアーティファクトのような実際のアプリケーション条件に注意を払うことなく、タスクにフォーカスする。
最近の研究は、十分に大規模なデータセットが不足しているため、テーブル構造認識のタスクに転送学習を用いることで、ディープラーニングアプローチへの明確な傾向を示している。
本稿では,テーブル認識問題に対するエンドツーエンドのソリューションを提供するMulti-Type-TD-TSRというマルチステージパイプラインを提案する。
最先端のディープラーニングモデルを使用してテーブルの検出を行い、テーブルの境界に基づいて3種類のテーブルを区別する。
テーブル構造認識には、すべてのテーブルタイプで動作する決定論的非データ駆動アルゴリズムを使用します。
さらに2つのアルゴリズムを提示する。
境界付きテーブル用と境界付きテーブル用があり、これは使用済みテーブル構造認識アルゴリズムの基礎となっている。
ICDAR 2019テーブル構造認識データセット上でMulti-Type-TD-TSRを評価し,新しい最先端を実現する。
関連論文リスト
- UniTabNet: Bridging Vision and Language Models for Enhanced Table Structure Recognition [55.153629718464565]
我々は、画像からテキストへのモデルに基づくテーブル構造解析のための新しいフレームワークUniTabNetを紹介する。
UniTabNetは、画像とテキストのモデルを使ってテーブルセルを分離し、物理デコーダと論理デコーダを統合して完全なテーブル構造を再構築する。
論文 参考訳(メタデータ) (2024-09-20T01:26:32Z) - Knowledge-Aware Reasoning over Multimodal Semi-structured Tables [85.24395216111462]
本研究では、現在のAIモデルがマルチモーダルな構造化データに基づいて知識を考慮した推論を行うことができるかどうかを検討する。
この目的のために設計された新しいデータセットであるMMTabQAを紹介する。
我々の実験は、複数のテキストと画像の入力を効果的に統合し解釈する上で、現在のAIモデルに対する重大な課題を浮き彫りにしている。
論文 参考訳(メタデータ) (2024-08-25T15:17:43Z) - TC-OCR: TableCraft OCR for Efficient Detection & Recognition of Table Structure & Content [39.34067105360439]
本稿では,DeTR,CascadeTabNet,PP OCR v2といったディープラーニングモデルを統合し,総合的な画像ベースのテーブル認識を実現するエンドツーエンドパイプラインを提案する。
本システムでは,同時テーブル検出(TD),テーブル構造認識(TSR),テーブル内容認識(TCR)を実現している。
提案手法は0.96のIOUと78%のOCR精度を実現し,従来のテーブルトランスフォーマーに比べてOCR精度が約25%向上したことを示す。
論文 参考訳(メタデータ) (2024-04-16T06:24:53Z) - A large-scale dataset for end-to-end table recognition in the wild [13.717478398235055]
テーブル認識(Table Recognition, TR)は、パターン認識におけるホットスポットの一つ。
現在、実際のシナリオにおけるエンドツーエンドのTRは、3つのサブタスクを同時に達成しているが、まだ探索されていない研究領域である。
そこで本研究では,様々なテーブル形式を持つテーブル認識セット(TabRecSet)という大規模データセットを提案する。
論文 参考訳(メタデータ) (2023-03-27T02:48:51Z) - SEMv2: Table Separation Line Detection Based on Instance Segmentation [96.36188168694781]
SEMv2(SEM: Split, Embed, Merge)と呼ばれるテーブル構造認識器を提案する。
本稿では,テーブル分離ラインのインスタンスレベルの識別問題に対処し,条件付き畳み込みに基づくテーブル分離ライン検出戦略を提案する。
SEMv2を包括的に評価するために、iFLYTABと呼ばれるテーブル構造認識のためのより困難なデータセットも提示する。
論文 参考訳(メタデータ) (2023-03-08T05:15:01Z) - Graph Neural Networks and Representation Embedding for Table Extraction
in PDF Documents [1.1859913430860336]
この研究の主な貢献は、グラフニューラルネットワークを利用したテーブル抽出の問題に取り組むことである。
PubLayNetおよびPubTables-1Mデータセットに提供される情報をマージして得られた新しいデータセットに対する提案手法を実験的に評価した。
論文 参考訳(メタデータ) (2022-08-23T21:36:01Z) - TGRNet: A Table Graph Reconstruction Network for Table Structure
Recognition [76.06530816349763]
本稿では,表構造認識のためのエンドツーエンドのトレーニング可能な表グラフ再構成ネットワーク(TGRNet)を提案する。
具体的には,異なる細胞の空間的位置と論理的位置を共同で予測するために,細胞検出枝と細胞論理的位置分岐の2つの主枝を有する。
論文 参考訳(メタデータ) (2021-06-20T01:57:05Z) - A Graph Representation of Semi-structured Data for Web Question
Answering [96.46484690047491]
本稿では、半構造化データとそれらの関係の構成要素の体系的分類に基づいて、Webテーブルとリストのグラフ表現を提案する。
本手法は,最先端のベースラインに対してF1スコアを3.90ポイント向上させる。
論文 参考訳(メタデータ) (2020-10-14T04:01:54Z) - Table Structure Extraction with Bi-directional Gated Recurrent Unit
Networks [5.350788087718877]
本稿では,検出されたテーブルから行や列を高精度に抽出する,堅牢な深層学習手法を提案する。
我々は、現在利用可能なUNLVとICDAR 2013データセットのベンチマークを行い、最先端のテーブル構造抽出システムよりも大幅に性能を向上した。
論文 参考訳(メタデータ) (2020-01-08T13:17:44Z) - TableNet: Deep Learning model for end-to-end Table detection and Tabular
data extraction from Scanned Document Images [18.016832803961165]
本稿では,テーブル検出と構造認識のための新しいエンドツーエンドディープラーニングモデルを提案する。
TableNetは、テーブル検出のツインタスクとテーブル構造認識の相互依存性を利用する。
提案手法は, ICDAR 2013 と Marmot Table のデータセットを用いて評価した。
論文 参考訳(メタデータ) (2020-01-06T10:25:32Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。