論文の概要: CascadeTabNet: An approach for end to end table detection and structure
recognition from image-based documents
- arxiv url: http://arxiv.org/abs/2004.12629v2
- Date: Thu, 28 May 2020 08:02:43 GMT
- ステータス: 処理完了
- システム内更新日: 2022-12-09 05:30:14.075741
- Title: CascadeTabNet: An approach for end to end table detection and structure
recognition from image-based documents
- Title(参考訳): CascadeTabNet:画像ベースの文書からエンドツーエンドのテーブル検出と構造認識のためのアプローチ
- Authors: Devashish Prasad, Ayan Gadpal, Kshitij Kapadni, Manish Visave and
Kavita Sultanpure
- Abstract要約: 本稿では、テーブル検出と構造認識の両問題を解決するために、ディープラーニングに基づくエンドツーエンドアプローチの改善を提案する。
本稿ではカスケードマスク領域に基づくCNN高分解ネットワーク(カスケードマスクR-CNN HRNet)モデルを提案する。
ICDAR 2019テーブル構造認識データセットにおいて,最も精度の高い結果を得た。
- 参考スコア(独自算出の注目度): 4.199844472131922
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: An automatic table recognition method for interpretation of tabular data in
document images majorly involves solving two problems of table detection and
table structure recognition. The prior work involved solving both problems
independently using two separate approaches. More recent works signify the use
of deep learning-based solutions while also attempting to design an end to end
solution. In this paper, we present an improved deep learning-based end to end
approach for solving both problems of table detection and structure recognition
using a single Convolution Neural Network (CNN) model. We propose
CascadeTabNet: a Cascade mask Region-based CNN High-Resolution Network (Cascade
mask R-CNN HRNet) based model that detects the regions of tables and recognizes
the structural body cells from the detected tables at the same time. We
evaluate our results on ICDAR 2013, ICDAR 2019 and TableBank public datasets.
We achieved 3rd rank in ICDAR 2019 post-competition results for table detection
while attaining the best accuracy results for the ICDAR 2013 and TableBank
dataset. We also attain the highest accuracy results on the ICDAR 2019 table
structure recognition dataset. Additionally, we demonstrate effective transfer
learning and image augmentation techniques that enable CNNs to achieve very
accurate table detection results. Code and dataset has been made available at:
https://github.com/DevashishPrasad/CascadeTabNet
- Abstract(参考訳): 文書画像における表データ解釈のための自動テーブル認識手法は,テーブル検出と表構造認識の2つの課題を主に解決する。
以前の作業では、両方の問題を2つの別々のアプローチで独立して解決する必要があった。
より最近の研究は、エンドツーエンドのソリューションを設計しながら、ディープラーニングベースのソリューションの使用を示している。
本稿では,単一畳み込みニューラルネットワーク(cnn)モデルを用いて,テーブル検出と構造認識の問題を解決するための,深層学習に基づくエンド・ツー・エンドアプローチの改善を提案する。
本研究ではカスケードマスクを用いたcnn高分解能ネットワーク(cascade mask r-cnn hrnet)モデルであるカスケードマスクを提案する。
ICDAR 2013 ICDAR 2019とTableBankの公開データセットで結果を評価した。
ICDAR 2013とTableBankデータセットの最も正確な結果を得ると同時に、テーブル検出の競合後の結果で3位を獲得しました。
また、icdar 2019テーブル構造認識データセットにおいて、最も精度の高い結果を得る。
さらに、CNNが極めて正確なテーブル検出結果が得られる効果的な転送学習および画像拡張手法を実証する。
コードとデータセットは、https://github.com/DevashishPrasad/CascadeTabNetで公開されている。
関連論文リスト
- TC-OCR: TableCraft OCR for Efficient Detection & Recognition of Table Structure & Content [39.34067105360439]
本稿では,DeTR,CascadeTabNet,PP OCR v2といったディープラーニングモデルを統合し,総合的な画像ベースのテーブル認識を実現するエンドツーエンドパイプラインを提案する。
本システムでは,同時テーブル検出(TD),テーブル構造認識(TSR),テーブル内容認識(TCR)を実現している。
提案手法は0.96のIOUと78%のOCR精度を実現し,従来のテーブルトランスフォーマーに比べてOCR精度が約25%向上したことを示す。
論文 参考訳(メタデータ) (2024-04-16T06:24:53Z) - ClusterTabNet: Supervised clustering method for table detection and table structure recognition [0.0]
文書中の単語をクラスタリングする深層学習に基づく新しい手法を提案する。
表構造ボトムアップを一対の単語間の関係グラフとして解釈し、変圧器エンコーダモデルを用いてその隣接行列を予測する。
DETRやFaster R-CNNのような現在の最先端検出手法と比較して,本手法は比較的小さなモデルを必要とするが,類似性や精度が向上する。
論文 参考訳(メタデータ) (2024-02-12T09:10:24Z) - Semi-Supervised and Long-Tailed Object Detection with CascadeMatch [91.86787064083012]
そこで我々はCascadeMatchと呼ばれる新しい擬似ラベル型検出器を提案する。
我々の検出器は、プログレッシブな信頼しきい値を持つ多段検出ヘッドを備えたカスケードネットワークアーキテクチャを備えている。
CascadeMatchは、長い尾のオブジェクト検出の処理において、既存の最先端の半教師付きアプローチを超越していることを示す。
論文 参考訳(メタデータ) (2023-05-24T07:09:25Z) - Interpolation-based Correlation Reduction Network for Semi-Supervised
Graph Learning [49.94816548023729]
補間型相関低減ネットワーク(ICRN)と呼ばれる新しいグラフコントラスト学習手法を提案する。
提案手法では,決定境界のマージンを大きくすることで,潜在特徴の識別能力を向上させる。
この2つの設定を組み合わせることで、豊富なラベル付きノードと稀に価値あるラベル付きノードから豊富な監視情報を抽出し、離散表現学習を行う。
論文 参考訳(メタデータ) (2022-06-06T14:26:34Z) - Robust Table Detection and Structure Recognition from Heterogeneous
Document Images [6.961470641696773]
我々はRobusTabNetを導入し、テーブルの境界を検出し、異種文書画像からテーブルの細胞構造を再構築する。
テーブル検出のために、我々は、より高速なR-CNNのための高品質なテーブル提案を生成するために、新しい領域提案ネットワークとしてCornerNetを使用することを提案する。
我々の表構造認識手法は,SciTSR,PubTabNet,cTDaR TrackBの3つの公開ベンチマークにおいて,最先端の性能を実現する。
論文 参考訳(メタデータ) (2022-03-17T03:35:12Z) - TGRNet: A Table Graph Reconstruction Network for Table Structure
Recognition [76.06530816349763]
本稿では,表構造認識のためのエンドツーエンドのトレーニング可能な表グラフ再構成ネットワーク(TGRNet)を提案する。
具体的には,異なる細胞の空間的位置と論理的位置を共同で予測するために,細胞検出枝と細胞論理的位置分岐の2つの主枝を有する。
論文 参考訳(メタデータ) (2021-06-20T01:57:05Z) - TNCR: Table Net Detection and Classification Dataset [62.997667081978825]
TNCRデータセットは、スキャンされた文書画像のテーブル検出と5つのクラスに分類される。
我々は、テーブル検出のための最先端のディープラーニングベースの手法を実装し、いくつかの強力なベースラインを構築した。
我々は、テーブルの検出、分類、構造認識に対するより深い学習アプローチを促進するために、TNCRをオープンソースにしました。
論文 参考訳(メタデータ) (2021-06-19T10:48:58Z) - Tab.IAIS: Flexible Table Recognition and Semantic Interpretation System [84.39812458417246]
完全テーブル認識処理を行い、最も頻繁なテーブル形式をサポートする2つのルールベースのアルゴリズムを開発する。
意味情報の抽出をテーブル認識プロセスに組み込むため,グラフに基づくテーブル解釈法を開発した。
我々のテーブル認識アプローチは、最先端のアプローチと競合する結果を得る。
論文 参考訳(メタデータ) (2021-05-25T12:31:02Z) - Multi-Type-TD-TSR -- Extracting Tables from Document Images using a
Multi-stage Pipeline for Table Detection and Table Structure Recognition:
from OCR to Structured Table Representations [63.98463053292982]
テーブルの認識は、テーブル検出とテーブル構造認識という2つの主要なタスクから構成される。
最近の研究は、テーブル構造認識のタスクにトランスファーラーニングを併用したディープラーニングアプローチへの明確な傾向を示している。
本稿では,テーブル認識問題に対するエンドツーエンドのソリューションを提供するMulti-Type-TD-TSRというマルチステージパイプラインを提案する。
論文 参考訳(メタデータ) (2021-05-23T21:17:18Z) - CDeC-Net: Composite Deformable Cascade Network for Table Detection in
Document Images [30.48863304419383]
本稿では,文書内に存在するテーブルを検出するための,エンドツーエンドのトレーニング可能な新しいディープネットワーク(CDeC-Net)を提案する。
提案するネットワークは、スケールの異なるテーブルを検出する変形可能な畳み込みを有するデュアルバックボーンを備えたMask R-CNNのマルチステージ拡張で構成されている。
利用可能なすべてのベンチマークデータセット上でCDeC-Netを実証的に評価する。
論文 参考訳(メタデータ) (2020-08-25T05:53:59Z) - Global Table Extractor (GTE): A Framework for Joint Table Identification
and Cell Structure Recognition Using Visual Context [11.99452212008243]
本稿では,共同テーブル検出とセル構造認識のための視覚誘導型システムフレームワークを提案する。
GTE-Tableでは、テーブルネットワークをトレーニングするために、テーブルの自然セル封じ込め制約に基づく新たなペナルティを発明する。
これを使って、セルラベルでPubTabNetを強化し、FinTabNet、実世界の複雑な科学的および財務的なデータセットを作成します。
論文 参考訳(メタデータ) (2020-05-01T20:14:49Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。