論文の概要: CDeC-Net: Composite Deformable Cascade Network for Table Detection in
Document Images
- arxiv url: http://arxiv.org/abs/2008.10831v1
- Date: Tue, 25 Aug 2020 05:53:59 GMT
- ステータス: 処理完了
- システム内更新日: 2022-10-25 03:51:14.979356
- Title: CDeC-Net: Composite Deformable Cascade Network for Table Detection in
Document Images
- Title(参考訳): cdec-net: 文書画像におけるテーブル検出のための複合変形型カスケードネットワーク
- Authors: Madhav Agarwal and Ajoy Mondal and C. V. Jawahar
- Abstract要約: 本稿では,文書内に存在するテーブルを検出するための,エンドツーエンドのトレーニング可能な新しいディープネットワーク(CDeC-Net)を提案する。
提案するネットワークは、スケールの異なるテーブルを検出する変形可能な畳み込みを有するデュアルバックボーンを備えたMask R-CNNのマルチステージ拡張で構成されている。
利用可能なすべてのベンチマークデータセット上でCDeC-Netを実証的に評価する。
- 参考スコア(独自算出の注目度): 30.48863304419383
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Localizing page elements/objects such as tables, figures, equations, etc. is
the primary step in extracting information from document images. We propose a
novel end-to-end trainable deep network, (CDeC-Net) for detecting tables
present in the documents. The proposed network consists of a multistage
extension of Mask R-CNN with a dual backbone having deformable convolution for
detecting tables varying in scale with high detection accuracy at higher IoU
threshold. We empirically evaluate CDeC-Net on all the publicly available
benchmark datasets - ICDAR-2013, ICDAR-2017, ICDAR-2019,UNLV, Marmot,
PubLayNet, and TableBank - with extensive experiments.
Our solution has three important properties: (i) a single trained model
CDeC-Net{\ddag} performs well across all the popular benchmark datasets; (ii)
we report excellent performances across multiple, including higher, thresholds
of IoU; (iii) by following the same protocol of the recent papers for each of
the benchmarks, we consistently demonstrate the superior quantitative
performance. Our code and models will be publicly released for enabling the
reproducibility of the results.
- Abstract(参考訳): テーブル、図形、方程式などのページ要素やオブジェクトのローカライズは、ドキュメントイメージから情報を抽出する第一ステップである。
本稿では,文書内に存在するテーブルを検出するための,新しいエンドツーエンドトレーニング可能な深層ネットワーク(CDeC-Net)を提案する。
提案するネットワークは,Msk R-CNNのマルチステージ拡張と,高いIoU閾値で高い検出精度で大規模に変化するテーブルを検出する変形可能な畳み込みを有するデュアルバックボーンからなる。
ICDAR-2013, ICDAR-2017, ICDAR-2019,UNLV, Marmot, PubLayNet, TableBankなど,公開可能なすべてのベンチマークデータセットに対して,CDeC-Netを実験的に評価した。
私たちの解決策には3つの重要な特性があります
(i)訓練済みのモデルCDeC-Net{\ddagは、すべての一般的なベンチマークデータセットでよく機能する。
(II)IoUの高閾値を含む複数の性能について報告する。
(iii) ベンチマーク毎の最近の論文の同じプロトコルに従うことにより, 一貫して優れた定量的性能を実証する。
私たちのコードとモデルは、結果の再現性を実現するために公開されます。
関連論文リスト
- Long Document Summarization with Top-down and Bottom-up Inference [113.29319668246407]
本稿では、2つの側面の要約モデルを改善するための原則的推論フレームワークを提案する。
我々のフレームワークは、トップレベルが長距離依存性をキャプチャするドキュメントの階層的な潜在構造を前提としています。
本稿では,様々な要約データセットに対して提案手法の有効性を示す。
論文 参考訳(メタデータ) (2022-03-15T01:24:51Z) - PRIMER: Pyramid-based Masked Sentence Pre-training for Multi-document
Summarization [16.830963601598242]
要約に着目した多文書表現のための事前学習モデルであるPRIMERを提案する。
具体的には,マルチドキュメント入力に適した適切な入力変換とグローバルアテンションを備えたLongformerアーキテクチャを採用する。
私たちのモデルであるPRIMERは、これらのほとんどの設定において、現在の最先端モデルよりも大きなマージンでパフォーマンスします。
論文 参考訳(メタデータ) (2021-10-16T07:22:24Z) - End-to-End Information Extraction by Character-Level Embedding and
Multi-Stage Attentional U-Net [0.9137554315375922]
本稿では,文書の2次元キャラクタグリッド埋め込みにおけるエンドツーエンド情報抽出のための新しいディープラーニングアーキテクチャを提案する。
このモデルでは,パラメータを40%減らしながら,ベースラインのU-Netアーキテクチャを大きなマージンで上回ることを示す。
論文 参考訳(メタデータ) (2021-06-02T05:42:51Z) - Multi-Type-TD-TSR -- Extracting Tables from Document Images using a
Multi-stage Pipeline for Table Detection and Table Structure Recognition:
from OCR to Structured Table Representations [63.98463053292982]
テーブルの認識は、テーブル検出とテーブル構造認識という2つの主要なタスクから構成される。
最近の研究は、テーブル構造認識のタスクにトランスファーラーニングを併用したディープラーニングアプローチへの明確な傾向を示している。
本稿では,テーブル認識問題に対するエンドツーエンドのソリューションを提供するMulti-Type-TD-TSRというマルチステージパイプラインを提案する。
論文 参考訳(メタデータ) (2021-05-23T21:17:18Z) - CREPO: An Open Repository to Benchmark Credal Network Algorithms [78.79752265884109]
クレダルネットワークは、確率質量関数の集合であるクレダルに基づく不正確な確率的グラフィカルモデルである。
CREMAと呼ばれるJavaライブラリが最近リリースされ、クレダルネットワークをモデル化し、処理し、クエリする。
我々は,これらのモデル上での推論タスクの正確な結果とともに,合成クレダルネットワークのオープンリポジトリであるcrrepoを提案する。
論文 参考訳(メタデータ) (2021-05-10T07:31:59Z) - Data Augmentation for Abstractive Query-Focused Multi-Document
Summarization [129.96147867496205]
2つのQMDSトレーニングデータセットを提示し,2つのデータ拡張手法を用いて構築する。
これらの2つのデータセットは相補的な性質を持ち、すなわちQMDSCNNは実際のサマリを持つが、クエリはシミュレートされる。
組み合わせたデータセット上にエンドツーエンドのニューラルネットワークモデルを構築し、DUCデータセットに最新の転送結果をもたらします。
論文 参考訳(メタデータ) (2021-03-02T16:57:01Z) - SCNet: Training Inference Sample Consistency for Instance Segmentation [15.963615360741356]
本稿では、トレーニング時のサンプルのIoU分布が推論時のそれに近いことを確認するために、サンプル一貫性ネットワーク(SCNet)と呼ばれるアーキテクチャを提案する。
標準データセットを用いた実験では,ボックスAP,マスクAP,推論速度など,複数の評価指標に対して提案手法の有効性が示された。
論文 参考訳(メタデータ) (2020-12-18T10:26:54Z) - Regularized Densely-connected Pyramid Network for Salient Instance
Segmentation [73.17802158095813]
我々は、エンドツーエンドの有能なインスタンスセグメンテーション(SIS)のための新しいパイプラインを提案する。
ディープネットワークにおけるリッチな特徴階層をよりよく活用するために、正規化された高密度接続を提案する。
マスク予測を改善するために,新しいマルチレベルRoIAlignベースのデコーダを導入し,多レベル特徴を適応的に集約する。
論文 参考訳(メタデータ) (2020-08-28T00:13:30Z) - CascadeTabNet: An approach for end to end table detection and structure
recognition from image-based documents [4.199844472131922]
本稿では、テーブル検出と構造認識の両問題を解決するために、ディープラーニングに基づくエンドツーエンドアプローチの改善を提案する。
本稿ではカスケードマスク領域に基づくCNN高分解ネットワーク(カスケードマスクR-CNN HRNet)モデルを提案する。
ICDAR 2019テーブル構造認識データセットにおいて,最も精度の高い結果を得た。
論文 参考訳(メタデータ) (2020-04-27T08:12:48Z) - Searching Central Difference Convolutional Networks for Face
Anti-Spoofing [68.77468465774267]
顔認識システムにおいて、顔の反偽造(FAS)が重要な役割を担っている。
最先端のFASメソッドの多くは、スタック化された畳み込みと専門家が設計したネットワークに依存している。
ここでは、中央差分畳み込み(CDC)に基づくフレームレベルの新しいFAS手法を提案する。
論文 参考訳(メタデータ) (2020-03-09T12:48:37Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。