論文の概要: TabAug: Data Driven Augmentation for Enhanced Table Structure
Recognition
- arxiv url: http://arxiv.org/abs/2104.14237v1
- Date: Thu, 29 Apr 2021 09:59:46 GMT
- ステータス: 処理完了
- システム内更新日: 2021-04-30 13:15:10.080282
- Title: TabAug: Data Driven Augmentation for Enhanced Table Structure
Recognition
- Title(参考訳): TabAug: 拡張テーブル構造認識のためのデータ駆動拡張
- Authors: Umar Khan, Sohaib Zahid, Muhammad Asad Ali, Adnan ul Hassan, Faisal
Shafait
- Abstract要約: 本研究では,テーブル画像の構造変化を列と列の複製と削除によって生成するデータ拡張手法であるTabAugを提案する。
提案手法の有効性を実証するため, ICDAR 2013データセット上で実験を行った。
- 参考スコア(独自算出の注目度): 3.6083663756400086
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Table Structure Recognition is an essential part of end-to-end tabular data
extraction in document images. The recent success of deep learning model
architectures in computer vision remains to be non-reflective in table
structure recognition, largely because extensive datasets for this domain are
still unavailable while labeling new data is expensive and time-consuming.
Traditionally, in computer vision, these challenges are addressed by standard
augmentation techniques that are based on image transformations like color
jittering and random cropping. As demonstrated by our experiments, these
techniques are not effective for the task of table structure recognition. In
this paper, we propose TabAug, a re-imagined Data Augmentation technique that
produces structural changes in table images through replication and deletion of
rows and columns. It also consists of a data-driven probabilistic model that
allows control over the augmentation process. To demonstrate the efficacy of
our approach, we perform experimentation on ICDAR 2013 dataset where our
approach shows consistent improvements in all aspects of the evaluation
metrics, with cell-level correct detections improving from 92.16% to 96.11%
over the baseline.
- Abstract(参考訳): 表構造認識は、文書画像におけるエンドツーエンドの表データ抽出の重要な部分である。
最近のコンピュータビジョンにおけるディープラーニングモデルアーキテクチャの成功は、テーブル構造認識における非反射的であり続けている。
伝統的にコンピュータビジョンでは、これらの課題はカラージッタリングやランダムクロッピングのような画像変換に基づく標準的な拡張技術によって解決される。
実験で示されたように,これらの手法は表構造認識のタスクには有効ではない。
本稿では,テーブル画像の構造変化を列と列の複製と削除によって生成するデータ拡張手法であるTabAugを提案する。
また、拡張プロセスの制御を可能にするデータ駆動確率モデルで構成されている。
提案手法の有効性を実証するため,評価指標のすべての面において一貫した改善を示すICDAR 2013データセットを用いて実験を行い,細胞レベルでの正確な検出精度は92.16%から96.11%に向上した。
関連論文リスト
- Unifying Structured Data as Graph for Data-to-Text Pre-Training [69.96195162337793]
Data-to-text (D2T) の生成は、構造化されたデータを自然言語テキストに変換することを目的としている。
データからテキストへの事前学習は、D2T生成の強化に強力であることが証明された。
構造強化トランスを設計し,D2T生成のための構造強化事前学習手法を提案する。
論文 参考訳(メタデータ) (2024-01-02T12:23:49Z) - Weakly Supervised Change Detection Using Guided Anisotropic Difusion [97.43170678509478]
我々は、このようなデータセットを変更検出の文脈で活用するのに役立つ独自のアイデアを提案する。
まず,意味的セグメンテーション結果を改善する誘導異方性拡散(GAD)アルゴリズムを提案する。
次に、変化検出に適した2つの弱い教師付き学習戦略の可能性を示す。
論文 参考訳(メタデータ) (2021-12-31T10:03:47Z) - Distribution Estimation to Automate Transformation Policies for
Self-Supervision [61.55875498848597]
近年のビジュアル・セルフ・スーパービジョンでは、ラベルを変換または拡張された入力画像に割り当てることで、プリテキスト・タスクと呼ばれる模倣された分類対象が確立されている。
データセットにすでに存在する画像変換は、そのような自己教師付き表現を学習する上で、より効果的でない可能性があることが観察された。
本稿では,入力データセットに存在しない変換を自動的に検出する,生成逆ネットワークに基づくフレームワークを提案する。
論文 参考訳(メタデータ) (2021-11-24T04:40:00Z) - SubTab: Subsetting Features of Tabular Data for Self-Supervised
Representation Learning [5.5616364225463055]
私たちはTabular Data(SubTab)のサブセット機能である新しいフレームワークを紹介します。
本稿では,タブラルデータ(SubTab)のサブセット機能である新しいフレームワークを提案する。
我々は、自動エンコーダ設定で、その機能の一部分からデータを再構成することで、その基盤となる表現をよりよく捉えることができると論じている。
論文 参考訳(メタデータ) (2021-10-08T20:11:09Z) - TGRNet: A Table Graph Reconstruction Network for Table Structure
Recognition [76.06530816349763]
本稿では,表構造認識のためのエンドツーエンドのトレーニング可能な表グラフ再構成ネットワーク(TGRNet)を提案する。
具体的には,異なる細胞の空間的位置と論理的位置を共同で予測するために,細胞検出枝と細胞論理的位置分岐の2つの主枝を有する。
論文 参考訳(メタデータ) (2021-06-20T01:57:05Z) - Multi-Type-TD-TSR -- Extracting Tables from Document Images using a
Multi-stage Pipeline for Table Detection and Table Structure Recognition:
from OCR to Structured Table Representations [63.98463053292982]
テーブルの認識は、テーブル検出とテーブル構造認識という2つの主要なタスクから構成される。
最近の研究は、テーブル構造認識のタスクにトランスファーラーニングを併用したディープラーニングアプローチへの明確な傾向を示している。
本稿では,テーブル認識問題に対するエンドツーエンドのソリューションを提供するMulti-Type-TD-TSRというマルチステージパイプラインを提案する。
論文 参考訳(メタデータ) (2021-05-23T21:17:18Z) - Table Structure Recognition using Top-Down and Bottom-Up Cues [28.65687982486627]
本稿では,細胞検出と相互作用モジュールを組み合わせたテーブル構造認識手法を提案する。
実際に利用可能な実世界のデータセット上で,我々の手法を実証的に検証する。
論文 参考訳(メタデータ) (2020-10-09T13:32:53Z) - Global Table Extractor (GTE): A Framework for Joint Table Identification
and Cell Structure Recognition Using Visual Context [11.99452212008243]
本稿では,共同テーブル検出とセル構造認識のための視覚誘導型システムフレームワークを提案する。
GTE-Tableでは、テーブルネットワークをトレーニングするために、テーブルの自然セル封じ込め制約に基づく新たなペナルティを発明する。
これを使って、セルラベルでPubTabNetを強化し、FinTabNet、実世界の複雑な科学的および財務的なデータセットを作成します。
論文 参考訳(メタデータ) (2020-05-01T20:14:49Z) - CascadeTabNet: An approach for end to end table detection and structure
recognition from image-based documents [4.199844472131922]
本稿では、テーブル検出と構造認識の両問題を解決するために、ディープラーニングに基づくエンドツーエンドアプローチの改善を提案する。
本稿ではカスケードマスク領域に基づくCNN高分解ネットワーク(カスケードマスクR-CNN HRNet)モデルを提案する。
ICDAR 2019テーブル構造認識データセットにおいて,最も精度の高い結果を得た。
論文 参考訳(メタデータ) (2020-04-27T08:12:48Z) - GridMask Data Augmentation [76.79300104795966]
本稿では,新しいデータ拡張手法であるGridMaskを提案する。
情報除去を利用して、様々なコンピュータビジョンタスクで最先端の結果を達成する。
論文 参考訳(メタデータ) (2020-01-13T07:27:05Z) - TableNet: Deep Learning model for end-to-end Table detection and Tabular
data extraction from Scanned Document Images [18.016832803961165]
本稿では,テーブル検出と構造認識のための新しいエンドツーエンドディープラーニングモデルを提案する。
TableNetは、テーブル検出のツインタスクとテーブル構造認識の相互依存性を利用する。
提案手法は, ICDAR 2013 と Marmot Table のデータセットを用いて評価した。
論文 参考訳(メタデータ) (2020-01-06T10:25:32Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。