論文の概要: TabAug: Data Driven Augmentation for Enhanced Table Structure
Recognition
- arxiv url: http://arxiv.org/abs/2104.14237v1
- Date: Thu, 29 Apr 2021 09:59:46 GMT
- ステータス: 処理完了
- システム内更新日: 2021-04-30 13:15:10.080282
- Title: TabAug: Data Driven Augmentation for Enhanced Table Structure
Recognition
- Title(参考訳): TabAug: 拡張テーブル構造認識のためのデータ駆動拡張
- Authors: Umar Khan, Sohaib Zahid, Muhammad Asad Ali, Adnan ul Hassan, Faisal
Shafait
- Abstract要約: 本研究では,テーブル画像の構造変化を列と列の複製と削除によって生成するデータ拡張手法であるTabAugを提案する。
提案手法の有効性を実証するため, ICDAR 2013データセット上で実験を行った。
- 参考スコア(独自算出の注目度): 3.6083663756400086
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Table Structure Recognition is an essential part of end-to-end tabular data
extraction in document images. The recent success of deep learning model
architectures in computer vision remains to be non-reflective in table
structure recognition, largely because extensive datasets for this domain are
still unavailable while labeling new data is expensive and time-consuming.
Traditionally, in computer vision, these challenges are addressed by standard
augmentation techniques that are based on image transformations like color
jittering and random cropping. As demonstrated by our experiments, these
techniques are not effective for the task of table structure recognition. In
this paper, we propose TabAug, a re-imagined Data Augmentation technique that
produces structural changes in table images through replication and deletion of
rows and columns. It also consists of a data-driven probabilistic model that
allows control over the augmentation process. To demonstrate the efficacy of
our approach, we perform experimentation on ICDAR 2013 dataset where our
approach shows consistent improvements in all aspects of the evaluation
metrics, with cell-level correct detections improving from 92.16% to 96.11%
over the baseline.
- Abstract(参考訳): 表構造認識は、文書画像におけるエンドツーエンドの表データ抽出の重要な部分である。
最近のコンピュータビジョンにおけるディープラーニングモデルアーキテクチャの成功は、テーブル構造認識における非反射的であり続けている。
伝統的にコンピュータビジョンでは、これらの課題はカラージッタリングやランダムクロッピングのような画像変換に基づく標準的な拡張技術によって解決される。
実験で示されたように,これらの手法は表構造認識のタスクには有効ではない。
本稿では,テーブル画像の構造変化を列と列の複製と削除によって生成するデータ拡張手法であるTabAugを提案する。
また、拡張プロセスの制御を可能にするデータ駆動確率モデルで構成されている。
提案手法の有効性を実証するため,評価指標のすべての面において一貫した改善を示すICDAR 2013データセットを用いて実験を行い,細胞レベルでの正確な検出精度は92.16%から96.11%に向上した。
関連論文リスト
- Latent Diffusion for Guided Document Table Generation [4.891597567642704]
本研究は,テーブル構造のための注釈付き画像を生成するための新しいアプローチを提案する。
提案手法は,物体検出モデルの訓練に使用される合成データの質を高めることを目的としている。
実験により, 提案手法は, 学習用合成データの品質を著しく向上させることを示した。
論文 参考訳(メタデータ) (2024-08-19T08:46:16Z) - A Simple Background Augmentation Method for Object Detection with Diffusion Model [53.32935683257045]
コンピュータビジョンでは、データの多様性の欠如がモデル性能を損なうことはよく知られている。
本稿では, 生成モデルの進歩を生かして, 単純かつ効果的なデータ拡張手法を提案する。
背景強化は、特にモデルの堅牢性と一般化能力を大幅に改善する。
論文 参考訳(メタデータ) (2024-08-01T07:40:00Z) - TC-OCR: TableCraft OCR for Efficient Detection & Recognition of Table Structure & Content [39.34067105360439]
本稿では,DeTR,CascadeTabNet,PP OCR v2といったディープラーニングモデルを統合し,総合的な画像ベースのテーブル認識を実現するエンドツーエンドパイプラインを提案する。
本システムでは,同時テーブル検出(TD),テーブル構造認識(TSR),テーブル内容認識(TCR)を実現している。
提案手法は0.96のIOUと78%のOCR精度を実現し,従来のテーブルトランスフォーマーに比べてOCR精度が約25%向上したことを示す。
論文 参考訳(メタデータ) (2024-04-16T06:24:53Z) - Weakly Supervised Change Detection Using Guided Anisotropic Difusion [97.43170678509478]
我々は、このようなデータセットを変更検出の文脈で活用するのに役立つ独自のアイデアを提案する。
まず,意味的セグメンテーション結果を改善する誘導異方性拡散(GAD)アルゴリズムを提案する。
次に、変化検出に適した2つの弱い教師付き学習戦略の可能性を示す。
論文 参考訳(メタデータ) (2021-12-31T10:03:47Z) - Distribution Estimation to Automate Transformation Policies for
Self-Supervision [61.55875498848597]
近年のビジュアル・セルフ・スーパービジョンでは、ラベルを変換または拡張された入力画像に割り当てることで、プリテキスト・タスクと呼ばれる模倣された分類対象が確立されている。
データセットにすでに存在する画像変換は、そのような自己教師付き表現を学習する上で、より効果的でない可能性があることが観察された。
本稿では,入力データセットに存在しない変換を自動的に検出する,生成逆ネットワークに基づくフレームワークを提案する。
論文 参考訳(メタデータ) (2021-11-24T04:40:00Z) - SubTab: Subsetting Features of Tabular Data for Self-Supervised
Representation Learning [5.5616364225463055]
私たちはTabular Data(SubTab)のサブセット機能である新しいフレームワークを紹介します。
本稿では,タブラルデータ(SubTab)のサブセット機能である新しいフレームワークを提案する。
我々は、自動エンコーダ設定で、その機能の一部分からデータを再構成することで、その基盤となる表現をよりよく捉えることができると論じている。
論文 参考訳(メタデータ) (2021-10-08T20:11:09Z) - TGRNet: A Table Graph Reconstruction Network for Table Structure
Recognition [76.06530816349763]
本稿では,表構造認識のためのエンドツーエンドのトレーニング可能な表グラフ再構成ネットワーク(TGRNet)を提案する。
具体的には,異なる細胞の空間的位置と論理的位置を共同で予測するために,細胞検出枝と細胞論理的位置分岐の2つの主枝を有する。
論文 参考訳(メタデータ) (2021-06-20T01:57:05Z) - Multi-Type-TD-TSR -- Extracting Tables from Document Images using a
Multi-stage Pipeline for Table Detection and Table Structure Recognition:
from OCR to Structured Table Representations [63.98463053292982]
テーブルの認識は、テーブル検出とテーブル構造認識という2つの主要なタスクから構成される。
最近の研究は、テーブル構造認識のタスクにトランスファーラーニングを併用したディープラーニングアプローチへの明確な傾向を示している。
本稿では,テーブル認識問題に対するエンドツーエンドのソリューションを提供するMulti-Type-TD-TSRというマルチステージパイプラインを提案する。
論文 参考訳(メタデータ) (2021-05-23T21:17:18Z) - Table Structure Recognition using Top-Down and Bottom-Up Cues [28.65687982486627]
本稿では,細胞検出と相互作用モジュールを組み合わせたテーブル構造認識手法を提案する。
実際に利用可能な実世界のデータセット上で,我々の手法を実証的に検証する。
論文 参考訳(メタデータ) (2020-10-09T13:32:53Z) - Global Table Extractor (GTE): A Framework for Joint Table Identification
and Cell Structure Recognition Using Visual Context [11.99452212008243]
本稿では,共同テーブル検出とセル構造認識のための視覚誘導型システムフレームワークを提案する。
GTE-Tableでは、テーブルネットワークをトレーニングするために、テーブルの自然セル封じ込め制約に基づく新たなペナルティを発明する。
これを使って、セルラベルでPubTabNetを強化し、FinTabNet、実世界の複雑な科学的および財務的なデータセットを作成します。
論文 参考訳(メタデータ) (2020-05-01T20:14:49Z) - GridMask Data Augmentation [76.79300104795966]
本稿では,新しいデータ拡張手法であるGridMaskを提案する。
情報除去を利用して、様々なコンピュータビジョンタスクで最先端の結果を達成する。
論文 参考訳(メタデータ) (2020-01-13T07:27:05Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。