論文の概要: On Cropped versus Uncropped Training Sets in Tabular Structure Detection
- arxiv url: http://arxiv.org/abs/2110.02933v1
- Date: Wed, 6 Oct 2021 17:28:38 GMT
- ステータス: 処理完了
- システム内更新日: 2021-10-07 16:28:32.848815
- Title: On Cropped versus Uncropped Training Sets in Tabular Structure Detection
- Title(参考訳): 口蓋構造検出におけるクロップト対アンクロップトトレーニングセットについて
- Authors: Yakup Akkaya, Murat Simsek, Burak Kantarci, Shahzad Khan
- Abstract要約: テーブル構造検出性能を,採集されたデータセットと未採集データセットと比較した。
ディープラーニングモデルは、検出性能を平均精度で最大9%向上させることができる。
- 参考スコア(独自算出の注目度): 8.387625914260697
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Automated document processing for tabular information extraction is highly
desired in many organizations, from industry to government. Prior works have
addressed this problem under table detection and table structure detection
tasks. Proposed solutions leveraging deep learning approaches have been giving
promising results in these tasks. However, the impact of dataset structures on
table structure detection has not been investigated. In this study, we provide
a comparison of table structure detection performance with cropped and
uncropped datasets. The cropped set consists of only table images that are
cropped from documents assuming tables are detected perfectly. The uncropped
set consists of regular document images. Experiments show that deep learning
models can improve the detection performance by up to 9% in average precision
and average recall on the cropped versions. Furthermore, the impact of cropped
images is negligible under the Intersection over Union (IoU) values of 50%-70%
when compared to the uncropped versions. However, beyond 70% IoU thresholds,
cropped datasets provide significantly higher detection performance.
- Abstract(参考訳): 表情報抽出のための自動文書処理は、業界から政府まで、多くの組織で非常に望まれている。
これまで、テーブル検出やテーブル構造検出タスクでこの問題に対処してきた。
ディープラーニングアプローチを活用したソリューションの提案は、これらのタスクで有望な結果をもたらしている。
しかし,データセット構造が表構造検出に与える影響は調査されていない。
本研究では, テーブル構造検出性能と, 刈り取られたデータセットとの比較を行った。
クロッピングセットは、テーブルが完全に検出されたと仮定して文書からクロッピングされたテーブルイメージのみで構成される。
uncroppedセットは、通常のドキュメントイメージで構成されている。
実験では、ディープラーニングモデルが検出性能を平均精度で最大9%向上させ、トリミングされたバージョンで平均リコールできることが示されている。
さらに、収穫された画像の影響は、未採集版に比べて50%-70%のIoU(Intersection over Union)値で無視できる。
しかし、70%のIoUしきい値を超え、収穫されたデータセットは検出性能が著しく向上する。
関連論文リスト
- Latent Diffusion for Guided Document Table Generation [4.891597567642704]
本研究は,テーブル構造のための注釈付き画像を生成するための新しいアプローチを提案する。
提案手法は,物体検出モデルの訓練に使用される合成データの質を高めることを目的としている。
実験により, 提案手法は, 学習用合成データの品質を著しく向上させることを示した。
論文 参考訳(メタデータ) (2024-08-19T08:46:16Z) - Visual Context-Aware Person Fall Detection [52.49277799455569]
画像中の個人とオブジェクトを半自動分離するセグメンテーションパイプラインを提案する。
ベッド、椅子、車椅子などの背景オブジェクトは、転倒検知システムに挑戦し、誤ったポジティブアラームを引き起こす。
トレーニング中のオブジェクト固有のコンテキスト変換が、この課題を効果的に軽減することを示す。
論文 参考訳(メタデータ) (2024-04-11T19:06:36Z) - ClipCrop: Conditioned Cropping Driven by Vision-Language Model [90.95403416150724]
我々は、堅牢でユーザ意図的な収穫アルゴリズムを構築する基盤として、視覚言語モデルを活用している。
そこで本研究では,ユーザの意図を反映したテキストや画像クエリを用いて,トリミングを行う手法を開発した。
私たちのパイプライン設計では、小さなデータセットでテキスト条件の美学を学習することができます。
論文 参考訳(メタデータ) (2022-11-21T14:27:07Z) - Table Detection in the Wild: A Novel Diverse Table Detection Dataset and
Method [1.3814823347690746]
テーブル検出のための大規模データセットを7万以上のサンプルで紹介する。
また、文書中のテーブル構造を検出する畳み込みニューラルネットワークを用いたベースライン結果も提示する。
論文 参考訳(メタデータ) (2022-08-31T14:20:30Z) - Prefix Conditioning Unifies Language and Label Supervision [84.11127588805138]
学習した表現の一般化性を低減することにより,データセットのバイアスが事前学習に悪影響を及ぼすことを示す。
実験では、この単純な手法により、ゼロショット画像認識精度が向上し、画像レベルの分布シフトに対するロバスト性が向上することを示した。
論文 参考訳(メタデータ) (2022-06-02T16:12:26Z) - TNCR: Table Net Detection and Classification Dataset [62.997667081978825]
TNCRデータセットは、スキャンされた文書画像のテーブル検出と5つのクラスに分類される。
我々は、テーブル検出のための最先端のディープラーニングベースの手法を実装し、いくつかの強力なベースラインを構築した。
我々は、テーブルの検出、分類、構造認識に対するより深い学習アプローチを促進するために、TNCRをオープンソースにしました。
論文 参考訳(メタデータ) (2021-06-19T10:48:58Z) - Multi-Type-TD-TSR -- Extracting Tables from Document Images using a
Multi-stage Pipeline for Table Detection and Table Structure Recognition:
from OCR to Structured Table Representations [63.98463053292982]
テーブルの認識は、テーブル検出とテーブル構造認識という2つの主要なタスクから構成される。
最近の研究は、テーブル構造認識のタスクにトランスファーラーニングを併用したディープラーニングアプローチへの明確な傾向を示している。
本稿では,テーブル認識問題に対するエンドツーエンドのソリューションを提供するMulti-Type-TD-TSRというマルチステージパイプラインを提案する。
論文 参考訳(メタデータ) (2021-05-23T21:17:18Z) - Salient Objects in Clutter [130.63976772770368]
本稿では,既存の正当性オブジェクト検出(SOD)データセットの重大な設計バイアスを特定し,対処する。
この設計バイアスは、既存のデータセットで評価した場合、最先端のSODモデルのパフォーマンスの飽和につながった。
我々は,新しい高品質データセットを提案し,前回のsaliencyベンチマークを更新する。
論文 参考訳(メタデータ) (2021-05-07T03:49:26Z) - TabAug: Data Driven Augmentation for Enhanced Table Structure
Recognition [3.6083663756400086]
本研究では,テーブル画像の構造変化を列と列の複製と削除によって生成するデータ拡張手法であるTabAugを提案する。
提案手法の有効性を実証するため, ICDAR 2013データセット上で実験を行った。
論文 参考訳(メタデータ) (2021-04-29T09:59:46Z) - Table Structure Extraction with Bi-directional Gated Recurrent Unit
Networks [5.350788087718877]
本稿では,検出されたテーブルから行や列を高精度に抽出する,堅牢な深層学習手法を提案する。
我々は、現在利用可能なUNLVとICDAR 2013データセットのベンチマークを行い、最先端のテーブル構造抽出システムよりも大幅に性能を向上した。
論文 参考訳(メタデータ) (2020-01-08T13:17:44Z) - TableNet: Deep Learning model for end-to-end Table detection and Tabular
data extraction from Scanned Document Images [18.016832803961165]
本稿では,テーブル検出と構造認識のための新しいエンドツーエンドディープラーニングモデルを提案する。
TableNetは、テーブル検出のツインタスクとテーブル構造認識の相互依存性を利用する。
提案手法は, ICDAR 2013 と Marmot Table のデータセットを用いて評価した。
論文 参考訳(メタデータ) (2020-01-06T10:25:32Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。