論文の概要: TC-OCR: TableCraft OCR for Efficient Detection & Recognition of Table Structure & Content
- arxiv url: http://arxiv.org/abs/2404.10305v1
- Date: Tue, 16 Apr 2024 06:24:53 GMT
- ステータス: 処理完了
- システム内更新日: 2024-04-17 17:52:48.275899
- Title: TC-OCR: TableCraft OCR for Efficient Detection & Recognition of Table Structure & Content
- Title(参考訳): TC-OCR:表の構造と内容の効率的な検出・認識のためのテーブルクラフトOCR
- Authors: Avinash Anand, Raj Jaiswal, Pijush Bhuyan, Mohit Gupta, Siddhesh Bangar, Md. Modassir Imam, Rajiv Ratn Shah, Shin'ichi Satoh,
- Abstract要約: 本稿では,DeTR,CascadeTabNet,PP OCR v2といったディープラーニングモデルを統合し,総合的な画像ベースのテーブル認識を実現するエンドツーエンドパイプラインを提案する。
本システムでは,同時テーブル検出(TD),テーブル構造認識(TSR),テーブル内容認識(TCR)を実現している。
提案手法は0.96のIOUと78%のOCR精度を実現し,従来のテーブルトランスフォーマーに比べてOCR精度が約25%向上したことを示す。
- 参考スコア(独自算出の注目度): 39.34067105360439
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: The automatic recognition of tabular data in document images presents a significant challenge due to the diverse range of table styles and complex structures. Tables offer valuable content representation, enhancing the predictive capabilities of various systems such as search engines and Knowledge Graphs. Addressing the two main problems, namely table detection (TD) and table structure recognition (TSR), has traditionally been approached independently. In this research, we propose an end-to-end pipeline that integrates deep learning models, including DETR, CascadeTabNet, and PP OCR v2, to achieve comprehensive image-based table recognition. This integrated approach effectively handles diverse table styles, complex structures, and image distortions, resulting in improved accuracy and efficiency compared to existing methods like Table Transformers. Our system achieves simultaneous table detection (TD), table structure recognition (TSR), and table content recognition (TCR), preserving table structures and accurately extracting tabular data from document images. The integration of multiple models addresses the intricacies of table recognition, making our approach a promising solution for image-based table understanding, data extraction, and information retrieval applications. Our proposed approach achieves an IOU of 0.96 and an OCR Accuracy of 78%, showcasing a remarkable improvement of approximately 25% in the OCR Accuracy compared to the previous Table Transformer approach.
- Abstract(参考訳): 文書画像における表データの自動認識は,表形式や複雑な構造が多様であることから,大きな課題となっている。
テーブルは貴重なコンテンツ表現を提供し、検索エンジンや知識グラフといった様々なシステムの予測能力を高める。
テーブル検出(TD)とテーブル構造認識(TSR)という2つの主要な問題に対処することは、伝統的に独立してアプローチされてきた。
本研究では,DeTR,CascadeTabNet,PP OCR v2といったディープラーニングモデルを統合し,総合的な画像ベースのテーブル認識を実現するエンドツーエンドパイプラインを提案する。
この統合アプローチは、テーブルスタイル、複雑な構造、画像歪みを効果的に処理し、テーブルトランスフォーマーのような既存の手法と比較して精度と効率を向上させる。
本システムでは、テーブル構造を保存し、文書画像から表データを正確に抽出し、テーブル検出(TD)、テーブル構造認識(TSR)、テーブルコンテンツ認識(TCR)を実現する。
複数のモデルの統合は、テーブル認識の複雑さに対処し、我々のアプローチは、画像ベースのテーブル理解、データ抽出、情報検索アプリケーションのための有望なソリューションとなる。
提案手法は0.96のIOUと78%のOCR精度を実現し,従来のテーブルトランスフォーマーに比べてOCR精度が約25%向上したことを示す。
関連論文リスト
- TabPedia: Towards Comprehensive Visual Table Understanding with Concept Synergy [81.76462101465354]
本稿では,概念相乗効果機構を備えた新しい大型視触覚モデルTabPediaを提案する。
この統合されたフレームワークにより、TabPediaはテーブル検出、テーブル構造認識、テーブルクエリ、テーブル質問応答などのVTUタスクをシームレスに統合できる。
実世界のシナリオにおけるVTUタスクをよりよく評価するために、新しい総合的なテーブルVQAベンチマークComTQAを構築した。
論文 参考訳(メタデータ) (2024-06-03T13:54:05Z) - Efficient Information Sharing in ICT Supply Chain Social Network via
Table Structure Recognition [12.79419287446918]
テーブル構造認識(TSR)は、機械解釈可能な形式で複雑な構造を持つテーブルを表現することを目的としている。
我々は、Faster-RCNNに基づく提案手法を実装し、平均精度(AP)で94.79%を達成する。
論文 参考訳(メタデータ) (2022-11-03T20:03:07Z) - TRUST: An Accurate and End-to-End Table structure Recognizer Using
Splitting-based Transformers [56.56591337457137]
本稿では,TRUSTと呼ばれるテーブル構造認識手法を提案する。
変換器は、大域的な計算、完全メモリ、並列計算のためにテーブル構造認識に適している。
我々はPubTabNetやSynthTableなど,いくつかの人気のあるベンチマークで実験を行い,新しい最先端の結果を得た。
論文 参考訳(メタデータ) (2022-08-31T08:33:36Z) - Robust Table Detection and Structure Recognition from Heterogeneous
Document Images [6.961470641696773]
我々はRobusTabNetを導入し、テーブルの境界を検出し、異種文書画像からテーブルの細胞構造を再構築する。
テーブル検出のために、我々は、より高速なR-CNNのための高品質なテーブル提案を生成するために、新しい領域提案ネットワークとしてCornerNetを使用することを提案する。
我々の表構造認識手法は,SciTSR,PubTabNet,cTDaR TrackBの3つの公開ベンチマークにおいて,最先端の性能を実現する。
論文 参考訳(メタデータ) (2022-03-17T03:35:12Z) - TGRNet: A Table Graph Reconstruction Network for Table Structure
Recognition [76.06530816349763]
本稿では,表構造認識のためのエンドツーエンドのトレーニング可能な表グラフ再構成ネットワーク(TGRNet)を提案する。
具体的には,異なる細胞の空間的位置と論理的位置を共同で予測するために,細胞検出枝と細胞論理的位置分岐の2つの主枝を有する。
論文 参考訳(メタデータ) (2021-06-20T01:57:05Z) - Tab.IAIS: Flexible Table Recognition and Semantic Interpretation System [84.39812458417246]
完全テーブル認識処理を行い、最も頻繁なテーブル形式をサポートする2つのルールベースのアルゴリズムを開発する。
意味情報の抽出をテーブル認識プロセスに組み込むため,グラフに基づくテーブル解釈法を開発した。
我々のテーブル認識アプローチは、最先端のアプローチと競合する結果を得る。
論文 参考訳(メタデータ) (2021-05-25T12:31:02Z) - Multi-Type-TD-TSR -- Extracting Tables from Document Images using a
Multi-stage Pipeline for Table Detection and Table Structure Recognition:
from OCR to Structured Table Representations [63.98463053292982]
テーブルの認識は、テーブル検出とテーブル構造認識という2つの主要なタスクから構成される。
最近の研究は、テーブル構造認識のタスクにトランスファーラーニングを併用したディープラーニングアプローチへの明確な傾向を示している。
本稿では,テーブル認識問題に対するエンドツーエンドのソリューションを提供するMulti-Type-TD-TSRというマルチステージパイプラインを提案する。
論文 参考訳(メタデータ) (2021-05-23T21:17:18Z) - Table Structure Recognition using Top-Down and Bottom-Up Cues [28.65687982486627]
本稿では,細胞検出と相互作用モジュールを組み合わせたテーブル構造認識手法を提案する。
実際に利用可能な実世界のデータセット上で,我々の手法を実証的に検証する。
論文 参考訳(メタデータ) (2020-10-09T13:32:53Z) - Table Structure Extraction with Bi-directional Gated Recurrent Unit
Networks [5.350788087718877]
本稿では,検出されたテーブルから行や列を高精度に抽出する,堅牢な深層学習手法を提案する。
我々は、現在利用可能なUNLVとICDAR 2013データセットのベンチマークを行い、最先端のテーブル構造抽出システムよりも大幅に性能を向上した。
論文 参考訳(メタデータ) (2020-01-08T13:17:44Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。