論文の概要: PingAn-VCGroup's Solution for ICDAR 2021 Competition on Scientific
Literature Parsing Task B: Table Recognition to HTML
- arxiv url: http://arxiv.org/abs/2105.01848v1
- Date: Wed, 5 May 2021 03:20:26 GMT
- ステータス: 処理完了
- システム内更新日: 2021-05-06 12:58:58.158610
- Title: PingAn-VCGroup's Solution for ICDAR 2021 Competition on Scientific
Literature Parsing Task B: Table Recognition to HTML
- Title(参考訳): PingAn-VCGroup's Solution for ICDAR 2021 Competition on Scientific Literature Parsing Task B: Table Recognition to HTML
- Authors: Jiaquan Ye and Xianbiao Qi and Yelin He and Yihao Chen and Dengyi Gu
and Peng Gao and Rong Xiao
- Abstract要約: 本稿では,ICDAR 2021コンペティションにおける課題B:テーブル認識のHTMLへの適用について述べる。
本手法では,テーブル構造認識,テキスト行検出,テキスト行認識,ボックス割り当てという4つのサブタスクにテーブルコンテンツ認識タスクを分割する。
提案手法では,開発段階で9,115点,最終評価段階で96.84%のtedsスコアを,96.32%のtedsスコアを9,064点とした。
- 参考スコア(独自算出の注目度): 10.882455440779646
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: This paper presents our solution for ICDAR 2021 competition on scientific
literature parsing taskB: table recognition to HTML. In our method, we divide
the table content recognition task into foursub-tasks: table structure
recognition, text line detection, text line recognition, and box assignment.Our
table structure recognition algorithm is customized based on MASTER [1], a
robust image textrecognition algorithm. PSENet [2] is used to detect each text
line in the table image. For text linerecognition, our model is also built on
MASTER. Finally, in the box assignment phase, we associatedthe text boxes
detected by PSENet with the structure item reconstructed by table structure
prediction,and fill the recognized content of the text line into the
corresponding item. Our proposed methodachieves a 96.84% TEDS score on 9,115
validation samples in the development phase, and a 96.32%TEDS score on 9,064
samples in the final evaluation phase.
- Abstract(参考訳): 本稿では,ICDAR 2021コンペティションにおける課題B:テーブル認識のHTMLへの適用について述べる。
本手法では,テーブル構造認識タスクをテーブル構造認識,テキストライン検出,テキストライン認識,ボックス割り当てという4つのサブタスクに分割し,ロバストな画像テキスト認識アルゴリズムであるmaster [1]に基づいてテーブル構造認識アルゴリズムをカスタマイズする。
PSENet [2]は、テーブルイメージ内の各テキスト行を検出するために使用される。
テキストの行認識には、MASTERにもモデルが組み込まれています。
最後に、ボックス割り当てフェーズにおいて、psenet が検出したテキストボックスと、表構造予測により再構成された構造項目を関連付け、認識されたテキスト行の内容を対応する項目に埋める。
提案手法では,開発段階で9,115点,最終評価段階で96.84%のtedsスコアを,96.32%のtedsスコアを9,064点とした。
関連論文リスト
- See then Tell: Enhancing Key Information Extraction with Vision Grounding [54.061203106565706]
STNet(See then Tell Net)は,視覚基盤の正確な答えを提供するために設計された,新しいエンドツーエンドモデルである。
モデルの可視性を高めるため、広範囲に構造化されたテーブル認識データセットを収集する。
論文 参考訳(メタデータ) (2024-09-29T06:21:05Z) - Towards Improving Document Understanding: An Exploration on
Text-Grounding via MLLMs [96.54224331778195]
本稿では,画像中のテキストの空間的位置を識別し,MLLMを強化したテキストグラウンド文書理解モデルTGDocを提案する。
我々は,テキスト検出,認識,スポッティングなどの命令チューニングタスクを定式化し,視覚エンコーダと大言語モデルとの密接なアライメントを容易にする。
提案手法は,複数のテキストリッチベンチマークにまたがる最先端性能を実現し,本手法の有効性を検証した。
論文 参考訳(メタデータ) (2023-11-22T06:46:37Z) - TextFormer: A Query-based End-to-End Text Spotter with Mixed Supervision [61.186488081379]
Transformerアーキテクチャを用いた問合せベースのエンドツーエンドテキストスポッターであるTextFormerを提案する。
TextFormerは、画像エンコーダとテキストデコーダの上に構築され、マルチタスクモデリングのための共同セマンティック理解を学ぶ。
分類、セグメンテーション、認識のブランチの相互訓練と最適化を可能にし、より深い特徴共有をもたらす。
論文 参考訳(メタデータ) (2023-06-06T03:37:41Z) - Evaluating Table Structure Recognition: A New Perspective [2.1067139116005595]
テーブル構造認識アルゴリズムの評価に用いられる既存のメトリクスは、テキストと空のセルのアライメントのキャプチャに関して欠点がある。
本稿では,テキストの代わりにバウンディングボックスを用いたテーブル構造認識のための新しいメトリック-TEDSベースのIOU類似度(TEDS (IOU))を提案する。
論文 参考訳(メタデータ) (2022-07-31T07:48:36Z) - Optimal Boxes: Boosting End-to-End Scene Text Recognition by Adjusting
Annotated Bounding Boxes via Reinforcement Learning [41.56134008044702]
Boxは、テキスト認識モデルとの互換性を高めるために、各テキスト境界ボックスの形状を調整する強化学習ベースの方法である。
実験により、調整された境界ボックスをトレーニングの真理として使用する場合、エンド・ツー・エンドのテキスト認識システムの性能を向上させることができることを示した。
論文 参考訳(メタデータ) (2022-07-25T06:58:45Z) - Robust End-to-End Offline Chinese Handwriting Text Page Spotter with
Text Kernel [4.028854207195064]
我々は、堅牢なエンドツーエンドの中国語テキストページスポッターフレームワークを提案する。
テキスト検出とテキスト認識をテキストカーネルと統合する。
提案手法は,CASIA-HWDB2.0-2.2データセットとICDAR-2013コンペティションデータセットの最先端結果を実現する。
論文 参考訳(メタデータ) (2021-07-04T05:42:04Z) - Tab.IAIS: Flexible Table Recognition and Semantic Interpretation System [84.39812458417246]
完全テーブル認識処理を行い、最も頻繁なテーブル形式をサポートする2つのルールベースのアルゴリズムを開発する。
意味情報の抽出をテーブル認識プロセスに組み込むため,グラフに基づくテーブル解釈法を開発した。
我々のテーブル認識アプローチは、最先端のアプローチと競合する結果を得る。
論文 参考訳(メタデータ) (2021-05-25T12:31:02Z) - PingAn-VCGroup's Solution for ICDAR 2021 Competition on Scientific Table
Image Recognition to Latex [16.003357804292513]
ICDAR 2021 コンペティションにはテーブル構造再構成(TSR)とテーブルコンテンツ再構成(TCR)の2つのサブタスクがある。
最初にシーンテキスト認識のために提案されたアルゴリズムMASTER citelu 2019masterを活用します。
TSRタスクでは0.7444 Exact Matchと0.8765 Exact Match @95%を達成し、TCRタスクでは0.5586 Exact Matchと0.7386 Exact Match 95%を得る。
論文 参考訳(メタデータ) (2021-05-05T03:15:48Z) - TAP: Text-Aware Pre-training for Text-VQA and Text-Caption [75.44716665758415]
テキストVQAとテキストキャプションタスクのためのテキスト認識事前学習(TAP)を提案する。
TAPは、事前トレーニングにシーンテキスト(OCRエンジンから生成される)を明示的に組み込む。
我々のアプローチは、複数のタスクで大きな利幅で芸術の状態を上回っている。
論文 参考訳(メタデータ) (2020-12-08T18:55:21Z) - SCATTER: Selective Context Attentional Scene Text Recognizer [16.311256552979835]
Scene Text Recognition (STR) は複雑な画像背景に対してテキストを認識するタスクである。
現在のSOTA(State-of-the-art)メソッドは、任意の形で書かれたテキストを認識するのに依然として苦労している。
Selective Context Attentional Text Recognizer (SCATTER) というSTRの新しいアーキテクチャを導入する。
論文 参考訳(メタデータ) (2020-03-25T09:20:28Z) - Text Perceptron: Towards End-to-End Arbitrary-Shaped Text Spotting [49.768327669098674]
テキストパーセプトロン(Text Perceptron)という,エンドツーエンドのトレーニング可能なテキストスポッティング手法を提案する。
まず、テキスト読解順序と境界情報を学ぶ効率的なセグメンテーションベースのテキスト検出器を用いる。
次に、検出された特徴領域を正規形態に変換するために、新しい形状変換モジュール(STM)を設計する。
論文 参考訳(メタデータ) (2020-02-17T08:07:19Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。