論文の概要: Joint Layout Analysis, Character Detection and Recognition for
Historical Document Digitization
- arxiv url: http://arxiv.org/abs/2007.06890v1
- Date: Tue, 14 Jul 2020 08:02:52 GMT
- ステータス: 処理完了
- システム内更新日: 2022-11-10 14:52:40.701094
- Title: Joint Layout Analysis, Character Detection and Recognition for
Historical Document Digitization
- Title(参考訳): 歴史的文書化のための共同レイアウト解析・文字検出・認識
- Authors: Weihong Ma, Hesuo Zhang, Lianwen Jin, Sihang Wu, Jiapeng Wang, Yongpan
Wang
- Abstract要約: 本稿では,正しい読解順序に従う歴史資料を復元するためのエンドツーエンドのトレーニング可能なフレームワークを提案する。
特徴抽出ネットワークの後方には、キャラクタブランチとレイアウトブランチという2つのブランチが追加されている。
中国の歴史文書MTHv2データセットの実験結果から,提案手法の有効性が示された。
- 参考スコア(独自算出の注目度): 33.02563283777661
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: In this paper, we propose an end-to-end trainable framework for restoring
historical documents content that follows the correct reading order. In this
framework, two branches named character branch and layout branch are added
behind the feature extraction network. The character branch localizes
individual characters in a document image and recognizes them simultaneously.
Then we adopt a post-processing method to group them into text lines. The
layout branch based on fully convolutional network outputs a binary mask. We
then use Hough transform for line detection on the binary mask and combine
character results with the layout information to restore document content.
These two branches can be trained in parallel and are easy to train.
Furthermore, we propose a re-score mechanism to minimize recognition error.
Experiment results on the extended Chinese historical document MTHv2 dataset
demonstrate the effectiveness of the proposed framework.
- Abstract(参考訳): 本稿では,正しい読み順に従って履歴文書を復元するためのエンドツーエンドの学習フレームワークを提案する。
このフレームワークでは、キャラクタブランチとレイアウトブランチという2つのブランチが特徴抽出ネットワークの背後に追加される。
文字ブランチは、文書画像中の個々の文字をローカライズし、同時に認識する。
次に,テキスト行にグループ化するための後処理手法を採用する。
完全な畳み込みネットワークに基づくレイアウト分岐は、バイナリマスクを出力する。
次に,バイナリマスクの行検出にhough変換を使用し,文字結果とレイアウト情報を組み合わせて文書コンテンツを復元する。
これら2つの枝は並行して訓練でき、容易に訓練できる。
さらに,認識誤差を最小化する再スコア機構を提案する。
中国の歴史文書MTHv2データセットの実験結果から,提案手法の有効性が示された。
関連論文リスト
- Contextual Document Embeddings [77.22328616983417]
本稿では,コンテキスト化された文書埋め込みのための2つの補完手法を提案する。
第一に、文書近傍を明示的にバッチ内コンテキスト損失に組み込む別のコントラスト学習目標である。
第二に、隣接する文書情報をエンコードされた表現に明示的にエンコードする新しいコンテキストアーキテクチャ。
論文 参考訳(メタデータ) (2024-10-03T14:33:34Z) - A Layer-Wise Tokens-to-Token Transformer Network for Improved Historical
Document Image Enhancement [13.27528507177775]
Tokens-to-token Vision Transformer に基づく新しい文書バイナライゼーション・エンコーダ・デコーダアーキテクチャである textbfT2T-BinFormer を提案する。
様々なDIBCOおよびH-DIBCOベンチマークの実験により、提案モデルは既存のCNNおよびViTベースの最先端手法よりも優れていることが示された。
論文 参考訳(メタデータ) (2023-12-06T23:01:11Z) - SelfDocSeg: A Self-Supervised vision-based Approach towards Document
Segmentation [15.953725529361874]
文書レイアウト分析は文書研究コミュニティにとって既知の問題である。
個人生活へのインターネット接続が拡大するにつれ、パブリックドメインでは膨大な量のドキュメントが利用できるようになった。
我々は,この課題に自己監督型文書セグメンテーションアプローチと異なり,自己監督型文書セグメンテーションアプローチを用いて対処する。
論文 参考訳(メタデータ) (2023-05-01T12:47:55Z) - DocMAE: Document Image Rectification via Self-supervised Representation
Learning [144.44748607192147]
文書画像修正のための新しい自己教師型フレームワークDocMAEを提案する。
まず、背景を除いた文書画像のランダムなパッチをマスクし、欠落したピクセルを再構成する。
このような自己教師型学習手法により、ネットワークは変形文書の本質的な構造を学習することが奨励される。
論文 参考訳(メタデータ) (2023-04-20T14:27:15Z) - StrucTexTv2: Masked Visual-Textual Prediction for Document Image
Pre-training [64.37272287179661]
StrucTexTv2は、効果的なドキュメントイメージ事前トレーニングフレームワークである。
マスク付き画像モデリングとマスク付き言語モデリングの2つの自己教師付き事前訓練タスクで構成されている。
画像分類、レイアウト解析、テーブル構造認識、ドキュメントOCR、情報抽出など、さまざまな下流タスクにおいて、競合的あるいは新しい最先端パフォーマンスを実現する。
論文 参考訳(メタデータ) (2023-03-01T07:32:51Z) - Entry Separation using a Mixed Visual and Textual Language Model:
Application to 19th century French Trade Directories [18.323615434182553]
重要な課題は、ターゲットデータベースの基本的なテキスト領域を構成するものを正確に分割することである。
19世紀のフランス貿易ディレクトリーに効率性を示す新しい実用的アプローチを提案する。
NER目的に使用される言語モデルのトークンストリームに、特別なビジュアルトークン、例えばインデントやブレークといったコーディングを注入することで、テキストと視覚の両方の知識を同時に活用することができる。
論文 参考訳(メタデータ) (2023-02-17T15:30:44Z) - DocBank: A Benchmark Dataset for Document Layout Analysis [114.81155155508083]
文書レイアウト解析のための詳細なトークンレベルのアノテーションを備えた500Kドキュメントページを含むベンチマークデータセットである textbfDocBank を提示する。
実験の結果,DocBankでトレーニングされたモデルは,さまざまなドキュメントのレイアウト情報を正確に認識することがわかった。
論文 参考訳(メタデータ) (2020-06-01T16:04:30Z) - Learning to Select Bi-Aspect Information for Document-Scale Text Content
Manipulation [50.01708049531156]
我々は、テキストスタイルの転送とは逆の文書スケールのテキストコンテンツ操作という、新しい実践的なタスクに焦点を当てる。
詳細は、入力は構造化されたレコードと、別のレコードセットを記述するための参照テキストのセットである。
出力は、ソースレコードセットの部分的内容と参照の書き込みスタイルを正確に記述した要約である。
論文 参考訳(メタデータ) (2020-02-24T12:52:10Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。