論文の概要: Handwritten and Printed Text Segmentation: A Signature Case Study
- arxiv url: http://arxiv.org/abs/2307.07887v1
- Date: Sat, 15 Jul 2023 21:49:22 GMT
- ステータス: 処理完了
- システム内更新日: 2023-07-18 17:21:04.263443
- Title: Handwritten and Printed Text Segmentation: A Signature Case Study
- Title(参考訳): 手書き・印刷テキストセグメンテーション:署名事例研究
- Authors: Sina Gholamian and Ali Vahdat
- Abstract要約: スキャンされた文書を分析しながら、手書きのテキストは印刷されたテキストをオーバーレイすることができる。
これにより、光学文字認識(OCR)とデジタル化プロセスが困難になる。
我々は手書きテキストセグメンテーションの課題に対処するための新しいアプローチを開発する。
- 参考スコア(独自算出の注目度): 0.0
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: While analyzing scanned documents, handwritten text can overlay printed text.
This causes difficulties during the optical character recognition (OCR) and
digitization process of documents, and subsequently, hurts downstream NLP
tasks. Prior research either focuses only on the binary classification of
handwritten text, or performs a three-class segmentation of the document, i.e.,
recognition of handwritten, printed, and background pixels. This results in the
assignment of the handwritten and printed overlapping pixels to only one of the
classes, and thus, they are not accounted for in the other class. Thus, in this
research, we develop novel approaches for addressing the challenges of
handwritten and printed text segmentation with the goal of recovering text in
different classes in whole, especially improving the segmentation performance
on the overlapping parts. As such, to facilitate with this task, we introduce a
new dataset, SignaTR6K, collected from real legal documents, as well as a new
model architecture for handwritten and printed text segmentation task. Our best
configuration outperforms the prior work on two different datasets by 17.9% and
7.3% on IoU scores.
- Abstract(参考訳): スキャンされた文書を分析しながら、手書きのテキストは印刷されたテキストをオーバーレイすることができる。
これにより、光学文字認識(OCR)と文書のデジタル化プロセスが困難になり、その後、下流のNLPタスクが悪化する。
先行研究は手書きテキストのバイナリ分類のみに焦点を当てるか、文書の3クラスセグメンテーション(手書き、印刷、背景ピクセルの認識)を実行するかのどちらかである。
これにより、手書きおよび印刷された重なり合うピクセルを1つのクラスだけに割り当てることになり、それ故に他のクラスでは説明されない。
そこで本研究では,様々なクラスにおけるテキストの復元,特に重複部分の分割性能の向上を目的として,手書き・印刷テキストセグメンテーションの課題に対処するための新しい手法を開発した。
そこで本研究では,実際の法的文書から収集した新たなデータセットSignaTR6Kと,手書きおよび印刷テキストセグメンテーションタスクのための新しいモデルアーキテクチャを導入する。
我々の最高の設定は、以前の2つの異なるデータセットの17.9%と7.3%のIoUスコアよりも優れています。
関連論文リスト
- Contextual Document Embeddings [77.22328616983417]
本稿では,コンテキスト化された文書埋め込みのための2つの補完手法を提案する。
第一に、文書近傍を明示的にバッチ内コンテキスト損失に組み込む別のコントラスト学習目標である。
第二に、隣接する文書情報をエンコードされた表現に明示的にエンコードする新しいコンテキストアーキテクチャ。
論文 参考訳(メタデータ) (2024-10-03T14:33:34Z) - DELINE8K: A Synthetic Data Pipeline for the Semantic Segmentation of Historical Documents [0.0]
文書セマンティックセグメンテーションは、OCR、フォーム分類、文書編集などの文書解析作業を容易にする。
いくつかの合成データセットは、印刷されたテキストと手書きを区別するために開発されたが、それらはクラス多様性と文書の多様性に欠ける。
現在までに最も包括的な文書セマンティックセマンティクスパイプラインを提案し、10以上のソースからプレプリントされたテキスト、手書き、文書背景を組み込んだ。
我々のカスタマイズされたデータセットはNAFSSベンチマークで優れたパフォーマンスを示し、さらなる研究において有望なツールであることを示した。
論文 参考訳(メタデータ) (2024-04-30T04:53:10Z) - OmniParser: A Unified Framework for Text Spotting, Key Information Extraction and Table Recognition [79.852642726105]
多様なシナリオにまたがって視覚的なテキストを解析するための統一パラダイムを提案する。
具体的には,3つの視覚的なテキスト解析タスクを同時に処理できるOmniというユニバーサルモデルを提案する。
オムニでは、全てのタスクが統一エンコーダ・デコーダアーキテクチャ、統一目的点条件テキスト生成、統一入力表現を共有している。
論文 参考訳(メタデータ) (2024-03-28T03:51:14Z) - Copy Is All You Need [66.00852205068327]
既存のテキストコレクションからテキストセグメントを段階的にコピーするテキスト生成を定式化する。
提案手法は, 自動評価と人的評価の両方により, より優れた生成品質を実現する。
当社のアプローチでは,より大規模なテキストコレクションにスケールアップすることで,さらなるパフォーマンス向上を実現しています。
論文 参考訳(メタデータ) (2023-07-13T05:03:26Z) - Towards End-to-end Handwritten Document Recognition [0.0]
手書き文字認識は、その多くの応用のために過去数十年にわたって広く研究されてきた。
本稿では,文書全体の手書きテキスト認識をエンドツーエンドで行うことで,これらの課題に対処することを提案する。
RIMES 2011, IAM, READ 2016 データセットの段落レベルでの最先端結果に到達し, これらのデータセットのラインレベル状態よりも優れていた。
論文 参考訳(メタデータ) (2022-09-30T10:31:22Z) - DAN: a Segmentation-free Document Attention Network for Handwritten
Document Recognition [1.7875811547963403]
手書き文書認識のためのエンドツーエンドセグメンテーションフリーアーキテクチャを提案する。
このモデルはXMLのような方法で開始と終了のタグを使ってテキスト部品にラベルを付けるように訓練されている。
ページレベルでのREADデータセットと、CERの3.53%と3.69%の2ページレベルの競合結果を得た。
論文 参考訳(メタデータ) (2022-03-23T08:40:42Z) - Text-DIAE: Degradation Invariant Autoencoders for Text Recognition and
Document Enhancement [8.428866479825736]
Text-DIAEは、テキスト認識(手書きまたはシーンテキスト)と文書画像強調という2つの課題を解決することを目的としている。
ラベル付きデータを使わずに事前学習時に最適化すべき学習目標として、3つのプレテキストタスクを定義した。
本手法は,既存の教師付きおよび自己監督型設定において,最先端の手法をはるかに超えている。
論文 参考訳(メタデータ) (2022-03-09T15:44:36Z) - TAP: Text-Aware Pre-training for Text-VQA and Text-Caption [75.44716665758415]
テキストVQAとテキストキャプションタスクのためのテキスト認識事前学習(TAP)を提案する。
TAPは、事前トレーニングにシーンテキスト(OCRエンジンから生成される)を明示的に組み込む。
我々のアプローチは、複数のタスクで大きな利幅で芸術の状態を上回っている。
論文 参考訳(メタデータ) (2020-12-08T18:55:21Z) - Rethinking Text Segmentation: A Novel Dataset and A Text-Specific
Refinement Approach [34.63444886780274]
テキストセグメンテーションは、現実世界のテキスト関連タスクの前提条件である。
本稿では,テキスト分割手法であるText Refinement Network (TexRNet)を紹介する。
TexRNetは、他の最先端セグメンテーション手法と比較して、テキストセグメンテーションのパフォーマンスを2%近く改善している。
論文 参考訳(メタデータ) (2020-11-27T22:50:09Z) - Learning to Select Bi-Aspect Information for Document-Scale Text Content
Manipulation [50.01708049531156]
我々は、テキストスタイルの転送とは逆の文書スケールのテキストコンテンツ操作という、新しい実践的なタスクに焦点を当てる。
詳細は、入力は構造化されたレコードと、別のレコードセットを記述するための参照テキストのセットである。
出力は、ソースレコードセットの部分的内容と参照の書き込みスタイルを正確に記述した要約である。
論文 参考訳(メタデータ) (2020-02-24T12:52:10Z) - TextScanner: Reading Characters in Order for Robust Scene Text
Recognition [60.04267660533966]
TextScannerはシーンテキスト認識の代替手法である。
文字クラス、位置、順序に対する画素単位のマルチチャネルセグメンテーションマップを生成する。
また、コンテキストモデリングにRNNを採用し、文字の位置とクラスを並列で予測する。
論文 参考訳(メタデータ) (2019-12-28T07:52:00Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。