論文の概要: Detection Masking for Improved OCR on Noisy Documents
- arxiv url: http://arxiv.org/abs/2205.08257v1
- Date: Tue, 17 May 2022 11:59:18 GMT
- ステータス: 処理完了
- システム内更新日: 2022-05-18 13:57:50.110466
- Title: Detection Masking for Improved OCR on Noisy Documents
- Title(参考訳): ノイズドキュメンテーションにおけるOCR改善のための検出マスク
- Authors: Daniel Rotman, Ophir Azulai, Inbar Shapira, Yevgeny Burshtein, Udi
Barzelay
- Abstract要約: 本稿では,文書上でのOCRの品質向上を目的として,マスキングシステムによる検出ネットワークの改良について述べる。
本手法の有用性と適用性を示すために,公開データセット上で統一的な評価を行う。
- 参考スコア(独自算出の注目度): 8.137198664755596
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Optical Character Recognition (OCR), the task of extracting textual
information from scanned documents is a vital and broadly used technology for
digitizing and indexing physical documents. Existing technologies perform well
for clean documents, but when the document is visually degraded, or when there
are non-textual elements, OCR quality can be greatly impacted, specifically due
to erroneous detections. In this paper we present an improved detection network
with a masking system to improve the quality of OCR performed on documents. By
filtering non-textual elements from the image we can utilize document-level OCR
to incorporate contextual information to improve OCR results. We perform a
unified evaluation on a publicly available dataset demonstrating the usefulness
and broad applicability of our method. Additionally, we present and make
publicly available our synthetic dataset with a unique hard-negative component
specifically tuned to improve detection results, and evaluate the benefits that
can be gained from its usage
- Abstract(参考訳): スキャンされた文書からテキスト情報を抽出する光学文字認識(OCR)は、物理的文書のデジタル化とインデックス化に不可欠で広く使われている技術である。
既存の技術はクリーンなドキュメントではうまく機能するが、文書が視覚的に劣化している場合や、テキスト以外の要素がある場合、OCRの品質に大きな影響を与える可能性がある。
本稿では,文書におけるOCRの品質向上のために,マスキングシステムを用いた検出ネットワークの改良を提案する。
画像から非テキスト要素をフィルタリングすることにより、文書レベルのOCRを使用してコンテキスト情報を組み込んでOCR結果を改善することができる。
本手法の有用性と適用性を示すために,公開データセット上で統一的な評価を行う。
さらに、検出結果を改善するために特別に調整されたユニークなハードネガティブなコンポーネントで、合成データセットを提示し、公開し、その使用から得られる利点を評価します。
関連論文リスト
- Unifying Multimodal Retrieval via Document Screenshot Embedding [92.03571344075607]
Document Screenshot Embedding (DSE)は、文書のスクリーンショットを統一的な入力フォーマットとして扱う新しい検索パラダイムである。
まず、Wiki-SSというウィキペディアのウェブページのスクリーンショットをコーパスとして作成し、Natural Questionsデータセットからの質問に答える。
このようなテキスト集約的な文書検索設定では、DSEは構文解析に依存する他のテキスト検索方法と比較して、競合効果を示す。
論文 参考訳(メタデータ) (2024-06-17T06:27:35Z) - Optimization of Image Processing Algorithms for Character Recognition in
Cultural Typewritten Documents [0.8158530638728501]
光文字認識(OCR)における画像処理手法とパラメータチューニングの影響について検討する。
この手法は多目的問題定式化を用いて、Levenshtein編集距離を最小化し、非支配的ソート遺伝的アルゴリズム(NSGA-II)で正しく同定された単語数を最大化する。
以上の結果から,OCRにおける画像前処理アルゴリズムの活用は,前処理なしのテキスト認識タスクが良い結果を出さないタイプに適している可能性が示唆された。
論文 参考訳(メタデータ) (2023-11-27T11:44:46Z) - DocMAE: Document Image Rectification via Self-supervised Representation
Learning [144.44748607192147]
文書画像修正のための新しい自己教師型フレームワークDocMAEを提案する。
まず、背景を除いた文書画像のランダムなパッチをマスクし、欠落したピクセルを再構成する。
このような自己教師型学習手法により、ネットワークは変形文書の本質的な構造を学習することが奨励される。
論文 参考訳(メタデータ) (2023-04-20T14:27:15Z) - Deep Unrestricted Document Image Rectification [110.61517455253308]
文書画像修正のための新しい統合フレームワークDocTr++を提案する。
我々は,階層型エンコーダデコーダ構造を多スケール表現抽出・解析に適用することにより,元のアーキテクチャをアップグレードする。
実際のテストセットとメトリクスをコントリビュートして、修正品質を評価します。
論文 参考訳(メタデータ) (2023-04-18T08:00:54Z) - User-Centric Evaluation of OCR Systems for Kwak'wala [92.73847703011353]
OCRを利用すると、文化的に価値ある文書の書き起こしに費やした時間を50%以上削減できることを示す。
この結果から,OCRツールが下流言語ドキュメントや再生作業において持つ潜在的なメリットが示された。
論文 参考訳(メタデータ) (2023-02-26T21:41:15Z) - Text Detection Forgot About Document OCR [0.0]
本稿では,テキスト認識と文書テキスト認識のためのいくつかの手法を比較した。
この結果から,現在提案されている文書テキスト検出手法は,文書テキスト検出において優れた結果が得られることが示唆された。
論文 参考訳(メタデータ) (2022-10-14T15:37:54Z) - EraseNet: A Recurrent Residual Network for Supervised Document Cleaning [0.0]
本稿では, 完全畳み込み型自動エンコーダアーキテクチャを用いて, 汚れた文書のクリーニングを指導する手法を提案する。
本実験では, モデルが各種の常用音や異常音を学習し, 効率よく修正できるので, 有望な結果が得られた。
論文 参考訳(メタデータ) (2022-10-03T04:23:25Z) - BusiNet -- a Light and Fast Text Detection Network for Business
Documents [8.318686824572803]
本稿では,ビジネス文書の OCR を目的とした検出ネットワーク BusiNet を提案する。
BusiNetは高速かつ軽量に設計されており、ローカルでプライバシー問題を防ぐことができる。
このモデルは、敵の訓練戦略を採用することにより、目に見えない雑音に対して頑健に作られている。
論文 参考訳(メタデータ) (2022-07-04T06:08:49Z) - Open Set Classification of Untranscribed Handwritten Documents [56.0167902098419]
重要な写本の膨大な量のデジタルページイメージが世界中のアーカイブに保存されている。
ドキュメントのクラスや型付け'はおそらくメタデータに含まれる最も重要なタグです。
技術的問題は文書の自動分類の1つであり、それぞれが書き起こされていない手書きのテキスト画像からなる。
論文 参考訳(メタデータ) (2022-06-20T20:43:50Z) - DocScanner: Robust Document Image Rectification with Progressive
Learning [162.03694280524084]
この研究はDocScannerという、文書画像の修正のための新しいディープネットワークアーキテクチャを提示する。
DocScannerは、修正されたイメージの1つの見積を維持し、再帰的なアーキテクチャで徐々に修正される。
反復的な改善によりDocScannerは堅牢で優れたパフォーマンスに収束し、軽量なリカレントアーキテクチャにより実行効率が保証される。
論文 参考訳(メタデータ) (2021-10-28T09:15:02Z) - Enhance to Read Better: An Improved Generative Adversarial Network for
Handwritten Document Image Enhancement [1.7491858164568674]
本稿では,GAN(Generative Adversarial Networks)に基づくエンド・ツー・エンドアーキテクチャを提案する。
私たちの知る限りでは、これは手書き文書をバイナライズしながらテキスト情報を使用する最初の作業である。
H-DIBCO 2018の課題では、人工的に劣化したラテン手書き画像でトレーニング済みのモデルを微調整した後、アートの状況よりも優れています。
論文 参考訳(メタデータ) (2021-05-26T17:44:45Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。