論文の概要: An end-to-end Optical Character Recognition approach for
ultra-low-resolution printed text images
- arxiv url: http://arxiv.org/abs/2105.04515v1
- Date: Mon, 10 May 2021 17:08:06 GMT
- ステータス: 処理完了
- システム内更新日: 2021-05-11 16:55:21.927522
- Title: An end-to-end Optical Character Recognition approach for
ultra-low-resolution printed text images
- Title(参考訳): 超低解像度テキスト画像に対するエンドツーエンド光学文字認識手法
- Authors: Julian D. Gilbey, Carola-Bibiane Sch\"onlieb
- Abstract要約: 低解像度画像上で光文字認識(OCR)を行う新しい手法を提案する。
このアプローチは、人間の視覚システムに対する理解から着想を得て、OCRを実行するための確立されたニューラルネットワークを構築します。
平均文字レベル精度 (cla) は99.7%、単語レベル精度 (wla) は98.9%であり、60dpiテキストの約1000ページにわたる。
- 参考スコア(独自算出の注目度): 0.0
- License: http://creativecommons.org/licenses/by-sa/4.0/
- Abstract: Some historical and more recent printed documents have been scanned or stored
at very low resolutions, such as 60 dpi. Though such scans are relatively easy
for humans to read, they still present significant challenges for optical
character recognition (OCR) systems. The current state-of-the art is to use
super-resolution to reconstruct an approximation of the original
high-resolution image and to feed this into a standard OCR system. Our novel
end-to-end method bypasses the super-resolution step and produces better OCR
results. This approach is inspired from our understanding of the human visual
system, and builds on established neural networks for performing OCR.
Our experiments have shown that it is possible to perform OCR on 60 dpi
scanned images of English text, which is a significantly lower resolution than
the state-of-the-art, and we achieved a mean character level accuracy (CLA) of
99.7% and word level accuracy (WLA) of 98.9% across a set of about 1000 pages
of 60 dpi text in a wide range of fonts. For 75 dpi images, the mean CLA was
99.9% and the mean WLA was 99.4% on the same sample of texts. We make our code
and data (including a set of low-resolution images with their ground truths)
publicly available as a benchmark for future work in this field.
- Abstract(参考訳): 歴史的、より最近の印刷物の中には60dpiなど、非常に低い解像度でスキャンまたは保存されているものもある。
このようなスキャンは人間が読むのが比較的容易であるが、光学文字認識(OCR)システムにはまだ大きな課題がある。
現在の最先端技術は、高解像度画像の近似を再構築するために超解像を使い、これを標準のOCRシステムに供給することである。
我々の新しいエンドツーエンド手法は、超解像ステップをバイパスし、より良いOCR結果を生成する。
このアプローチは、人間の視覚システムに対する理解から着想を得て、OCRを実行するための確立されたニューラルネットワークを構築します。
実験の結果,60dpiスキャンした60dpiのテキストに対してOCRを実行することができ,その解像度は最先端のテキストに比べてかなり低く,平均文字レベル精度(CLA)は99.7%,単語レベル精度(WLA)は98.9%であった。
75dpi画像の場合、平均CLAは99.9%、平均WLAは99.4%である。
この分野での今後の作業のベンチマークとして、コードとデータ(基礎となる真実を持つ低解像度画像を含む)を公開しています。
関連論文リスト
- Mero Nagarikta: Advanced Nepali Citizenship Data Extractor with Deep Learning-Powered Text Detection and OCR [0.0]
そこで本研究では,テキストオブジェクトの正確な検出にYOLOv8を用いるロバストシステムと,最適化されたPyTesseractに基づくOCRアルゴリズムを提案する。
モバイルアプリケーションのコンテキスト内で実装されたこのシステムは、重要なテキスト情報の自動抽出を可能にする。
ネパール文字に最適化されたPyTesseractは、柔軟性と精度に関して標準のOCRよりも優れていた。
論文 参考訳(メタデータ) (2024-10-08T06:29:08Z) - LOCR: Location-Guided Transformer for Optical Character Recognition [55.195165959662795]
自動回帰中にトランスフォーマーアーキテクチャに位置案内を組み込むモデルであるLOCRを提案する。
125Kの学術文書ページから777万以上のテキスト配置ペアからなるデータセット上でモデルをトレーニングする。
これは、編集距離、BLEU、METEOR、F測定によって測定されたarXivから構築されたテストセットの既存のメソッドよりも優れています。
論文 参考訳(メタデータ) (2024-03-04T15:34:12Z) - Extending TrOCR for Text Localization-Free OCR of Full-Page Scanned
Receipt Images [0.07673339435080445]
本稿では,レセプション画像中のすべての文字を順序付きシーケンス・ツー・エンドに変換するために,ローカライズフリーな文書レベルOCRモデルを提案する。
具体的には、訓練済みのインスタンスレベルモデルTrOCRをランダムにトリミングした画像チャンクで微調整する。
実験では64.4F1スコアと22.8%の文字誤り率を達成した。
論文 参考訳(メタデータ) (2022-12-11T15:45:26Z) - Dynamic Low-Resolution Distillation for Cost-Efficient End-to-End Text
Spotting [49.33891486324731]
コスト効率の高い動的低分解能蒸留(DLD)テキストスポッティングフレームワークを提案する。
それは、小さなが認識可能な解像度で画像を推測し、精度と効率のバランスを改善することを目的としている。
提案手法はエンド・ツー・エンドを最適化し,既存のテキストスポッティング・フレームワークに実装することで,実践性を向上させる。
論文 参考訳(メタデータ) (2022-07-14T06:49:59Z) - Lexically Aware Semi-Supervised Learning for OCR Post-Correction [90.54336622024299]
世界中の多くの言語における既存の言語データの多くは、非デジタル化された書籍や文書に閉じ込められている。
従来の研究は、あまり良くない言語を認識するためのニューラル・ポスト・コレクション法の有用性を実証してきた。
そこで本研究では,生画像を利用した半教師付き学習手法を提案する。
論文 参考訳(メタデータ) (2021-11-04T04:39:02Z) - RayNet: Real-time Scene Arbitrary-shape Text Detection with Multiple
Rays [84.15123599963239]
RayNetと呼ばれる任意の形状のテキスト検出のための新しい検出フレームワークを提案する。
RayNet はテキストに適合するために Center Point Set (CPS) と Ray Distance (RD) を使用し、テキストの一般的な位置を決定するために CPS を使用し、RD を CPS と組み合わせてRay Points (RP) を計算し、テキストの正確な形状をローカライズする。
RayNetは、既存の曲面テキストデータセット(CTW1500)と四角テキストデータセット(ICDAR2015)で素晴らしいパフォーマンスを達成する
論文 参考訳(メタデータ) (2021-04-11T03:03:23Z) - UltraSR: Spatial Encoding is a Missing Key for Implicit Image
Function-based Arbitrary-Scale Super-Resolution [74.82282301089994]
本研究では,暗黙的イメージ関数に基づく,シンプルで効果的な新しいネットワーク設計であるUltraSRを提案する。
空間符号化は,次の段階の高精度暗黙的画像機能に対する欠落鍵であることを示す。
UltraSRは、すべての超解像スケールでDIV2Kベンチマークに最新のパフォーマンスを設定します。
論文 参考訳(メタデータ) (2021-03-23T17:36:42Z) - PP-OCR: A Practical Ultra Lightweight OCR System [8.740684949994664]
実用的超軽量OCRシステム(PP-OCR)を提案する。
PP-OCRの全体的なモデルサイズは、6622の漢字を認識するために3.5M、63の数字記号を認識するために2.8Mである。
論文 参考訳(メタデータ) (2020-09-21T14:57:18Z) - An Efficient Language-Independent Multi-Font OCR for Arabic Script [0.0]
本稿では,アラビア文字のスキャン画像を入力として取り出し,対応するデジタル文書を生成する完全アラビアOCRシステムを提案する。
また,現在最先端のセグメンテーションアルゴリズムよりも優れたフォント非依存文字アルゴリズムを提案する。
論文 参考訳(メタデータ) (2020-09-18T22:57:03Z) - Scene Text Image Super-Resolution in the Wild [112.90416737357141]
低解像度のテキスト画像は、携帯電話が捉えた文書のような自然の場面でよく見られる。
従来は、合成低解像度画像に対して、単一の画像超解像法 (SISR) を訓練していた。
実際のシーンテキストSRデータセットであるTextZoomをプロポーズする。
この写真には、野生の焦点距離の異なるカメラが捉えた、実際の低解像度と高解像度の2つの画像が含まれている。
論文 参考訳(メタデータ) (2020-05-07T09:18:59Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。