論文の概要: Unknown-box Approximation to Improve Optical Character Recognition
Performance
- arxiv url: http://arxiv.org/abs/2105.07983v1
- Date: Mon, 17 May 2021 16:09:15 GMT
- ステータス: 処理完了
- システム内更新日: 2021-05-18 14:40:49.474859
- Title: Unknown-box Approximation to Improve Optical Character Recognition
Performance
- Title(参考訳): 未知ボックス近似による光文字認識性能の向上
- Authors: Ayantha Randika, Nilanjan Ray, Xiao Xiao, Allegra Latimer
- Abstract要約: 特定のOCRエンジン用にカスタマイズされたプリプロセッサを作成するための新しいアプローチが提示される。
2つのデータセットと2つのOCRエンジンによる実験は、提示されたプリプロセッサがOCRの精度をベースラインから最大46%向上できることを示している。
- 参考スコア(独自算出の注目度): 7.805544279853116
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Optical character recognition (OCR) is a widely used pattern recognition
application in numerous domains. There are several feature-rich,
general-purpose OCR solutions available for consumers, which can provide
moderate to excellent accuracy levels. However, accuracy can diminish with
difficult and uncommon document domains. Preprocessing of document images can
be used to minimize the effect of domain shift. In this paper, a novel approach
is presented for creating a customized preprocessor for a given OCR engine.
Unlike the previous OCR agnostic preprocessing techniques, the proposed
approach approximates the gradient of a particular OCR engine to train a
preprocessor module. Experiments with two datasets and two OCR engines show
that the presented preprocessor is able to improve the accuracy of the OCR up
to 46% from the baseline by applying pixel-level manipulations to the document
image. The implementation of the proposed method and the enhanced public
datasets are available for download.
- Abstract(参考訳): 光文字認識(OCR)は多くの領域で広く使われているパターン認識アプリケーションである。
コンシューマ向けの機能豊富な汎用OCRソリューションがいくつか用意されており、適度な精度と優れた精度を提供することができる。
しかし、困難で珍しい文書ドメインでは精度が低下する可能性がある。
文書画像の前処理はドメインシフトの影響を最小限に抑えるために使用できる。
本稿では,OCRエンジン用にカスタマイズされたプリプロセッサを作成するための新しい手法を提案する。
従来のOCR非依存前処理技術とは異なり、提案手法は特定のOCRエンジンの勾配を近似してプリプロセッサモジュールを訓練する。
2つのデータセットと2つのocrエンジンを用いた実験により、提示されたプリプロセッサは、文書画像にピクセルレベルの操作を適用することで、ベースラインから46%までocrの精度を向上させることができることを示した。
提案手法と拡張された公開データセットの実装はダウンロード可能である。
関連論文リスト
- Comparison of Image Preprocessing Techniques for Vehicle License Plate Recognition Using OCR: Performance and Accuracy Evaluation [0.0]
この研究は、OCRアプリケーションで広く使われているブラジルの車両ナンバープレートのデータセットを使用している。
この研究は、ベストプラクティスを詳細に分析し、現実世界のシナリオでOCRのパフォーマンスを最適化するための洞察を提供する。
論文 参考訳(メタデータ) (2024-10-15T21:00:27Z) - UNIT: Unifying Image and Text Recognition in One Vision Encoder [51.140564856352825]
UNITは、単一のモデル内で画像とテキストの認識を統一することを目的とした、新しいトレーニングフレームワークである。
文書関連タスクにおいて,UNITが既存の手法を著しく上回ることを示す。
注目すべきなのは、UNITはオリジナルのビジョンエンコーダアーキテクチャを保持しており、推論とデプロイメントの点で費用がかからないことだ。
論文 参考訳(メタデータ) (2024-09-06T08:02:43Z) - DLoRA-TrOCR: Mixed Text Mode Optical Character Recognition Based On Transformer [12.966765239586994]
マルチフォント、混合シーン、複雑なレイアウトは、従来のOCRモデルの認識精度に深刻な影響を及ぼす。
本稿では,事前学習したOCR変換器,すなわちDLoRA-TrOCRに基づくパラメータ効率の良い混合テキスト認識手法を提案する。
論文 参考訳(メタデータ) (2024-04-19T09:28:16Z) - LOCR: Location-Guided Transformer for Optical Character Recognition [55.195165959662795]
自動回帰中にトランスフォーマーアーキテクチャに位置案内を組み込むモデルであるLOCRを提案する。
125Kの学術文書ページから777万以上のテキスト配置ペアからなるデータセット上でモデルをトレーニングする。
これは、編集距離、BLEU、METEOR、F測定によって測定されたarXivから構築されたテストセットの既存のメソッドよりも優れています。
論文 参考訳(メタデータ) (2024-03-04T15:34:12Z) - Optimization of Image Processing Algorithms for Character Recognition in
Cultural Typewritten Documents [0.8158530638728501]
光文字認識(OCR)における画像処理手法とパラメータチューニングの影響について検討する。
この手法は多目的問題定式化を用いて、Levenshtein編集距離を最小化し、非支配的ソート遺伝的アルゴリズム(NSGA-II)で正しく同定された単語数を最大化する。
以上の結果から,OCRにおける画像前処理アルゴリズムの活用は,前処理なしのテキスト認識タスクが良い結果を出さないタイプに適している可能性が示唆された。
論文 参考訳(メタデータ) (2023-11-27T11:44:46Z) - Beyond Learned Metadata-based Raw Image Reconstruction [86.1667769209103]
生画像は、線形性や微細な量子化レベルなど、sRGB画像に対して明確な利点がある。
ストレージの要求が大きいため、一般ユーザからは広く採用されていない。
本稿では,メタデータとして,潜在空間におけるコンパクトな表現を学習する新しいフレームワークを提案する。
論文 参考訳(メタデータ) (2023-06-21T06:59:07Z) - Deep Unrestricted Document Image Rectification [110.61517455253308]
文書画像修正のための新しい統合フレームワークDocTr++を提案する。
我々は,階層型エンコーダデコーダ構造を多スケール表現抽出・解析に適用することにより,元のアーキテクチャをアップグレードする。
実際のテストセットとメトリクスをコントリビュートして、修正品質を評価します。
論文 参考訳(メタデータ) (2023-04-18T08:00:54Z) - Implicit Neural Representations for Image Compression [103.78615661013623]
Inlicit Neural Representations (INRs) は、様々なデータ型の新規かつ効果的な表現として注目されている。
量子化、量子化を考慮した再学習、エントロピー符号化を含むINRに基づく最初の包括的圧縮パイプラインを提案する。
我々は、INRによるソース圧縮に対する我々のアプローチが、同様の以前の作業よりも大幅に優れていることに気付きました。
論文 参考訳(メタデータ) (2021-12-08T13:02:53Z) - Donut: Document Understanding Transformer without OCR [17.397447819420695]
我々は,OCRフレームワークを基盤にすることなく,エンドツーエンドのトレーニングが可能な新しいVDUモデルを提案する。
提案手法は,公開ベンチマークデータセットとプライベート産業サービスデータセットの各種文書理解タスクにおける最先端のパフォーマンスを実現する。
論文 参考訳(メタデータ) (2021-11-30T18:55:19Z) - Image preprocessing and modified adaptive thresholding for improving OCR [0.0]
本稿では,テキスト内の画素強度を最大化し,それに応じて画像のしきい値を設定する手法を提案する。
得られた結果から,OCRの画像処理分野において,このアルゴリズムを効率的に適用できることが分かる。
論文 参考訳(メタデータ) (2021-11-28T08:13:20Z) - DocScanner: Robust Document Image Rectification with Progressive
Learning [162.03694280524084]
この研究はDocScannerという、文書画像の修正のための新しいディープネットワークアーキテクチャを提示する。
DocScannerは、修正されたイメージの1つの見積を維持し、再帰的なアーキテクチャで徐々に修正される。
反復的な改善によりDocScannerは堅牢で優れたパフォーマンスに収束し、軽量なリカレントアーキテクチャにより実行効率が保証される。
論文 参考訳(メタデータ) (2021-10-28T09:15:02Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。