論文の概要: Unknown-box Approximation to Improve Optical Character Recognition
Performance
- arxiv url: http://arxiv.org/abs/2105.07983v1
- Date: Mon, 17 May 2021 16:09:15 GMT
- ステータス: 処理完了
- システム内更新日: 2021-05-18 14:40:49.474859
- Title: Unknown-box Approximation to Improve Optical Character Recognition
Performance
- Title(参考訳): 未知ボックス近似による光文字認識性能の向上
- Authors: Ayantha Randika, Nilanjan Ray, Xiao Xiao, Allegra Latimer
- Abstract要約: 特定のOCRエンジン用にカスタマイズされたプリプロセッサを作成するための新しいアプローチが提示される。
2つのデータセットと2つのOCRエンジンによる実験は、提示されたプリプロセッサがOCRの精度をベースラインから最大46%向上できることを示している。
- 参考スコア(独自算出の注目度): 7.805544279853116
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Optical character recognition (OCR) is a widely used pattern recognition
application in numerous domains. There are several feature-rich,
general-purpose OCR solutions available for consumers, which can provide
moderate to excellent accuracy levels. However, accuracy can diminish with
difficult and uncommon document domains. Preprocessing of document images can
be used to minimize the effect of domain shift. In this paper, a novel approach
is presented for creating a customized preprocessor for a given OCR engine.
Unlike the previous OCR agnostic preprocessing techniques, the proposed
approach approximates the gradient of a particular OCR engine to train a
preprocessor module. Experiments with two datasets and two OCR engines show
that the presented preprocessor is able to improve the accuracy of the OCR up
to 46% from the baseline by applying pixel-level manipulations to the document
image. The implementation of the proposed method and the enhanced public
datasets are available for download.
- Abstract(参考訳): 光文字認識(OCR)は多くの領域で広く使われているパターン認識アプリケーションである。
コンシューマ向けの機能豊富な汎用OCRソリューションがいくつか用意されており、適度な精度と優れた精度を提供することができる。
しかし、困難で珍しい文書ドメインでは精度が低下する可能性がある。
文書画像の前処理はドメインシフトの影響を最小限に抑えるために使用できる。
本稿では,OCRエンジン用にカスタマイズされたプリプロセッサを作成するための新しい手法を提案する。
従来のOCR非依存前処理技術とは異なり、提案手法は特定のOCRエンジンの勾配を近似してプリプロセッサモジュールを訓練する。
2つのデータセットと2つのocrエンジンを用いた実験により、提示されたプリプロセッサは、文書画像にピクセルレベルの操作を適用することで、ベースラインから46%までocrの精度を向上させることができることを示した。
提案手法と拡張された公開データセットの実装はダウンロード可能である。
関連論文リスト
- LOCR: Location-Guided Transformer for Optical Character Recognition [55.195165959662795]
自動回帰中にトランスフォーマーアーキテクチャに位置案内を組み込むモデルであるLOCRを提案する。
125Kの学術文書ページから777万以上のテキスト配置ペアからなるデータセット上でモデルをトレーニングする。
これは、編集距離、BLEU、METEOR、F測定によって測定されたarXivから構築されたテストセットの既存のメソッドよりも優れています。
論文 参考訳(メタデータ) (2024-03-04T15:34:12Z) - Optimization of Image Processing Algorithms for Character Recognition in
Cultural Typewritten Documents [0.8158530638728501]
光文字認識(OCR)における画像処理手法とパラメータチューニングの影響について検討する。
この手法は多目的問題定式化を用いて、Levenshtein編集距離を最小化し、非支配的ソート遺伝的アルゴリズム(NSGA-II)で正しく同定された単語数を最大化する。
以上の結果から,OCRにおける画像前処理アルゴリズムの活用は,前処理なしのテキスト認識タスクが良い結果を出さないタイプに適している可能性が示唆された。
論文 参考訳(メタデータ) (2023-11-27T11:44:46Z) - Beyond Learned Metadata-based Raw Image Reconstruction [86.1667769209103]
生画像は、線形性や微細な量子化レベルなど、sRGB画像に対して明確な利点がある。
ストレージの要求が大きいため、一般ユーザからは広く採用されていない。
本稿では,メタデータとして,潜在空間におけるコンパクトな表現を学習する新しいフレームワークを提案する。
論文 参考訳(メタデータ) (2023-06-21T06:59:07Z) - Deep Unrestricted Document Image Rectification [110.61517455253308]
文書画像修正のための新しい統合フレームワークDocTr++を提案する。
我々は,階層型エンコーダデコーダ構造を多スケール表現抽出・解析に適用することにより,元のアーキテクチャをアップグレードする。
実際のテストセットとメトリクスをコントリビュートして、修正品質を評価します。
論文 参考訳(メタデータ) (2023-04-18T08:00:54Z) - Extending TrOCR for Text Localization-Free OCR of Full-Page Scanned
Receipt Images [0.07673339435080445]
本稿では,レセプション画像中のすべての文字を順序付きシーケンス・ツー・エンドに変換するために,ローカライズフリーな文書レベルOCRモデルを提案する。
具体的には、訓練済みのインスタンスレベルモデルTrOCRをランダムにトリミングした画像チャンクで微調整する。
実験では64.4F1スコアと22.8%の文字誤り率を達成した。
論文 参考訳(メタデータ) (2022-12-11T15:45:26Z) - Implicit Neural Representations for Image Compression [103.78615661013623]
Inlicit Neural Representations (INRs) は、様々なデータ型の新規かつ効果的な表現として注目されている。
量子化、量子化を考慮した再学習、エントロピー符号化を含むINRに基づく最初の包括的圧縮パイプラインを提案する。
我々は、INRによるソース圧縮に対する我々のアプローチが、同様の以前の作業よりも大幅に優れていることに気付きました。
論文 参考訳(メタデータ) (2021-12-08T13:02:53Z) - Donut: Document Understanding Transformer without OCR [17.397447819420695]
我々は,OCRフレームワークを基盤にすることなく,エンドツーエンドのトレーニングが可能な新しいVDUモデルを提案する。
提案手法は,公開ベンチマークデータセットとプライベート産業サービスデータセットの各種文書理解タスクにおける最先端のパフォーマンスを実現する。
論文 参考訳(メタデータ) (2021-11-30T18:55:19Z) - Image preprocessing and modified adaptive thresholding for improving OCR [0.0]
本稿では,テキスト内の画素強度を最大化し,それに応じて画像のしきい値を設定する手法を提案する。
得られた結果から,OCRの画像処理分野において,このアルゴリズムを効率的に適用できることが分かる。
論文 参考訳(メタデータ) (2021-11-28T08:13:20Z) - DocScanner: Robust Document Image Rectification with Progressive
Learning [162.03694280524084]
この研究はDocScannerという、文書画像の修正のための新しいディープネットワークアーキテクチャを提示する。
DocScannerは、修正されたイメージの1つの見積を維持し、再帰的なアーキテクチャで徐々に修正される。
反復的な改善によりDocScannerは堅牢で優れたパフォーマンスに収束し、軽量なリカレントアーキテクチャにより実行効率が保証される。
論文 参考訳(メタデータ) (2021-10-28T09:15:02Z) - Automatic Extrinsic Calibration Method for LiDAR and Camera Sensor
Setups [68.8204255655161]
本論文では,LiDAR,単眼,ステレオカメラを含む任意のセンサのパラメータを校正する手法を提案する。
提案手法は、通常、車両のセットアップで見られるように、非常に異なる解像度とポーズのデバイスを扱うことができる。
論文 参考訳(メタデータ) (2021-01-12T12:02:26Z) - OCR Graph Features for Manipulation Detection in Documents [11.193867567895353]
OCR(Optical Character Recognition)を用いたグラフ特徴量を利用したモデルを提案する。
本モデルは,OCR特徴量に基づいてランダムな森林分類器を訓練することにより,変化を検出するためのデータ駆動型手法に依存している。
我々は,本アルゴリズムの偽造検出性能を,若干の偽造不完全な実業務文書から構築したデータセット上で評価した。
論文 参考訳(メタデータ) (2020-09-10T21:50:45Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。