論文の概要: Optimization of Image Processing Algorithms for Character Recognition in
Cultural Typewritten Documents
- arxiv url: http://arxiv.org/abs/2311.15740v1
- Date: Mon, 27 Nov 2023 11:44:46 GMT
- ステータス: 処理完了
- システム内更新日: 2023-11-28 15:30:46.969964
- Title: Optimization of Image Processing Algorithms for Character Recognition in
Cultural Typewritten Documents
- Title(参考訳): 文化文書における文字認識のための画像処理アルゴリズムの最適化
- Authors: Mariana Dias and Carla Teixeira Lopes
- Abstract要約: 光文字認識(OCR)における画像処理手法とパラメータチューニングの影響について検討する。
この手法は多目的問題定式化を用いて、Levenshtein編集距離を最小化し、非支配的ソート遺伝的アルゴリズム(NSGA-II)で正しく同定された単語数を最大化する。
以上の結果から,OCRにおける画像前処理アルゴリズムの活用は,前処理なしのテキスト認識タスクが良い結果を出さないタイプに適している可能性が示唆された。
- 参考スコア(独自算出の注目度): 0.8158530638728501
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Linked Data is used in various fields as a new way of structuring and
connecting data. Cultural heritage institutions have been using linked data to
improve archival descriptions and facilitate the discovery of information. Most
archival records have digital representations of physical artifacts in the form
of scanned images that are non-machine-readable. Optical Character Recognition
(OCR) recognizes text in images and translates it into machine-encoded text.
This paper evaluates the impact of image processing methods and parameter
tuning in OCR applied to typewritten cultural heritage documents. The approach
uses a multi-objective problem formulation to minimize Levenshtein edit
distance and maximize the number of words correctly identified with a
non-dominated sorting genetic algorithm (NSGA-II) to tune the methods'
parameters. Evaluation results show that parameterization by digital
representation typology benefits the performance of image pre-processing
algorithms in OCR. Furthermore, our findings suggest that employing image
pre-processing algorithms in OCR might be more suitable for typologies where
the text recognition task without pre-processing does not produce good results.
In particular, Adaptive Thresholding, Bilateral Filter, and Opening are the
best-performing algorithms for the theatre plays' covers, letters, and overall
dataset, respectively, and should be applied before OCR to improve its
performance.
- Abstract(参考訳): リンクされたデータは、データの構造化と接続の新しい方法として様々な分野で使用される。
文化遺産機関は、リンクデータを使用してアーカイブ記述を改善し、情報の発見を促進する。
ほとんどのアーキヴルレコードは、物理的アーティファクトのデジタル表現を持ち、スキャンされた画像は機械で読めない。
光文字認識(OCR)は画像中のテキストを認識し、それを機械符号化されたテキストに変換する。
本稿では,OCRにおける画像処理手法とパラメータチューニングの影響について検討する。
このアプローチは多目的問題定式化を用いて、Levenshtein編集距離を最小化し、非支配的ソート遺伝的アルゴリズム(NSGA-II)で正しく識別された単語数を最大化し、メソッドのパラメータをチューニングする。
評価の結果,OCRにおける画像前処理アルゴリズムの性能は,デジタル表現型によるパラメータ化が有効であることがわかった。
さらに,OCRにおける画像前処理アルゴリズムの活用は,前処理なしのテキスト認識タスクが良い結果を出さないタイプに適している可能性が示唆された。
特に、アダプティブ・しきい値、バイラテラル・フィルター、オープニングは、演劇のカバー、文字、データセット全体において、それぞれ最もパフォーマンスの高いアルゴリズムであり、ocrの前に適用してパフォーマンスを向上させる必要がある。
関連論文リスト
- Sentence-level Prompts Benefit Composed Image Retrieval [69.78119883060006]
合成画像検索(CIR)は、参照画像と相対キャプションの両方を含むクエリを用いて、特定の画像を検索するタスクである。
本稿では,事前訓練されたV-Lモデル,例えばBLIP-2を用いて文レベルのプロンプトを生成することを提案する。
提案手法は,Fashion-IQおよびCIRRデータセット上の最先端のCIR手法に対して良好に動作する。
論文 参考訳(メタデータ) (2023-10-09T07:31:44Z) - A Novel Pipeline for Improving Optical Character Recognition through
Post-processing Using Natural Language Processing [2.9499386124223257]
自然言語処理(NLP)ツールを用いた後処理手法を提案する。
この研究は、まず手書きまたは印刷されたテキストでOCRを実行し、次にNLPを使用してその精度を向上させるエンドツーエンドパイプラインを示す。
論文 参考訳(メタデータ) (2023-07-09T18:51:17Z) - StrucTexTv2: Masked Visual-Textual Prediction for Document Image
Pre-training [64.37272287179661]
StrucTexTv2は、効果的なドキュメントイメージ事前トレーニングフレームワークである。
マスク付き画像モデリングとマスク付き言語モデリングの2つの自己教師付き事前訓練タスクで構成されている。
画像分類、レイアウト解析、テーブル構造認識、ドキュメントOCR、情報抽出など、さまざまな下流タスクにおいて、競合的あるいは新しい最先端パフォーマンスを実現する。
論文 参考訳(メタデータ) (2023-03-01T07:32:51Z) - Extending TrOCR for Text Localization-Free OCR of Full-Page Scanned
Receipt Images [0.07673339435080445]
本稿では,レセプション画像中のすべての文字を順序付きシーケンス・ツー・エンドに変換するために,ローカライズフリーな文書レベルOCRモデルを提案する。
具体的には、訓練済みのインスタンスレベルモデルTrOCRをランダムにトリミングした画像チャンクで微調整する。
実験では64.4F1スコアと22.8%の文字誤り率を達成した。
論文 参考訳(メタデータ) (2022-12-11T15:45:26Z) - Text Detection Forgot About Document OCR [0.0]
本稿では,テキスト認識と文書テキスト認識のためのいくつかの手法を比較した。
この結果から,現在提案されている文書テキスト検出手法は,文書テキスト検出において優れた結果が得られることが示唆された。
論文 参考訳(メタデータ) (2022-10-14T15:37:54Z) - MaskOCR: Text Recognition with Masked Encoder-Decoder Pretraining [68.05105411320842]
本稿では,従来のエンコーダ・デコーダ認識フレームワークにおいて,視覚と言語を事前学習するための新しいアプローチであるMaskOCRを提案する。
マスク付き画像モデリング手法を用いて、未ラベルのテキスト画像の集合を用いて特徴エンコーダを事前学習する。
テキストデータを合成されたテキスト画像に変換し、視覚と言語のデータモダリティを統一し、シーケンスデコーダの言語モデリング能力を向上する。
論文 参考訳(メタデータ) (2022-06-01T08:27:19Z) - Image preprocessing and modified adaptive thresholding for improving OCR [0.0]
本稿では,テキスト内の画素強度を最大化し,それに応じて画像のしきい値を設定する手法を提案する。
得られた結果から,OCRの画像処理分野において,このアルゴリズムを効率的に適用できることが分かる。
論文 参考訳(メタデータ) (2021-11-28T08:13:20Z) - Lexically Aware Semi-Supervised Learning for OCR Post-Correction [90.54336622024299]
世界中の多くの言語における既存の言語データの多くは、非デジタル化された書籍や文書に閉じ込められている。
従来の研究は、あまり良くない言語を認識するためのニューラル・ポスト・コレクション法の有用性を実証してきた。
そこで本研究では,生画像を利用した半教師付き学習手法を提案する。
論文 参考訳(メタデータ) (2021-11-04T04:39:02Z) - DocScanner: Robust Document Image Rectification with Progressive
Learning [162.03694280524084]
この研究はDocScannerという、文書画像の修正のための新しいディープネットワークアーキテクチャを提示する。
DocScannerは、修正されたイメージの1つの見積を維持し、再帰的なアーキテクチャで徐々に修正される。
反復的な改善によりDocScannerは堅牢で優れたパフォーマンスに収束し、軽量なリカレントアーキテクチャにより実行効率が保証される。
論文 参考訳(メタデータ) (2021-10-28T09:15:02Z) - TrOCR: Transformer-based Optical Character Recognition with Pre-trained
Models [47.48019831416665]
本稿では,事前学習した画像変換器とテキスト変換器モデル,すなわちTrOCRを用いたエンドツーエンドのテキスト認識手法を提案する。
TrOCRは単純だが効果的であり、大規模な合成データで事前訓練し、人間のラベル付きデータセットで微調整することができる。
実験により、TrOCRモデルは、印刷されたテキスト認識タスクと手書きのテキスト認識タスクの両方において、現在の最先端モデルよりも優れていることが示された。
論文 参考訳(メタデータ) (2021-09-21T16:01:56Z) - Unknown-box Approximation to Improve Optical Character Recognition
Performance [7.805544279853116]
特定のOCRエンジン用にカスタマイズされたプリプロセッサを作成するための新しいアプローチが提示される。
2つのデータセットと2つのOCRエンジンによる実験は、提示されたプリプロセッサがOCRの精度をベースラインから最大46%向上できることを示している。
論文 参考訳(メタデータ) (2021-05-17T16:09:15Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。