論文の概要: Optimization of Image Processing Algorithms for Character Recognition in
Cultural Typewritten Documents
- arxiv url: http://arxiv.org/abs/2311.15740v1
- Date: Mon, 27 Nov 2023 11:44:46 GMT
- ステータス: 処理完了
- システム内更新日: 2023-11-28 15:30:46.969964
- Title: Optimization of Image Processing Algorithms for Character Recognition in
Cultural Typewritten Documents
- Title(参考訳): 文化文書における文字認識のための画像処理アルゴリズムの最適化
- Authors: Mariana Dias and Carla Teixeira Lopes
- Abstract要約: 光文字認識(OCR)における画像処理手法とパラメータチューニングの影響について検討する。
この手法は多目的問題定式化を用いて、Levenshtein編集距離を最小化し、非支配的ソート遺伝的アルゴリズム(NSGA-II)で正しく同定された単語数を最大化する。
以上の結果から,OCRにおける画像前処理アルゴリズムの活用は,前処理なしのテキスト認識タスクが良い結果を出さないタイプに適している可能性が示唆された。
- 参考スコア(独自算出の注目度): 0.8158530638728501
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Linked Data is used in various fields as a new way of structuring and
connecting data. Cultural heritage institutions have been using linked data to
improve archival descriptions and facilitate the discovery of information. Most
archival records have digital representations of physical artifacts in the form
of scanned images that are non-machine-readable. Optical Character Recognition
(OCR) recognizes text in images and translates it into machine-encoded text.
This paper evaluates the impact of image processing methods and parameter
tuning in OCR applied to typewritten cultural heritage documents. The approach
uses a multi-objective problem formulation to minimize Levenshtein edit
distance and maximize the number of words correctly identified with a
non-dominated sorting genetic algorithm (NSGA-II) to tune the methods'
parameters. Evaluation results show that parameterization by digital
representation typology benefits the performance of image pre-processing
algorithms in OCR. Furthermore, our findings suggest that employing image
pre-processing algorithms in OCR might be more suitable for typologies where
the text recognition task without pre-processing does not produce good results.
In particular, Adaptive Thresholding, Bilateral Filter, and Opening are the
best-performing algorithms for the theatre plays' covers, letters, and overall
dataset, respectively, and should be applied before OCR to improve its
performance.
- Abstract(参考訳): リンクされたデータは、データの構造化と接続の新しい方法として様々な分野で使用される。
文化遺産機関は、リンクデータを使用してアーカイブ記述を改善し、情報の発見を促進する。
ほとんどのアーキヴルレコードは、物理的アーティファクトのデジタル表現を持ち、スキャンされた画像は機械で読めない。
光文字認識(OCR)は画像中のテキストを認識し、それを機械符号化されたテキストに変換する。
本稿では,OCRにおける画像処理手法とパラメータチューニングの影響について検討する。
このアプローチは多目的問題定式化を用いて、Levenshtein編集距離を最小化し、非支配的ソート遺伝的アルゴリズム(NSGA-II)で正しく識別された単語数を最大化し、メソッドのパラメータをチューニングする。
評価の結果,OCRにおける画像前処理アルゴリズムの性能は,デジタル表現型によるパラメータ化が有効であることがわかった。
さらに,OCRにおける画像前処理アルゴリズムの活用は,前処理なしのテキスト認識タスクが良い結果を出さないタイプに適している可能性が示唆された。
特に、アダプティブ・しきい値、バイラテラル・フィルター、オープニングは、演劇のカバー、文字、データセット全体において、それぞれ最もパフォーマンスの高いアルゴリズムであり、ocrの前に適用してパフォーマンスを向上させる必要がある。
関連論文リスト
- UNIT: Unifying Image and Text Recognition in One Vision Encoder [51.140564856352825]
UNITは、単一のモデル内で画像とテキストの認識を統一することを目的とした、新しいトレーニングフレームワークである。
文書関連タスクにおいて,UNITが既存の手法を著しく上回ることを示す。
注目すべきなのは、UNITはオリジナルのビジョンエンコーダアーキテクチャを保持しており、推論とデプロイメントの点で費用がかからないことだ。
論文 参考訳(メタデータ) (2024-09-06T08:02:43Z) - Optimizing CLIP Models for Image Retrieval with Maintained Joint-Embedding Alignment [0.7499722271664144]
Contrastive Language and Image Pairing (CLIP) はマルチメディア検索における変換手法である。
CLIPは通常、2つのニューラルネットワークを同時にトレーニングし、テキストとイメージペアのジョイント埋め込みを生成する。
本稿では,様々な画像に基づく類似性検索シナリオに対して,CLIPモデルを最適化するという課題に対処する。
論文 参考訳(メタデータ) (2024-09-03T14:33:01Z) - Decoder Pre-Training with only Text for Scene Text Recognition [54.93037783663204]
シーンテキスト認識(STR)事前学習法は,主に合成データセットに依存し,顕著な進歩を遂げている。
STR(DPTR)用テキストのみを用いたDecoder Pre-trainingという新しい手法を提案する。
DPTRはCLIPテキストエンコーダが生成したテキスト埋め込みを擬似視覚埋め込みとして扱い、デコーダの事前訓練に使用する。
論文 参考訳(メタデータ) (2024-08-11T06:36:42Z) - Learning Robust Named Entity Recognizers From Noisy Data With Retrieval Augmentation [67.89838237013078]
名前付きエンティティ認識(NER)モデルは、しばしばノイズの多い入力に悩まされる。
ノイズの多いテキストとそのNERラベルのみを利用できる、より現実的な設定を提案する。
我々は、推論中にテキストを取得することなく、堅牢なNERを改善するマルチビュートレーニングフレームワークを採用している。
論文 参考訳(メタデータ) (2024-07-26T07:30:41Z) - A Novel Pipeline for Improving Optical Character Recognition through
Post-processing Using Natural Language Processing [2.9499386124223257]
自然言語処理(NLP)ツールを用いた後処理手法を提案する。
この研究は、まず手書きまたは印刷されたテキストでOCRを実行し、次にNLPを使用してその精度を向上させるエンドツーエンドパイプラインを示す。
論文 参考訳(メタデータ) (2023-07-09T18:51:17Z) - Text Detection Forgot About Document OCR [0.0]
本稿では,テキスト認識と文書テキスト認識のためのいくつかの手法を比較した。
この結果から,現在提案されている文書テキスト検出手法は,文書テキスト検出において優れた結果が得られることが示唆された。
論文 参考訳(メタデータ) (2022-10-14T15:37:54Z) - Image preprocessing and modified adaptive thresholding for improving OCR [0.0]
本稿では,テキスト内の画素強度を最大化し,それに応じて画像のしきい値を設定する手法を提案する。
得られた結果から,OCRの画像処理分野において,このアルゴリズムを効率的に適用できることが分かる。
論文 参考訳(メタデータ) (2021-11-28T08:13:20Z) - Lexically Aware Semi-Supervised Learning for OCR Post-Correction [90.54336622024299]
世界中の多くの言語における既存の言語データの多くは、非デジタル化された書籍や文書に閉じ込められている。
従来の研究は、あまり良くない言語を認識するためのニューラル・ポスト・コレクション法の有用性を実証してきた。
そこで本研究では,生画像を利用した半教師付き学習手法を提案する。
論文 参考訳(メタデータ) (2021-11-04T04:39:02Z) - DocScanner: Robust Document Image Rectification with Progressive
Learning [162.03694280524084]
この研究はDocScannerという、文書画像の修正のための新しいディープネットワークアーキテクチャを提示する。
DocScannerは、修正されたイメージの1つの見積を維持し、再帰的なアーキテクチャで徐々に修正される。
反復的な改善によりDocScannerは堅牢で優れたパフォーマンスに収束し、軽量なリカレントアーキテクチャにより実行効率が保証される。
論文 参考訳(メタデータ) (2021-10-28T09:15:02Z) - TrOCR: Transformer-based Optical Character Recognition with Pre-trained
Models [47.48019831416665]
本稿では,事前学習した画像変換器とテキスト変換器モデル,すなわちTrOCRを用いたエンドツーエンドのテキスト認識手法を提案する。
TrOCRは単純だが効果的であり、大規模な合成データで事前訓練し、人間のラベル付きデータセットで微調整することができる。
実験により、TrOCRモデルは、印刷されたテキスト認識タスクと手書きのテキスト認識タスクの両方において、現在の最先端モデルよりも優れていることが示された。
論文 参考訳(メタデータ) (2021-09-21T16:01:56Z) - Unknown-box Approximation to Improve Optical Character Recognition
Performance [7.805544279853116]
特定のOCRエンジン用にカスタマイズされたプリプロセッサを作成するための新しいアプローチが提示される。
2つのデータセットと2つのOCRエンジンによる実験は、提示されたプリプロセッサがOCRの精度をベースラインから最大46%向上できることを示している。
論文 参考訳(メタデータ) (2021-05-17T16:09:15Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。