Fugu-MT 論文翻訳(概要): Optimization of Image Processing Algorithms for Character Recognition in Cultural Typewritten Documents

論文の概要: Optimization of Image Processing Algorithms for Character Recognition in Cultural Typewritten Documents

arxiv url: http://arxiv.org/abs/2311.15740v1
Date: Mon, 27 Nov 2023 11:44:46 GMT
ステータス: 翻訳完了
システム内更新日: 2023-11-28 15:30:46.969964
Title: Optimization of Image Processing Algorithms for Character Recognition in Cultural Typewritten Documents
Title（参考訳）: 文化文書における文字認識のための画像処理アルゴリズムの最適化
Authors: Mariana Dias and Carla Teixeira Lopes
Abstract要約: 光文字認識(OCR)における画像処理手法とパラメータチューニングの影響について検討する。この手法は多目的問題定式化を用いて、Levenshtein編集距離を最小化し、非支配的ソート遺伝的アルゴリズム(NSGA-II)で正しく同定された単語数を最大化する。以上の結果から,OCRにおける画像前処理アルゴリズムの活用は,前処理なしのテキスト認識タスクが良い結果を出さないタイプに適している可能性が示唆された。
参考スコア（独自算出の注目度）: 0.8158530638728501
License: http://creativecommons.org/licenses/by/4.0/
Abstract: Linked Data is used in various fields as a new way of structuring and connecting data. Cultural heritage institutions have been using linked data to improve archival descriptions and facilitate the discovery of information. Most archival records have digital representations of physical artifacts in the form of scanned images that are non-machine-readable. Optical Character Recognition (OCR) recognizes text in images and translates it into machine-encoded text. This paper evaluates the impact of image processing methods and parameter tuning in OCR applied to typewritten cultural heritage documents. The approach uses a multi-objective problem formulation to minimize Levenshtein edit distance and maximize the number of words correctly identified with a non-dominated sorting genetic algorithm (NSGA-II) to tune the methods' parameters. Evaluation results show that parameterization by digital representation typology benefits the performance of image pre-processing algorithms in OCR. Furthermore, our findings suggest that employing image pre-processing algorithms in OCR might be more suitable for typologies where the text recognition task without pre-processing does not produce good results. In particular, Adaptive Thresholding, Bilateral Filter, and Opening are the best-performing algorithms for the theatre plays' covers, letters, and overall dataset, respectively, and should be applied before OCR to improve its performance.
Abstract（参考訳）: リンクされたデータは、データの構造化と接続の新しい方法として様々な分野で使用される。文化遺産機関は、リンクデータを使用してアーカイブ記述を改善し、情報の発見を促進する。ほとんどのアーキヴルレコードは、物理的アーティファクトのデジタル表現を持ち、スキャンされた画像は機械で読めない。光文字認識(OCR)は画像中のテキストを認識し、それを機械符号化されたテキストに変換する。本稿では,OCRにおける画像処理手法とパラメータチューニングの影響について検討する。このアプローチは多目的問題定式化を用いて、Levenshtein編集距離を最小化し、非支配的ソート遺伝的アルゴリズム(NSGA-II)で正しく識別された単語数を最大化し、メソッドのパラメータをチューニングする。評価の結果,OCRにおける画像前処理アルゴリズムの性能は,デジタル表現型によるパラメータ化が有効であることがわかった。さらに,OCRにおける画像前処理アルゴリズムの活用は,前処理なしのテキスト認識タスクが良い結果を出さないタイプに適している可能性が示唆された。特に、アダプティブ・しきい値、バイラテラル・フィルター、オープニングは、演劇のカバー、文字、データセット全体において、それぞれ最もパフォーマンスの高いアルゴリズムであり、ocrの前に適用してパフォーマンスを向上させる必要がある。

関連論文リスト

Digitization of Document and Information Extraction using OCR [0.0]
本論文は,光学文字認識(OCR)技術とLarge Language Models(LLM)を融合したテキスト抽出フレームワークを提案する。スキャンされたファイルはOCRエンジンで処理され、デジタルファイルはレイアウト対応のライブラリを通して解釈される。そして、抽出した原文をLLMで解析して、キー値対を特定し、あいまいさを解消する。
論文参考訳（メタデータ） (2025-06-11T16:03:01Z)
Words as Geometric Features: Estimating Homography using Optical Character Recognition as Compressed Image Representation [6.385732495789276]
ドキュメントアライメントは、自動フォーム処理、異常検出、ワークフロー自動化など、多くの現実世界のアプリケーションにおいて重要な役割を果たす。文書アライメントの伝統的な手法は、ホモグラフのような幾何学的変換を推定するために、キーポイント、エッジ、テクスチャのような画像ベースの特徴に依存している。本稿では,光学文字認識(OCR)出力をホモグラフィー推定の特徴として活用する新しい手法を提案する。
論文参考訳（メタデータ） (2025-05-25T01:20:32Z)
TFIC: End-to-End Text-Focused Image Compression for Coding for Machines [50.86328069558113]
後続の光学文字認識(OCR)のためのテキスト固有の特徴を保持するために設計された画像圧縮システムを提案する。我々のエンコーディングプロセスはOCRモジュールに必要な時間の半分を必要としており、計算能力に制限のあるデバイスに特に適しています。
論文参考訳（メタデータ） (2025-03-25T09:36:13Z)
Geometry Restoration and Dewarping of Camera-Captured Document Images [0.0]
本研究では,カメラが捉えた紙文書のデジタル画像のトポロジを復元する手法の開発に焦点をあてる。本手法では,文書アウトライン検出に深層学習(DL)を用い,次いでコンピュータビジョン(CV)を用いてトポロジカル2Dグリッドを作成する。
論文参考訳（メタデータ） (2025-01-06T17:12:19Z)
UNIT: Unifying Image and Text Recognition in One Vision Encoder [51.140564856352825]
UNITは、単一のモデル内で画像とテキストの認識を統一することを目的とした、新しいトレーニングフレームワークである。文書関連タスクにおいて,UNITが既存の手法を著しく上回ることを示す。注目すべきなのは、UNITはオリジナルのビジョンエンコーダアーキテクチャを保持しており、推論とデプロイメントの点で費用がかからないことだ。
論文参考訳（メタデータ） (2024-09-06T08:02:43Z)
Optimizing CLIP Models for Image Retrieval with Maintained Joint-Embedding Alignment [0.7499722271664144]
Contrastive Language and Image Pairing (CLIP) はマルチメディア検索における変換手法である。 CLIPは通常、2つのニューラルネットワークを同時にトレーニングし、テキストとイメージペアのジョイント埋め込みを生成する。本稿では,様々な画像に基づく類似性検索シナリオに対して,CLIPモデルを最適化するという課題に対処する。
論文参考訳（メタデータ） (2024-09-03T14:33:01Z)
Decoder Pre-Training with only Text for Scene Text Recognition [54.93037783663204]
シーンテキスト認識(STR)事前学習法は,主に合成データセットに依存し,顕著な進歩を遂げている。 STR(DPTR)用テキストのみを用いたDecoder Pre-trainingという新しい手法を提案する。 DPTRはCLIPテキストエンコーダが生成したテキスト埋め込みを擬似視覚埋め込みとして扱い、デコーダの事前訓練に使用する。
論文参考訳（メタデータ） (2024-08-11T06:36:42Z)
Learning Robust Named Entity Recognizers From Noisy Data With Retrieval Augmentation [67.89838237013078]
名前付きエンティティ認識(NER)モデルは、しばしばノイズの多い入力に悩まされる。ノイズの多いテキストとそのNERラベルのみを利用できる、より現実的な設定を提案する。我々は、推論中にテキストを取得することなく、堅牢なNERを改善するマルチビュートレーニングフレームワークを採用している。
論文参考訳（メタデータ） (2024-07-26T07:30:41Z)
A Novel Pipeline for Improving Optical Character Recognition through Post-processing Using Natural Language Processing [2.9499386124223257]
自然言語処理(NLP)ツールを用いた後処理手法を提案する。この研究は、まず手書きまたは印刷されたテキストでOCRを実行し、次にNLPを使用してその精度を向上させるエンドツーエンドパイプラインを示す。
論文参考訳（メタデータ） (2023-07-09T18:51:17Z)
Text Detection Forgot About Document OCR [0.0]
本稿では,テキスト認識と文書テキスト認識のためのいくつかの手法を比較した。この結果から,現在提案されている文書テキスト検出手法は,文書テキスト検出において優れた結果が得られることが示唆された。
論文参考訳（メタデータ） (2022-10-14T15:37:54Z)
Image preprocessing and modified adaptive thresholding for improving OCR [0.0]
本稿では,テキスト内の画素強度を最大化し,それに応じて画像のしきい値を設定する手法を提案する。得られた結果から,OCRの画像処理分野において,このアルゴリズムを効率的に適用できることが分かる。
論文参考訳（メタデータ） (2021-11-28T08:13:20Z)
Lexically Aware Semi-Supervised Learning for OCR Post-Correction [90.54336622024299]
世界中の多くの言語における既存の言語データの多くは、非デジタル化された書籍や文書に閉じ込められている。従来の研究は、あまり良くない言語を認識するためのニューラル・ポスト・コレクション法の有用性を実証してきた。そこで本研究では,生画像を利用した半教師付き学習手法を提案する。
論文参考訳（メタデータ） (2021-11-04T04:39:02Z)
DocScanner: Robust Document Image Rectification with Progressive Learning [162.03694280524084]
この研究はDocScannerという、文書画像の修正のための新しいディープネットワークアーキテクチャを提示する。 DocScannerは、修正されたイメージの1つの見積を維持し、再帰的なアーキテクチャで徐々に修正される。反復的な改善によりDocScannerは堅牢で優れたパフォーマンスに収束し、軽量なリカレントアーキテクチャにより実行効率が保証される。
論文参考訳（メタデータ） (2021-10-28T09:15:02Z)
TrOCR: Transformer-based Optical Character Recognition with Pre-trained Models [47.48019831416665]
本稿では,事前学習した画像変換器とテキスト変換器モデル,すなわちTrOCRを用いたエンドツーエンドのテキスト認識手法を提案する。 TrOCRは単純だが効果的であり、大規模な合成データで事前訓練し、人間のラベル付きデータセットで微調整することができる。実験により、TrOCRモデルは、印刷されたテキスト認識タスクと手書きのテキスト認識タスクの両方において、現在の最先端モデルよりも優れていることが示された。
論文参考訳（メタデータ） (2021-09-21T16:01:56Z)
Unknown-box Approximation to Improve Optical Character Recognition Performance [7.805544279853116]
特定のOCRエンジン用にカスタマイズされたプリプロセッサを作成するための新しいアプローチが提示される。 2つのデータセットと2つのOCRエンジンによる実験は、提示されたプリプロセッサがOCRの精度をベースラインから最大46%向上できることを示している。
論文参考訳（メタデータ） (2021-05-17T16:09:15Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。