論文の概要: PreP-OCR: A Complete Pipeline for Document Image Restoration and Enhanced OCR Accuracy
- arxiv url: http://arxiv.org/abs/2505.20429v2
- Date: Wed, 28 May 2025 12:04:19 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-05-29 15:04:28.103724
- Title: PreP-OCR: A Complete Pipeline for Document Image Restoration and Enhanced OCR Accuracy
- Title(参考訳): PreP-OCR: ドキュメントイメージ復元と拡張OCR精度のための完全なパイプライン
- Authors: Shuhao Guan, Moule Lin, Cheng Xu, Xinyi Liu, Jinman Zhao, Jiexin Fan, Qi Xu, Derek Greene,
- Abstract要約: PreP-OCRは、文書イメージの復元と意味認識後OCR修正を組み合わせた2段階のパイプラインである。
原画像上のOCRと比較して,PreP-OCRは文字誤り率を63.9-70.3%削減する。
- 参考スコア(独自算出の注目度): 14.50674472785442
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: This paper introduces PreP-OCR, a two-stage pipeline that combines document image restoration with semantic-aware post-OCR correction to enhance both visual clarity and textual consistency, thereby improving text extraction from degraded historical documents. First, we synthesize document-image pairs from plaintext, rendering them with diverse fonts and layouts and then applying a randomly ordered set of degradation operations. An image restoration model is trained on this synthetic data, using multi-directional patch extraction and fusion to process large images. Second, a ByT5 post-OCR model, fine-tuned on synthetic historical text pairs, addresses remaining OCR errors. Detailed experiments on 13,831 pages of real historical documents in English, French, and Spanish show that the PreP-OCR pipeline reduces character error rates by 63.9-70.3% compared to OCR on raw images. Our pipeline demonstrates the potential of integrating image restoration with linguistic error correction for digitizing historical archives.
- Abstract(参考訳): 本稿では,文書画像復元とセマンティック・アウェア・ポスト・OCR補正を組み合わせた2段階パイプラインであるPreP-OCRについて述べる。
まず、テキストから文書と画像のペアを合成し、多様なフォントとレイアウトでレンダリングし、ランダムに順序付けられた分解操作を適用する。
画像復元モデルは、多方向パッチ抽出と融合を用いて、この合成データに基づいて訓練される。
第二に、ByT5ポストOCRモデルは、合成された歴史的テキストペアに基づいて微調整され、残ったOCRエラーに対処する。
英語、フランス語、スペイン語の13,831ページの詳細な実験によると、PreP-OCRパイプラインは原画像上のOCRと比較して文字エラー率を63.9-70.3%削減している。
我々のパイプラインは,過去のアーカイブをデジタル化するために,画像復元と言語的誤り訂正を統合する可能性を実証している。
関連論文リスト
- TFIC: End-to-End Text-Focused Image Compression for Coding for Machines [50.86328069558113]
後続の光学文字認識(OCR)のためのテキスト固有の特徴を保持するために設計された画像圧縮システムを提案する。
我々のエンコーディングプロセスはOCRモジュールに必要な時間の半分を必要としており、計算能力に制限のあるデバイスに特に適しています。
論文 参考訳(メタデータ) (2025-03-25T09:36:13Z) - RoundTripOCR: A Data Generation Technique for Enhancing Post-OCR Error Correction in Low-Resource Devanagari Languages [41.09752906121257]
本稿では,Devanagari言語のための合成データ生成手法であるRoundTripOCRを提案する。
我々は,ヒンディー語,マラティー語,ボド語,ネパール語,コンカニ語,サンスクリット語に対するOCR後のテキスト修正データセットをリリースする。
また,機械翻訳の手法を利用した新しいOCR誤り訂正手法を提案する。
論文 参考訳(メタデータ) (2024-12-14T19:59:41Z) - Reference-Based Post-OCR Processing with LLM for Precise Diacritic Text in Historical Document Recognition [1.6941039309214678]
コンテンツ中心の電子書籍を参照ベースとして活用し、不完全なOCR生成テキストを訂正する手法を提案する。
この技術は、ダイアクリティカル言語のための高精度な擬似ページ・ツー・ページラベルを生成する。
パイプラインは、古いドキュメントから様々な種類のノイズを排除し、欠落した文字、単語、乱れたシーケンスといった問題に対処する。
論文 参考訳(メタデータ) (2024-10-17T08:05:02Z) - Post-OCR Text Correction for Bulgarian Historical Documents [31.072768715994318]
我々は、最初の標準ブルガリア正書法であるドリノフ正書法で書かれた歴史的ブルガリア文書のOCRテキスト補正を評価するための最初のベンチマークデータセットを作成する。
次に、直近のLLMとエンコーダ・デコーダ・フレームワークを用いて、斜めの注意損失とコピー・アンド・カバー機構を増強し、OCR後のテキスト修正を改善する。
提案手法は,認識時に導入された誤りを低減し,文書の品質を25%向上させる。
論文 参考訳(メタデータ) (2024-08-31T19:27:46Z) - Image Super-Resolution with Text Prompt Diffusion [118.023531454099]
画像SRにテキストプロンプトを導入し、劣化前の情報を提供する。
PromptSRは、最新のマルチモーダル大言語モデル(MLLM)を利用して、低解像度画像からプロンプトを生成する。
実験により、テキストプロンプトをSRに導入すると、合成画像と実世界の画像の両方で印象的な結果が得られることが示された。
論文 参考訳(メタデータ) (2023-11-24T05:11:35Z) - Lights, Camera, Action! A Framework to Improve NLP Accuracy over OCR
documents [2.6201102730518606]
我々は、下流のNLPタスクに対してOCRエラーを軽減するための効果的なフレームワークを実証する。
まず,文書合成パイプラインを構築することにより,モデル学習におけるデータ不足問題に対処する。
コミュニティの利益のために、私たちはドキュメント合成パイプラインをオープンソースプロジェクトとして利用可能にしました。
論文 参考訳(メタデータ) (2021-08-06T00:32:54Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。