論文の概要: PreP-OCR: A Complete Pipeline for Document Image Restoration and Enhanced OCR Accuracy
- arxiv url: http://arxiv.org/abs/2505.20429v1
- Date: Mon, 26 May 2025 18:25:28 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-05-28 17:05:58.242732
- Title: PreP-OCR: A Complete Pipeline for Document Image Restoration and Enhanced OCR Accuracy
- Title(参考訳): PreP-OCR: ドキュメントイメージ復元と拡張OCR精度のための完全なパイプライン
- Authors: Shuhao Guan, Moule Lin, Cheng Xu, Xinyi Liu, Jinman Zhao, Jiexin Fan, Qi Xu, Derek Greene,
- Abstract要約: PreP-OCRは、文書イメージの復元と意味認識後OCR修正を組み合わせた2段階のパイプラインである。
私たちの重要なイノベーションは、画像の明瞭さと言語的一貫性を共同で最適化することにあります。
我々のパイプラインは,過去のアーカイブをデジタル化するために,画像復元と言語的誤り訂正を統合する可能性を実証している。
- 参考スコア(独自算出の注目度): 14.50674472785442
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: This paper introduces PreP-OCR, a two-stage pipeline that combines document image restoration with semantic-aware post-OCR correction to improve text extraction from degraded historical documents. Our key innovation lies in jointly optimizing image clarity and linguistic consistency. First, we generate synthetic image pairs with randomized text fonts, layouts, and degradations. An image restoration model is trained on this synthetic data, using multi-directional patch extraction and fusion to process large images. Second, a ByT5 post-corrector, fine-tuned on synthetic historical text training pairs, addresses any remaining OCR errors. Detailed experiments on 13,831 pages of real historical documents in English, French, and Spanish show that PreP-OCR pipeline reduces character error rates by 63.9-70.3\% compared to OCR on raw images. Our pipeline demonstrates the potential of integrating image restoration with linguistic error correction for digitizing historical archives.
- Abstract(参考訳): 本稿では,文書画像復元とセマンティック・アウェア・ポスト・OCR補正を組み合わせた2段階パイプラインであるPreP-OCRを紹介し,劣化した歴史文書からのテキスト抽出を改善する。
私たちの重要なイノベーションは、画像の明瞭さと言語的一貫性を共同で最適化することにあります。
まず、ランダム化されたテキストフォント、レイアウト、劣化を伴う合成画像ペアを生成する。
画像復元モデルは、多方向パッチ抽出と融合を用いて、この合成データに基づいて訓練される。
第二に、BYT5ポストコレクタは、合成履歴テキストトレーニングペアに微調整され、残りのOCRエラーに対処する。
英語、フランス語、スペイン語の13,831ページの詳細な実験によると、PreP-OCRパイプラインは原画像上のOCRと比較して文字エラー率を63.9-70.3%削減している。
我々のパイプラインは,過去のアーカイブをデジタル化するために,画像復元と言語的誤り訂正を統合する可能性を実証している。
関連論文リスト
- Recycling the Web: A Method to Enhance Pre-training Data Quality and Quantity for Language Models [107.24906866038431]
我々は,低品質な文書を学習に役立てるために, guIded Rewrite で Web をリサイクルする REWIRE を提案する。
高品質な原文と書き直しテキストが混在すると,22のタスクでそれぞれ1.0,1.3,2.5のパーセンテージが向上することを示す。
論文 参考訳(メタデータ) (2025-06-05T07:12:12Z) - TFIC: End-to-End Text-Focused Image Compression for Coding for Machines [50.86328069558113]
後続の光学文字認識(OCR)のためのテキスト固有の特徴を保持するために設計された画像圧縮システムを提案する。
我々のエンコーディングプロセスはOCRモジュールに必要な時間の半分を必要としており、計算能力に制限のあるデバイスに特に適しています。
論文 参考訳(メタデータ) (2025-03-25T09:36:13Z) - KAP: MLLM-assisted OCR Text Enhancement for Hybrid Retrieval in Chinese Non-Narrative Documents [0.0]
雑音の多いOCR出力を検索最適化テキストに変換する新しいフレームワークであるKAPを提案する。
KAPは2段階のアプローチを採用しており、まずOCRを用いてテキストを抽出し、次にマルチモーダル大言語モデルを用いて出力を洗練する。
実証的な結果は、KAPが従来の前処理手法よりも一貫して、著しく優れていることを示している。
論文 参考訳(メタデータ) (2025-03-11T14:01:03Z) - RoundTripOCR: A Data Generation Technique for Enhancing Post-OCR Error Correction in Low-Resource Devanagari Languages [41.09752906121257]
本稿では,Devanagari言語のための合成データ生成手法であるRoundTripOCRを提案する。
我々は,ヒンディー語,マラティー語,ボド語,ネパール語,コンカニ語,サンスクリット語に対するOCR後のテキスト修正データセットをリリースする。
また,機械翻訳の手法を利用した新しいOCR誤り訂正手法を提案する。
論文 参考訳(メタデータ) (2024-12-14T19:59:41Z) - Reference-Based Post-OCR Processing with LLM for Precise Diacritic Text in Historical Document Recognition [1.6941039309214678]
コンテンツ中心の電子書籍を参照ベースとして活用し、不完全なOCR生成テキストを訂正する手法を提案する。
この技術は、ダイアクリティカル言語のための高精度な擬似ページ・ツー・ページラベルを生成する。
パイプラインは、古いドキュメントから様々な種類のノイズを排除し、欠落した文字、単語、乱れたシーケンスといった問題に対処する。
論文 参考訳(メタデータ) (2024-10-17T08:05:02Z) - Post-OCR Text Correction for Bulgarian Historical Documents [31.072768715994318]
我々は、最初の標準ブルガリア正書法であるドリノフ正書法で書かれた歴史的ブルガリア文書のOCRテキスト補正を評価するための最初のベンチマークデータセットを作成する。
次に、直近のLLMとエンコーダ・デコーダ・フレームワークを用いて、斜めの注意損失とコピー・アンド・カバー機構を増強し、OCR後のテキスト修正を改善する。
提案手法は,認識時に導入された誤りを低減し,文書の品質を25%向上させる。
論文 参考訳(メタデータ) (2024-08-31T19:27:46Z) - Decoder Pre-Training with only Text for Scene Text Recognition [54.93037783663204]
シーンテキスト認識(STR)事前学習法は,主に合成データセットに依存し,顕著な進歩を遂げている。
STR(DPTR)用テキストのみを用いたDecoder Pre-trainingという新しい手法を提案する。
DPTRはCLIPテキストエンコーダが生成したテキスト埋め込みを擬似視覚埋め込みとして扱い、デコーダの事前訓練に使用する。
論文 参考訳(メタデータ) (2024-08-11T06:36:42Z) - Image Super-Resolution with Text Prompt Diffusion [118.023531454099]
画像SRにテキストプロンプトを導入し、劣化前の情報を提供する。
PromptSRは、最新のマルチモーダル大言語モデル(MLLM)を利用して、低解像度画像からプロンプトを生成する。
実験により、テキストプロンプトをSRに導入すると、合成画像と実世界の画像の両方で印象的な結果が得られることが示された。
論文 参考訳(メタデータ) (2023-11-24T05:11:35Z) - PHD: Pixel-Based Language Modeling of Historical Documents [55.75201940642297]
実史文書に類似した合成スキャンを生成する新しい手法を提案する。
我々は,1700-1900年代における合成スキャンと実際の歴史新聞を組み合わせて,我々のモデルであるPHDを事前訓練した。
我々は、この領域におけるその有用性を強調しながら、我々のモデルを歴史的QAタスクに適用することに成功しました。
論文 参考訳(メタデータ) (2023-10-22T08:45:48Z) - DISGO: Automatic End-to-End Evaluation for Scene Text OCR [16.231114992450895]
我々は,シーンテキストOCRを評価するための新しい測定基準として,単語誤り率(WER)を均一に利用する。
特にe2eメトリックについては、削除、挿入、置換、グループ化/順序付けエラーを考慮したdisGO WERと名付けます。
論文 参考訳(メタデータ) (2023-08-25T04:45:37Z) - TrOCR: Transformer-based Optical Character Recognition with Pre-trained
Models [47.48019831416665]
本稿では,事前学習した画像変換器とテキスト変換器モデル,すなわちTrOCRを用いたエンドツーエンドのテキスト認識手法を提案する。
TrOCRは単純だが効果的であり、大規模な合成データで事前訓練し、人間のラベル付きデータセットで微調整することができる。
実験により、TrOCRモデルは、印刷されたテキスト認識タスクと手書きのテキスト認識タスクの両方において、現在の最先端モデルよりも優れていることが示された。
論文 参考訳(メタデータ) (2021-09-21T16:01:56Z) - Lights, Camera, Action! A Framework to Improve NLP Accuracy over OCR
documents [2.6201102730518606]
我々は、下流のNLPタスクに対してOCRエラーを軽減するための効果的なフレームワークを実証する。
まず,文書合成パイプラインを構築することにより,モデル学習におけるデータ不足問題に対処する。
コミュニティの利益のために、私たちはドキュメント合成パイプラインをオープンソースプロジェクトとして利用可能にしました。
論文 参考訳(メタデータ) (2021-08-06T00:32:54Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。