論文の概要: CLOCR-C: Context Leveraging OCR Correction with Pre-trained Language Models
- arxiv url: http://arxiv.org/abs/2408.17428v2
- Date: Wed, 22 Jan 2025 06:58:06 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-01-23 13:29:13.611553
- Title: CLOCR-C: Context Leveraging OCR Correction with Pre-trained Language Models
- Title(参考訳): CLOCR-C: 事前学習言語モデルを用いたOCR補正のコンテキストレバレッジ
- Authors: Jonathan Bourne,
- Abstract要約: 本稿では、コンテキストレバレッジOCR補正(CLOCR-C)を紹介する。
トランスフォーマーベースの言語モデル(LM)の組み込みとコンテキスト適応能力を使用して、OCRの品質を向上する。
本研究の目的は, LMがOCR後の修正を行うことができるか, 下流のNLPタスクを改善するか, 補正プロセスの一部として社会文化的文脈を提供する価値を判断することである。
- 参考スコア(独自算出の注目度): 0.0
- License:
- Abstract: The digitisation of historical print media archives is crucial for increasing accessibility to contemporary records. However, the process of Optical Character Recognition (OCR) used to convert physical records to digital text is prone to errors, particularly in the case of newspapers and periodicals due to their complex layouts. This paper introduces Context Leveraging OCR Correction (CLOCR-C), which utilises the infilling and context-adaptive abilities of transformer-based language models (LMs) to improve OCR quality. The study aims to determine if LMs can perform post-OCR correction, improve downstream NLP tasks, and the value of providing the socio-cultural context as part of the correction process. Experiments were conducted using seven LMs on three datasets: the 19th Century Serials Edition (NCSE) and two datasets from the Overproof collection. The results demonstrate that some LMs can significantly reduce error rates, with the top-performing model achieving over a 60\% reduction in character error rate on the NCSE dataset. The OCR improvements extend to downstream tasks, such as Named Entity Recognition, with increased Cosine Named Entity Similarity. Furthermore, the study shows that providing socio-cultural context in the prompts improves performance, while misleading prompts lower performance. In addition to the findings, this study releases a dataset of 91 transcribed articles from the NCSE, containing a total of 40 thousand words, to support further research in this area. The findings suggest that CLOCR-C is a promising approach for enhancing the quality of existing digital archives by leveraging the socio-cultural information embedded in the LMs and the text requiring correction.
- Abstract(参考訳): 歴史的印刷メディアアーカイブのデジタル化は、現代記録へのアクセシビリティ向上に不可欠である。
しかし、物理レコードをデジタルテキストに変換するために用いられる光学文字認識(OCR)のプロセスは、特に新聞や定期刊行物の場合、特に複雑なレイアウトのためにエラーを起こしやすい。
本稿では、トランスフォーマーベース言語モデル(LM)の組み込みとコンテキスト適応能力を利用して、OCRの品質を向上させるコンテキストレバレッジOCR補正(CLOCR-C)を提案する。
本研究の目的は, LMがOCR後の修正を行うことができるか, 下流のNLPタスクを改善するか, 補正プロセスの一部として社会文化的文脈を提供する価値を判断することである。
実験は、19世紀シリアルズエディション(NCSE)とOverproofコレクションからの2つのデータセットの3つのデータセット上で7つのLMを使用して実施された。
その結果,一部のLMは誤り率を著しく低減し,NCSEデータセット上での文字誤り率を60%以上削減できることがわかった。
OCRの改善により、名前付きエンティティ認識などの下流タスクにも拡張され、Cosine名前付きエンティティ類似性が向上した。
さらに、この研究は、社会文化的文脈を提供することによって、パフォーマンスが向上する一方で、誤解を招くことによってパフォーマンスが低下することを示している。
本研究は,本研究の成果に加えて,約4万語からなるNCSEの91項目のデータセットを公表し,さらなる研究を支援した。
その結果, CLOCR-Cは, LMに埋め込まれた社会文化的情報と, 修正を必要とするテキストを活用することで, 既存のデジタルアーカイブの品質向上に期待できるアプローチであることが示唆された。
関連論文リスト
- Reference-Based Post-OCR Processing with LLM for Diacritic Languages [0.0]
コンテンツ中心の電子書籍を参照ベースとして活用し、不完全なOCR生成テキストを訂正する手法を提案する。
この技術は、ダイアクリティカル言語のための高精度な擬似ページ・ツー・ページラベルを生成する。
パイプラインは、古いドキュメントから様々な種類のノイズを排除し、欠落した文字、単語、乱れたシーケンスといった問題に対処する。
論文 参考訳(メタデータ) (2024-10-17T08:05:02Z) - Failing Forward: Improving Generative Error Correction for ASR with Synthetic Data and Retrieval Augmentation [73.9145653659403]
生成誤差補正モデルは、トレーニング中に発生する特定の種類のエラーを超えて一般化することが困難であることを示す。
DARAGは、ドメイン内(ID)およびOODシナリオにおけるASRのためのGCCを改善するために設計された新しいアプローチである。
私たちのアプローチはシンプルでスケーラブルで、ドメインと言語に依存しません。
論文 参考訳(メタデータ) (2024-10-17T04:00:29Z) - Scrambled text: training Language Models to correct OCR errors using synthetic data [0.0]
本稿では,合成データ上での言語モデルの微調整により,OCRエラーの修正能力が大幅に向上することを示す。
合成データで訓練されたモデルは、文字誤り率を55%減らし、単語誤り率を32%減らし、実際のデータで訓練されたモデルよりも優れていた。
論文 参考訳(メタデータ) (2024-09-29T15:20:37Z) - C-LLM: Learn to Check Chinese Spelling Errors Character by Character [61.53865964535705]
本稿では,C-LLMを提案する。C-LLMは,文字による誤り文字のチェックを学習する中国語のスペルチェック手法である。
C-LLMは既存の方法よりも平均10%改善する。
論文 参考訳(メタデータ) (2024-06-24T11:16:31Z) - Deductive Closure Training of Language Models for Coherence, Accuracy, and Updatability [58.582216812183496]
言語モデル(LM)は、実際に正しいテキストを生成し、個々のクレームの真理値を推定することがある。
現在のLMは誤った内容や非意味な内容を生成しており、編集や更新は困難である。
本稿では,DCT(Deductive Closure Training)と呼ばれる手法を提案する。
論文 参考訳(メタデータ) (2024-01-16T18:58:37Z) - Data Generation for Post-OCR correction of Cyrillic handwriting [41.94295877935867]
本稿では,B'ezier曲線に基づく合成手書き生成エンジンの開発と応用に焦点を当てる。
このようなエンジンは、任意の量で非常にリアルな手書きテキストを生成し、それを利用して実質的なデータセットを作成する。
本データセットに手書きテキスト認識(HTR)モデルを適用し,OCRエラーを識別し,POCモデルトレーニングの基礎となる。
論文 参考訳(メタデータ) (2023-11-27T15:01:26Z) - Cross-modal Active Complementary Learning with Self-refining
Correspondence [54.61307946222386]
既存手法のロバスト性を改善するために,クロスモーダルなロバスト補完学習フレームワーク(CRCL)を提案する。
ACLは、誤った監視を行うリスクを減らすために、アクティブで補完的な学習損失を利用する。
SCCは、モーメント補正を備えた複数の自己精製プロセスを使用して、対応を補正するために受容場を拡大する。
論文 参考訳(メタデータ) (2023-10-26T15:15:11Z) - User-Centric Evaluation of OCR Systems for Kwak'wala [92.73847703011353]
OCRを利用すると、文化的に価値ある文書の書き起こしに費やした時間を50%以上削減できることを示す。
この結果から,OCRツールが下流言語ドキュメントや再生作業において持つ潜在的なメリットが示された。
論文 参考訳(メタデータ) (2023-02-26T21:41:15Z) - Lexically Aware Semi-Supervised Learning for OCR Post-Correction [90.54336622024299]
世界中の多くの言語における既存の言語データの多くは、非デジタル化された書籍や文書に閉じ込められている。
従来の研究は、あまり良くない言語を認識するためのニューラル・ポスト・コレクション法の有用性を実証してきた。
そこで本研究では,生画像を利用した半教師付き学習手法を提案する。
論文 参考訳(メタデータ) (2021-11-04T04:39:02Z) - Rerunning OCR: A Machine Learning Approach to Quality Assessment and
Enhancement Prediction [0.0]
新しい改善されたOCRソリューションの反復は、適切な再処理候補をターゲットとする決定を強制する。
本稿はルクセンブルク国立図書館の取り組みを捉え、これらの決定を裏付けるものである。
論文 参考訳(メタデータ) (2021-10-04T18:52:59Z) - Lights, Camera, Action! A Framework to Improve NLP Accuracy over OCR
documents [2.6201102730518606]
我々は、下流のNLPタスクに対してOCRエラーを軽減するための効果的なフレームワークを実証する。
まず,文書合成パイプラインを構築することにより,モデル学習におけるデータ不足問題に対処する。
コミュニティの利益のために、私たちはドキュメント合成パイプラインをオープンソースプロジェクトとして利用可能にしました。
論文 参考訳(メタデータ) (2021-08-06T00:32:54Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。