論文の概要: Neural OCR Post-Hoc Correction of Historical Corpora
- arxiv url: http://arxiv.org/abs/2102.00583v1
- Date: Mon, 1 Feb 2021 01:35:55 GMT
- ステータス: 処理完了
- システム内更新日: 2021-02-03 05:29:39.770124
- Title: Neural OCR Post-Hoc Correction of Historical Corpora
- Title(参考訳): 歴史的コーポラの神経OCRポストホック補正
- Authors: Lijun Lyu, Maria Koutraki, Martin Krickl, Besnik Fetahu
- Abstract要約: 本稿では,再カレント(RNN)と深部畳み込みネットワーク(ConvNet)を組み合わせたニューラルアプローチを提案する。
我々のモデルは多様なOCR転写誤りを捕捉し、単語誤り率を32.3%減らして89%以上削減できることを示す。
- 参考スコア(独自算出の注目度): 4.427447378048202
- License: http://creativecommons.org/licenses/by-sa/4.0/
- Abstract: Optical character recognition (OCR) is crucial for a deeper access to
historical collections. OCR needs to account for orthographic variations,
typefaces, or language evolution (i.e., new letters, word spellings), as the
main source of character, word, or word segmentation transcription errors. For
digital corpora of historical prints, the errors are further exacerbated due to
low scan quality and lack of language standardization.
For the task of OCR post-hoc correction, we propose a neural approach based
on a combination of recurrent (RNN) and deep convolutional network (ConvNet) to
correct OCR transcription errors. At character level we flexibly capture
errors, and decode the corrected output based on a novel attention mechanism.
Accounting for the input and output similarity, we propose a new loss function
that rewards the model's correcting behavior.
Evaluation on a historical book corpus in German language shows that our
models are robust in capturing diverse OCR transcription errors and reduce the
word error rate of 32.3% by more than 89%.
- Abstract(参考訳): 光文字認識(ocr)は歴史的コレクションへのより深いアクセスに不可欠である。
OCRは、文字、単語、または単語分割の転写エラーの主源として、正書法の変化、書体、言語進化(新しい文字、単語スペルなど)を考慮する必要がある。
歴史的印刷物のデジタルコーパスでは、スキャン品質の低下と言語標準化の欠如によりエラーはさらに悪化します。
OCRポストホック補正のタスクでは、OCR転写エラーを補正するために、リカレント(RNN)とディープ畳み込みネットワーク(ConvNet)を組み合わせたニューラルアプローチを提案します。
文字レベルでは、誤りを柔軟に捉え、新しい注意機構に基づいて補正された出力を復号する。
入力と出力の類似性を考慮し,モデルの補正動作に報酬を与える新たな損失関数を提案する。
ドイツ語での履歴書コーパスの評価は、私たちのモデルが多様なOCR転写エラーをキャプチャし、単語誤り率を32.3%以上89%削減できることを示しています。
関連論文リスト
- Reference-Based Post-OCR Processing with LLM for Diacritic Languages [0.0]
コンテンツ中心の電子書籍を参照ベースとして活用し、不完全なOCR生成テキストを訂正する手法を提案する。
この技術は、ダイアクリティカル言語のための高精度な擬似ページ・ツー・ページラベルを生成する。
パイプラインは、古いドキュメントから様々な種類のノイズを排除し、欠落した文字、単語、乱れたシーケンスといった問題に対処する。
論文 参考訳(メタデータ) (2024-10-17T08:05:02Z) - A Coin Has Two Sides: A Novel Detector-Corrector Framework for Chinese Spelling Correction [79.52464132360618]
中国語のSpelling Correction(CSC)は、自然言語処理(NLP)の基本課題である。
本稿では,エラー検出・相関器の枠組みに基づく新しい手法を提案する。
我々の検出器は2つのエラー検出結果を得るように設計されており、それぞれ高精度とリコールが特徴である。
論文 参考訳(メタデータ) (2024-09-06T09:26:45Z) - CLOCR-C: Context Leveraging OCR Correction with Pre-trained Language Models [0.0]
本稿では、コンテキストレバレッジOCR補正(CLOCR-C)を紹介する。
トランスフォーマーベースの言語モデル(LM)の組み込みとコンテキスト適応能力を使用して、OCRの品質を向上する。
本研究の目的は, LMがOCR後の修正を行うことができるか, 下流のNLPタスクを改善するか, 補正プロセスの一部として社会文化的コンテキストを提供することの価値を判断することである。
論文 参考訳(メタデータ) (2024-08-30T17:26:05Z) - Data Generation for Post-OCR correction of Cyrillic handwriting [41.94295877935867]
本稿では,B'ezier曲線に基づく合成手書き生成エンジンの開発と応用に焦点を当てる。
このようなエンジンは、任意の量で非常にリアルな手書きテキストを生成し、それを利用して実質的なデータセットを作成する。
本データセットに手書きテキスト認識(HTR)モデルを適用し,OCRエラーを識別し,POCモデルトレーニングの基礎となる。
論文 参考訳(メタデータ) (2023-11-27T15:01:26Z) - HyPoradise: An Open Baseline for Generative Speech Recognition with
Large Language Models [81.56455625624041]
ASRの誤り訂正に外部の大規模言語モデル(LLM)を利用する最初のオープンソースベンチマークを導入する。
提案したベンチマークには、334,000組以上のN-best仮説を含む新しいデータセットHyPoradise (HP)が含まれている。
合理的なプロンプトと生成能力を持つLLMは、N-bestリストに欠けているトークンを修正できる。
論文 参考訳(メタデータ) (2023-09-27T14:44:10Z) - Chinese Spelling Correction as Rephrasing Language Model [63.65217759957206]
文中のスペル誤りを検知し,訂正することを目的とした中国語スペル補正(CSC)について検討する。
現在の最先端の手法は、CSCをシーケンスタギングタスクと文対上の細いBERTベースのモデルとみなしている。
本稿では,文字から文字へのタグ付けではなく,追加のスロットを埋め込むことで文全体を言い換える言語モデル(ReLM)を提案する。
論文 参考訳(メタデータ) (2023-08-17T06:04:28Z) - Optimizing the Neural Network Training for OCR Error Correction of
Historical Hebrew Texts [0.934612743192798]
本稿では,ヘブライOCR後補正のための軽量ニューラルネットワークを,手作業で生成したデータよりもはるかに少ない精度でトレーニングする方法を提案する。
過去のOCR新聞の分析は、共通言語とコーパス固有のOCRエラーを学習するために行われた。
論文 参考訳(メタデータ) (2023-07-30T12:59:06Z) - Toward a Period-Specific Optimized Neural Network for OCR Error
Correction of Historical Hebrew Texts [0.934612743192798]
OCR技術は、特に数百年前にOCRedドキュメントが書かれたとき、エラーを起こしやすい。
ニューラルネットワークは、OCRポストコレクションなど、さまざまなテキスト処理タスクの解決に成功している。
ニューラルネットワークを過去のコーパスに使用する主な欠点は、十分な大規模なトレーニングデータセットがないことである。
論文 参考訳(メタデータ) (2023-07-30T12:40:31Z) - User-Centric Evaluation of OCR Systems for Kwak'wala [92.73847703011353]
OCRを利用すると、文化的に価値ある文書の書き起こしに費やした時間を50%以上削減できることを示す。
この結果から,OCRツールが下流言語ドキュメントや再生作業において持つ潜在的なメリットが示された。
論文 参考訳(メタデータ) (2023-02-26T21:41:15Z) - Lexically Aware Semi-Supervised Learning for OCR Post-Correction [90.54336622024299]
世界中の多くの言語における既存の言語データの多くは、非デジタル化された書籍や文書に閉じ込められている。
従来の研究は、あまり良くない言語を認識するためのニューラル・ポスト・コレクション法の有用性を実証してきた。
そこで本研究では,生画像を利用した半教師付き学習手法を提案する。
論文 参考訳(メタデータ) (2021-11-04T04:39:02Z) - FastCorrect: Fast Error Correction with Edit Alignment for Automatic
Speech Recognition [90.34177266618143]
編集アライメントに基づく新しいNAR誤り訂正モデルであるFastCorrectを提案する。
fastcorrectは推論を6-9倍高速化し、自己回帰補正モデルと比較して精度を8-14%向上させる。
ニューラルマシン翻訳で採用されている一般的なNARモデルの精度を、大きなマージンで上回っています。
論文 参考訳(メタデータ) (2021-05-09T05:35:36Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。