論文の概要: Optimizing the Neural Network Training for OCR Error Correction of
Historical Hebrew Texts
- arxiv url: http://arxiv.org/abs/2307.16220v1
- Date: Sun, 30 Jul 2023 12:59:06 GMT
- ステータス: 処理完了
- システム内更新日: 2023-08-01 16:59:01.941594
- Title: Optimizing the Neural Network Training for OCR Error Correction of
Historical Hebrew Texts
- Title(参考訳): 歴史的ヘブライ語テキストのOCR誤り訂正のためのニューラルネットワーク学習の最適化
- Authors: Omri Suissa, Avshalom Elmalech, Maayan Zhitomirsky-Geffet
- Abstract要約: 本稿では,ヘブライOCR後補正のための軽量ニューラルネットワークを,手作業で生成したデータよりもはるかに少ない精度でトレーニングする方法を提案する。
過去のOCR新聞の分析は、共通言語とコーパス固有のOCRエラーを学習するために行われた。
- 参考スコア(独自算出の注目度): 0.934612743192798
- License: http://creativecommons.org/licenses/by-nc-nd/4.0/
- Abstract: Over the past few decades, large archives of paper-based documents such as
books and newspapers have been digitized using Optical Character Recognition.
This technology is error-prone, especially for historical documents. To correct
OCR errors, post-processing algorithms have been proposed based on natural
language analysis and machine learning techniques such as neural networks.
Neural network's disadvantage is the vast amount of manually labeled data
required for training, which is often unavailable. This paper proposes an
innovative method for training a light-weight neural network for Hebrew OCR
post-correction using significantly less manually created data. The main
research goal is to develop a method for automatically generating language and
task-specific training data to improve the neural network results for OCR
post-correction, and to investigate which type of dataset is the most effective
for OCR post-correction of historical documents. To this end, a series of
experiments using several datasets was conducted. The evaluation corpus was
based on Hebrew newspapers from the JPress project. An analysis of historical
OCRed newspapers was done to learn common language and corpus-specific OCR
errors. We found that training the network using the proposed method is more
effective than using randomly generated errors. The results also show that the
performance of the neural network for OCR post-correction strongly depends on
the genre and area of the training data. Moreover, neural networks that were
trained with the proposed method outperform other state-of-the-art neural
networks for OCR post-correction and complex spellcheckers. These results may
have practical implications for many digital humanities projects.
- Abstract(参考訳): 過去数十年間、書籍や新聞などの文書の大規模なアーカイブが光文字認識を用いてデジタル化されてきた。
この技術は特に歴史文書でエラーを起こしやすい。
OCRエラーを修正するために、自然言語解析やニューラルネットワークなどの機械学習技術に基づく後処理アルゴリズムが提案されている。
ニューラルネットワークの欠点は、トレーニングに必要な大量の手作業によるラベル付きデータである。
本稿では,比較的少ない手作業で作成したデータを用いて,ヘブライのocr後修正のための軽量ニューラルネットワークのトレーニング手法を提案する。
本研究の目的は,OCRポストコレクションのニューラルネットワーク結果を改善するために,言語やタスク固有のトレーニングデータを自動的に生成する手法を開発し,歴史的文書のOCRポストコレクションに最も有効なデータセットの種類を調査することである。
この目的のために、複数のデータセットを用いた一連の実験を行った。
評価コーパスはJPressプロジェクトのヘブライ語の新聞に基づいていた。
共通言語とコーパス固有のocr誤りを学習するために, 歴史的オクルード新聞の分析を行った。
提案手法を用いたネットワークトレーニングは,ランダムに生成したエラーよりも効果的であることがわかった。
また,ocr後修正のためのニューラルネットワークの性能は,トレーニングデータのジャンルや領域に大きく依存することを示した。
さらに,提案手法で学習したニューラルネットワークは,ocr後修正や複雑なスペルチェッカのための最先端ニューラルネットワークよりも優れている。
これらの結果は、多くのデジタル人文科学プロジェクトにとって実践的な意味を持つかもしれない。
関連論文リスト
- Data Generation for Post-OCR correction of Cyrillic handwriting [41.94295877935867]
本稿では,B'ezier曲線に基づく合成手書き生成エンジンの開発と応用に焦点を当てる。
このようなエンジンは、任意の量で非常にリアルな手書きテキストを生成し、それを利用して実質的なデータセットを作成する。
本データセットに手書きテキスト認識(HTR)モデルを適用し,OCRエラーを識別し,POCモデルトレーニングの基礎となる。
論文 参考訳(メタデータ) (2023-11-27T15:01:26Z) - Toward a Period-Specific Optimized Neural Network for OCR Error
Correction of Historical Hebrew Texts [0.934612743192798]
OCR技術は、特に数百年前にOCRedドキュメントが書かれたとき、エラーを起こしやすい。
ニューラルネットワークは、OCRポストコレクションなど、さまざまなテキスト処理タスクの解決に成功している。
ニューラルネットワークを過去のコーパスに使用する主な欠点は、十分な大規模なトレーニングデータセットがないことである。
論文 参考訳(メタデータ) (2023-07-30T12:40:31Z) - User-Centric Evaluation of OCR Systems for Kwak'wala [92.73847703011353]
OCRを利用すると、文化的に価値ある文書の書き起こしに費やした時間を50%以上削減できることを示す。
この結果から,OCRツールが下流言語ドキュメントや再生作業において持つ潜在的なメリットが示された。
論文 参考訳(メタデータ) (2023-02-26T21:41:15Z) - Learning to Learn with Generative Models of Neural Network Checkpoints [71.06722933442956]
ニューラルネットワークのチェックポイントのデータセットを構築し,パラメータの生成モデルをトレーニングする。
提案手法は,幅広い損失プロンプトに対するパラメータの生成に成功している。
我々は、教師付きおよび強化学習における異なるニューラルネットワークアーキテクチャとタスクに本手法を適用した。
論文 参考訳(メタデータ) (2022-09-26T17:59:58Z) - Reconstructing Training Data from Trained Neural Networks [42.60217236418818]
いくつかのケースでは、トレーニングデータのかなりの部分が、実際にトレーニングされたニューラルネットワーク分類器のパラメータから再構成可能であることを示す。
本稿では,勾配に基づくニューラルネットワークの学習における暗黙バイアスに関する最近の理論的結果から,新たな再構成手法を提案する。
論文 参考訳(メタデータ) (2022-06-15T18:35:16Z) - A Survey on Non-Autoregressive Generation for Neural Machine Translation
and Beyond [145.43029264191543]
非自己回帰(NAR)生成は推論を高速化するために機械翻訳(NMT)で最初に提案される。
NAR生成は機械翻訳を著しく加速させるが、自己回帰(AR)生成の推論は翻訳精度を犠牲にする。
NAR生成とAR生成の精度ギャップを埋めるために、多くの新しいモデルとアルゴリズムが設計/提案されている。
論文 参考訳(メタデータ) (2022-04-20T07:25:22Z) - Lexically Aware Semi-Supervised Learning for OCR Post-Correction [90.54336622024299]
世界中の多くの言語における既存の言語データの多くは、非デジタル化された書籍や文書に閉じ込められている。
従来の研究は、あまり良くない言語を認識するためのニューラル・ポスト・コレクション法の有用性を実証してきた。
そこで本研究では,生画像を利用した半教師付き学習手法を提案する。
論文 参考訳(メタデータ) (2021-11-04T04:39:02Z) - Local Critic Training for Model-Parallel Learning of Deep Neural
Networks [94.69202357137452]
そこで我々は,局所的批判訓練と呼ばれる新しいモデル並列学習手法を提案する。
提案手法は,畳み込みニューラルネットワーク(CNN)とリカレントニューラルネットワーク(RNN)の両方において,階層群の更新プロセスの分離に成功したことを示す。
また,提案手法によりトレーニングされたネットワークを構造最適化に利用できることを示す。
論文 参考訳(メタデータ) (2021-02-03T09:30:45Z) - On the Accuracy of CRNNs for Line-Based OCR: A Multi-Parameter
Evaluation [0.0]
我々は、劣化した紙に難解な歴史的書体のための高品質な光学文字認識(OCR)モデルを訓練する。
我々は1万行のトレーニングデータから0.44%の文字誤り率(CER)モデルを得ることができる。
オープンソースのフレームワークであるCalamariに依存しているトレーニングパイプラインのすべてのコンポーネントの廃止点を紹介します。
論文 参考訳(メタデータ) (2020-08-06T17:20:56Z) - Multi-fidelity Neural Architecture Search with Knowledge Distillation [69.09782590880367]
ニューラルアーキテクチャ探索のためのベイズ的多重忠実度法 MF-KD を提案する。
知識蒸留は損失関数に追加され、ネットワークが教師ネットワークを模倣することを強制する用語となる。
このような変化した損失関数を持ついくつかのエポックに対するトレーニングは、ロジスティックな損失を持ついくつかのエポックに対するトレーニングよりも、より優れたニューラルアーキテクチャの選択につながることを示す。
論文 参考訳(メタデータ) (2020-06-15T12:32:38Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。