論文の概要: Toward a Period-Specific Optimized Neural Network for OCR Error
Correction of Historical Hebrew Texts
- arxiv url: http://arxiv.org/abs/2307.16213v1
- Date: Sun, 30 Jul 2023 12:40:31 GMT
- ステータス: 処理完了
- システム内更新日: 2023-08-01 16:57:33.433472
- Title: Toward a Period-Specific Optimized Neural Network for OCR Error
Correction of Historical Hebrew Texts
- Title(参考訳): 歴史的ヘブライ語テキストのOCR誤り訂正のための周期最適化ニューラルネットワーク
- Authors: Omri Suissa, Maayan Zhitomirsky-Geffet, Avshalom Elmalech
- Abstract要約: OCR技術は、特に数百年前にOCRedドキュメントが書かれたとき、エラーを起こしやすい。
ニューラルネットワークは、OCRポストコレクションなど、さまざまなテキスト処理タスクの解決に成功している。
ニューラルネットワークを過去のコーパスに使用する主な欠点は、十分な大規模なトレーニングデータセットがないことである。
- 参考スコア(独自算出の注目度): 0.934612743192798
- License: http://creativecommons.org/licenses/by-nc-nd/4.0/
- Abstract: Over the past few decades, large archives of paper-based historical
documents, such as books and newspapers, have been digitized using the Optical
Character Recognition (OCR) technology. Unfortunately, this broadly used
technology is error-prone, especially when an OCRed document was written
hundreds of years ago. Neural networks have shown great success in solving
various text processing tasks, including OCR post-correction. The main
disadvantage of using neural networks for historical corpora is the lack of
sufficiently large training datasets they require to learn from, especially for
morphologically-rich languages like Hebrew. Moreover, it is not clear what are
the optimal structure and values of hyperparameters (predefined parameters) of
neural networks for OCR error correction in Hebrew due to its unique features.
Furthermore, languages change across genres and periods. These changes may
affect the accuracy of OCR post-correction neural network models. To overcome
these challenges, we developed a new multi-phase method for generating
artificial training datasets with OCR errors and hyperparameters optimization
for building an effective neural network for OCR post-correction in Hebrew.
- Abstract(参考訳): 過去数十年間、書籍や新聞など、紙ベースの歴史的文書の大規模なアーカイブがocr(optical character recognition)技術を使ってデジタル化されてきた。
残念なことに、この広く使われている技術は、特に数百年前にOCRedドキュメントが書かれたとき、エラーを起こしやすい。
ニューラルネットワークはocr後修正を含む様々なテキスト処理タスクの解決に成功している。
歴史的コーパスにニューラルネットワークを使用する主な欠点は、学習に必要な十分な大規模なトレーニングデータセットが欠如していることである。
さらに、ヘブライ語におけるOCR誤り訂正のためのニューラルネットワークのハイパーパラメータ(事前定義されたパラメータ)の最適構造と値が、その特徴から何であるかは明らかになっていない。
さらに、言語はジャンルや時代によって変化する。
これらの変化は、OCR後ニューラルネットワークモデルの精度に影響を与える可能性がある。
これらの課題を克服するために、ヘブライ語でOCR後補正のための効果的なニューラルネットワークを構築するために、OCRエラーとハイパーパラメータ最適化を用いた人工トレーニングデータセットを生成するための新しいマルチフェーズ手法を開発した。
関連論文リスト
- Reference-Based Post-OCR Processing with LLM for Diacritic Languages [0.0]
コンテンツ中心の電子書籍を参照ベースとして活用し、不完全なOCR生成テキストを訂正する手法を提案する。
この技術は、ダイアクリティカル言語のための高精度な擬似ページ・ツー・ページラベルを生成する。
パイプラインは、古いドキュメントから様々な種類のノイズを排除し、欠落した文字、単語、乱れたシーケンスといった問題に対処する。
論文 参考訳(メタデータ) (2024-10-17T08:05:02Z) - Failing Forward: Improving Generative Error Correction for ASR with Synthetic Data and Retrieval Augmentation [73.9145653659403]
生成誤差補正モデルは、トレーニング中に発生する特定の種類のエラーを超えて一般化することが困難であることを示す。
DARAGは、ドメイン内(ID)およびOODシナリオにおけるASRのためのGCCを改善するために設計された新しいアプローチである。
私たちのアプローチはシンプルでスケーラブルで、ドメインと言語に依存しません。
論文 参考訳(メタデータ) (2024-10-17T04:00:29Z) - CLOCR-C: Context Leveraging OCR Correction with Pre-trained Language Models [0.0]
本稿では、コンテキストレバレッジOCR補正(CLOCR-C)を紹介する。
トランスフォーマーベースの言語モデル(LM)の組み込みとコンテキスト適応能力を使用して、OCRの品質を向上する。
本研究の目的は, LMがOCR後の修正を行うことができるか, 下流のNLPタスクを改善するか, 補正プロセスの一部として社会文化的コンテキストを提供することの価値を判断することである。
論文 参考訳(メタデータ) (2024-08-30T17:26:05Z) - Data Generation for Post-OCR correction of Cyrillic handwriting [41.94295877935867]
本稿では,B'ezier曲線に基づく合成手書き生成エンジンの開発と応用に焦点を当てる。
このようなエンジンは、任意の量で非常にリアルな手書きテキストを生成し、それを利用して実質的なデータセットを作成する。
本データセットに手書きテキスト認識(HTR)モデルを適用し,OCRエラーを識別し,POCモデルトレーニングの基礎となる。
論文 参考訳(メタデータ) (2023-11-27T15:01:26Z) - Generative error correction for code-switching speech recognition using
large language models [49.06203730433107]
コードスイッチング(英: Code-switching, CS)とは、2つ以上の言語が同じ文内に混在する現象である。
本稿では,大規模言語モデル (LLM) と ASR が生成する仮説のリストを利用して,CS 問題に対処することを提案する。
論文 参考訳(メタデータ) (2023-10-17T14:49:48Z) - Optimizing the Neural Network Training for OCR Error Correction of
Historical Hebrew Texts [0.934612743192798]
本稿では,ヘブライOCR後補正のための軽量ニューラルネットワークを,手作業で生成したデータよりもはるかに少ない精度でトレーニングする方法を提案する。
過去のOCR新聞の分析は、共通言語とコーパス固有のOCRエラーを学習するために行われた。
論文 参考訳(メタデータ) (2023-07-30T12:59:06Z) - User-Centric Evaluation of OCR Systems for Kwak'wala [92.73847703011353]
OCRを利用すると、文化的に価値ある文書の書き起こしに費やした時間を50%以上削減できることを示す。
この結果から,OCRツールが下流言語ドキュメントや再生作業において持つ潜在的なメリットが示された。
論文 参考訳(メタデータ) (2023-02-26T21:41:15Z) - Lexically Aware Semi-Supervised Learning for OCR Post-Correction [90.54336622024299]
世界中の多くの言語における既存の言語データの多くは、非デジタル化された書籍や文書に閉じ込められている。
従来の研究は、あまり良くない言語を認識するためのニューラル・ポスト・コレクション法の有用性を実証してきた。
そこで本研究では,生画像を利用した半教師付き学習手法を提案する。
論文 参考訳(メタデータ) (2021-11-04T04:39:02Z) - Factorized Neural Transducer for Efficient Language Model Adaptation [51.81097243306204]
空白および語彙予測を分解し,ニューラルトランスデューサの因子化モデルを提案する。
この因子化は、音声認識のためのトランスデューサにスタンドアロン言語モデルの改善を移すことが期待できる。
提案した因子化ニューラルトランスデューサは、言語モデル適応にドメイン外テキストデータを使用する場合、15%から20%のWER改善が得られることを示す。
論文 参考訳(メタデータ) (2021-09-27T15:04:00Z) - Neural OCR Post-Hoc Correction of Historical Corpora [4.427447378048202]
本稿では,再カレント(RNN)と深部畳み込みネットワーク(ConvNet)を組み合わせたニューラルアプローチを提案する。
我々のモデルは多様なOCR転写誤りを捕捉し、単語誤り率を32.3%減らして89%以上削減できることを示す。
論文 参考訳(メタデータ) (2021-02-01T01:35:55Z) - Recognizing Long Grammatical Sequences Using Recurrent Networks
Augmented With An External Differentiable Stack [73.48927855855219]
リカレントニューラルネットワーク(RNN)は、シーケンスモデリング、生成、予測に広く使われているディープアーキテクチャである。
RNNは、非常に長いシーケンスに対してあまり一般化せず、多くの重要な時間的処理や時系列予測問題に適用性を制限する。
これらの欠点に対処する方法の1つは、スタックのような外部の異なるメモリ構造とRNNを結合することである。
本稿では,重要なアーキテクチャと状態更新機構を備えたメモリ拡張RNNを改良する。
論文 参考訳(メタデータ) (2020-04-04T14:19:15Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。