論文の概要: Cleaning Dirty Books: Post-OCR Processing for Previously Scanned Texts
- arxiv url: http://arxiv.org/abs/2110.11934v1
- Date: Fri, 22 Oct 2021 17:33:17 GMT
- ステータス: 処理完了
- システム内更新日: 2021-10-25 15:53:01.026452
- Title: Cleaning Dirty Books: Post-OCR Processing for Previously Scanned Texts
- Title(参考訳): 汚い本: スキャン済みテキストのポストocr処理
- Authors: Allen Kim, Charuta Pethe, Naoya Inoue and Steve Skiena
- Abstract要約: 我々は,光学式文字認識(OCR)誤差の存在下での重複の問題を考察する。
プロジェクト・グーテンベルクのデータセットから19,347個のテキストを収集し,これらの誤りに対処する手法を提案する。
提案手法は,導入した誤差の6倍以上の誤差を補正することを示す。
- 参考スコア(独自算出の注目度): 4.773188087436866
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Substantial amounts of work are required to clean large collections of
digitized books for NLP analysis, both because of the presence of errors in the
scanned text and the presence of duplicate volumes in the corpora. In this
paper, we consider the issue of deduplication in the presence of optical
character recognition (OCR) errors. We present methods to handle these errors,
evaluated on a collection of 19,347 texts from the Project Gutenberg dataset
and 96,635 texts from the HathiTrust Library. We demonstrate that improvements
in language models now enable the detection and correction of OCR errors
without consideration of the scanning image itself. The inconsistencies found
by aligning pairs of scans of the same underlying work provides training data
to build models for detecting and correcting errors. We identify the canonical
version for each of 17,136 repeatedly-scanned books from 58,808 scans. Finally,
we investigate methods to detect and correct errors in single-copy texts. We
show that on average, our method corrects over six times as many errors as it
introduces. We also provide interesting analysis on the relation between
scanning quality and other factors such as location and publication year.
- Abstract(参考訳): スキャンされたテキストに誤りがあることとコーパスに重複したボリュームが存在するため、nlp分析のために大量のデジタル書籍をきれいにするためにかなりの量の作業が必要となる。
本稿では,光学式文字認識(OCR)誤差の存在下での重複の問題を考察する。
本稿では,project gutenbergデータセットの19,347テキストとhathitrustライブラリの96,635テキストのコレクションを用いて,これらのエラーに対処する手法を提案する。
言語モデルの改良により,スキャン画像自体を考慮せずにOCRエラーの検出と修正が可能になった。
同じ仕事のスキャンのペアを合わせることで見つかる矛盾は、エラーを検出し修正するためのモデルを構築するためのトレーニングデータを提供する。
58,808スキャンから17,136冊の繰り返しスキャンされた書籍の標準版を同定した。
最後に,単一コピーテキストの誤りを検出し,訂正する手法について検討する。
提案手法は,提案手法が導入した誤差の6倍以上の誤差を補正することを示す。
また,スキャニング品質と場所や出版年といった他の要因との関係についても興味深い分析を行った。
関連論文リスト
- Is it an i or an l: Test-time Adaptation of Text Line Recognition Models [9.149602257966917]
テスト期間中にテキスト行認識モデルを適用する問題について紹介する。
本稿では,光学モデルの更新に言語モデルからのフィードバックを利用する反復的自己学習手法を提案する。
実験の結果,提案手法は文字誤り率を最大8%向上させることができた。
論文 参考訳(メタデータ) (2023-08-29T05:44:00Z) - MISMATCH: Fine-grained Evaluation of Machine-generated Text with
Mismatch Error Types [68.76742370525234]
テキスト間のきめ細かいミスマッチに基づいて、7つのNLPタスクにおける人間の判断をモデル化する新しい評価手法を提案する。
細粒度評価のためのNLPタスクの最近の取り組みに触発されて,13種類のミスマッチエラータイプを紹介した。
7つのNLPタスクから得られた有意なデータセットの文対間のミスマッチ誤差は,人間の評価とよく一致している。
論文 参考訳(メタデータ) (2023-06-18T01:38:53Z) - Transformer-Based UNet with Multi-Headed Cross-Attention Skip
Connections to Eliminate Artifacts in Scanned Documents [0.0]
Swin Transformerのバックボーンを使用したUNet構造の変更を行い、スキャンされたドキュメントの典型的なアーティファクトを削除する。
合成データのエラー率を最大53.9%削減したテキスト抽出品質の改善をアーカイブする。
論文 参考訳(メタデータ) (2023-06-05T12:12:23Z) - Improving Pre-trained Language Models with Syntactic Dependency
Prediction Task for Chinese Semantic Error Recognition [52.55136323341319]
既存の中国語のテキスト誤り検出は主にスペルと単純な文法的誤りに焦点を当てている。
中国の意味的誤りは、人間が容易に認識できないほど過小評価され、複雑である。
論文 参考訳(メタデータ) (2022-04-15T13:55:32Z) - Lexically Aware Semi-Supervised Learning for OCR Post-Correction [90.54336622024299]
世界中の多くの言語における既存の言語データの多くは、非デジタル化された書籍や文書に閉じ込められている。
従来の研究は、あまり良くない言語を認識するためのニューラル・ポスト・コレクション法の有用性を実証してきた。
そこで本研究では,生画像を利用した半教師付き学習手法を提案する。
論文 参考訳(メタデータ) (2021-11-04T04:39:02Z) - DocScanner: Robust Document Image Rectification with Progressive
Learning [162.03694280524084]
この研究はDocScannerという、文書画像の修正のための新しいディープネットワークアーキテクチャを提示する。
DocScannerは、修正されたイメージの1つの見積を維持し、再帰的なアーキテクチャで徐々に修正される。
反復的な改善によりDocScannerは堅牢で優れたパフォーマンスに収束し、軽量なリカレントアーキテクチャにより実行効率が保証される。
論文 参考訳(メタデータ) (2021-10-28T09:15:02Z) - Empirical Error Modeling Improves Robustness of Noisy Neural Sequence
Labeling [26.27504889360246]
本稿では,誤りのないテキストから誤文への変換を訓練したシーケンス・ツー・シーケンスモデルを用いた経験的誤り生成手法を提案する。
テキスト入力が不完全である場合にさらに悪化するデータ空間の問題に対処するため,ノイズの多い言語モデルによる埋め込みを学習した。
提案手法は, 誤り系列ラベリングデータセットのベースラインノイズ発生と誤り訂正技術より優れていた。
論文 参考訳(メタデータ) (2021-05-25T12:15:45Z) - Improving Translation Robustness with Visual Cues and Error Correction [58.97421756225425]
ノイズの多いテキストに対する翻訳の堅牢性を改善するビジュアルコンテキストのアイデアを紹介します。
また,誤り訂正を補助タスクとして扱うことで,新しい誤り訂正訓練手法を提案する。
論文 参考訳(メタデータ) (2021-03-12T15:31:34Z) - Neural OCR Post-Hoc Correction of Historical Corpora [4.427447378048202]
本稿では,再カレント(RNN)と深部畳み込みネットワーク(ConvNet)を組み合わせたニューラルアプローチを提案する。
我々のモデルは多様なOCR転写誤りを捕捉し、単語誤り率を32.3%減らして89%以上削減できることを示す。
論文 参考訳(メタデータ) (2021-02-01T01:35:55Z) - OCR Post Correction for Endangered Language Texts [113.8242302688894]
我々は、3つの危惧言語でスキャンされた書籍の書き起こしのベンチマークデータセットを作成する。
本稿では,汎用OCRツールがデータ・スカース・セッティングに対して堅牢でないかを体系的に分析する。
我々は,このデータ・スカース・セッティングにおけるトレーニングを容易にするために,OCRポスト補正法を開発した。
論文 参考訳(メタデータ) (2020-11-10T21:21:08Z) - A Tool for Facilitating OCR Postediting in Historical Documents [6.1335228645093265]
本稿では,テッセラクトの出力をポストするツールについて報告する。
このツールは、"An Essay Towards Regulating the Trade and Employing the Poor of this Kingdom"の章でテストされている。
論文 参考訳(メタデータ) (2020-04-23T21:40:30Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。