論文の概要: A Tool for Facilitating OCR Postediting in Historical Documents
- arxiv url: http://arxiv.org/abs/2004.11471v1
- Date: Thu, 23 Apr 2020 21:40:30 GMT
- ステータス: 処理完了
- システム内更新日: 2022-12-10 09:37:23.808621
- Title: A Tool for Facilitating OCR Postediting in Historical Documents
- Title(参考訳): 歴史的文書におけるOCRポスト編集支援ツール
- Authors: Alberto Poncelas, Mohammad Aboomar, Jan Buts, James Hadley, Andy Way
- Abstract要約: 本稿では,テッセラクトの出力をポストするツールについて報告する。
このツールは、"An Essay Towards Regulating the Trade and Employing the Poor of this Kingdom"の章でテストされている。
- 参考スコア(独自算出の注目度): 6.1335228645093265
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Optical character recognition (OCR) for historical documents is a complex
procedure subject to a unique set of material issues, including inconsistencies
in typefaces and low quality scanning. Consequently, even the most
sophisticated OCR engines produce errors. This paper reports on a tool built
for postediting the output of Tesseract, more specifically for correcting
common errors in digitized historical documents. The proposed tool suggests
alternatives for word forms not found in a specified vocabulary. The assumed
error is replaced by a presumably correct alternative in the post-edition based
on the scores of a Language Model (LM). The tool is tested on a chapter of the
book An Essay Towards Regulating the Trade and Employing the Poor of this
Kingdom (Cary ,1719). As demonstrated below, the tool is successful in
correcting a number of common errors. If sometimes unreliable, it is also
transparent and subject to human intervention.
- Abstract(参考訳): 歴史的文書の光学的文字認識(OCR)は、書体の不整合や低品質スキャンなど、一意の材料的問題を扱う複雑な手順である。
その結果、最も洗練されたOCRエンジンでもエラーが発生する。
本稿では,tesseractの出力をポストするツールについて報告する。
提案手法は,特定の語彙に見つからない単語の代替案を提案する。
仮定された誤りは、言語モデル(LM)のスコアに基づいて、後編集におけるおそらく正しい代替案に置き換えられる。
この道具は『貿易の規制とこの王国の貧困を雇用するエッセイ』(An Essay Towards Regulating the Trade and Employing the Poor of this Kingdom)の章でテストされている(Cary ,1719)。
以下に示すように、このツールは一般的なエラーの修正に成功している。
信頼できない場合、それは透明性があり、人間の介入を受ける。
関連論文リスト
- Reference-Based Post-OCR Processing with LLM for Diacritic Languages [0.0]
コンテンツ中心の電子書籍を参照ベースとして活用し、不完全なOCR生成テキストを訂正する手法を提案する。
この技術は、ダイアクリティカル言語のための高精度な擬似ページ・ツー・ページラベルを生成する。
パイプラインは、古いドキュメントから様々な種類のノイズを排除し、欠落した文字、単語、乱れたシーケンスといった問題に対処する。
論文 参考訳(メタデータ) (2024-10-17T08:05:02Z) - A Coin Has Two Sides: A Novel Detector-Corrector Framework for Chinese Spelling Correction [79.52464132360618]
中国語のSpelling Correction(CSC)は、自然言語処理(NLP)の基本課題である。
本稿では,エラー検出・相関器の枠組みに基づく新しい手法を提案する。
我々の検出器は2つのエラー検出結果を得るように設計されており、それぞれ高精度とリコールが特徴である。
論文 参考訳(メタデータ) (2024-09-06T09:26:45Z) - FactCheck Editor: Multilingual Text Editor with End-to-End fact-checking [1.985242455423935]
「FactCheck Editor」は、事実チェックと正しい事実不正確性を自動化するために設計された高度なテキストエディタである。
90以上の言語をサポートし、トランスフォーマーモデルを使用して、人間の労働集約的な事実検証を支援する。
論文 参考訳(メタデータ) (2024-04-30T11:55:20Z) - GenAudit: Fixing Factual Errors in Language Model Outputs with Evidence [64.95492752484171]
GenAudit - 文書基底タスクの事実チェック LLM 応答を支援するためのツール。
これらのタスクを実行するためにモデルをトレーニングし、ユーザに対して推奨の編集とエビデンスを示すインタラクティブインターフェースを設計します。
システムによってほとんどのエラーがフラグ付けされていることを保証するため,精度への影響を最小限に抑えつつエラーリコールを増大させる手法を提案する。
論文 参考訳(メタデータ) (2024-02-19T21:45:55Z) - FacTool: Factuality Detection in Generative AI -- A Tool Augmented
Framework for Multi-Task and Multi-Domain Scenarios [87.12753459582116]
より広い範囲のタスクは、生成モデルによって処理されると、事実エラーを含むリスクが増大する。
大規模言語モデルにより生成されたテキストの事実誤りを検出するためのタスクおよびドメインに依存しないフレームワークであるFacToolを提案する。
論文 参考訳(メタデータ) (2023-07-25T14:20:51Z) - Transformer-Based UNet with Multi-Headed Cross-Attention Skip
Connections to Eliminate Artifacts in Scanned Documents [0.0]
Swin Transformerのバックボーンを使用したUNet構造の変更を行い、スキャンされたドキュメントの典型的なアーティファクトを削除する。
合成データのエラー率を最大53.9%削減したテキスト抽出品質の改善をアーカイブする。
論文 参考訳(メタデータ) (2023-06-05T12:12:23Z) - User-Centric Evaluation of OCR Systems for Kwak'wala [92.73847703011353]
OCRを利用すると、文化的に価値ある文書の書き起こしに費やした時間を50%以上削減できることを示す。
この結果から,OCRツールが下流言語ドキュメントや再生作業において持つ潜在的なメリットが示された。
論文 参考訳(メタデータ) (2023-02-26T21:41:15Z) - DocScanner: Robust Document Image Rectification with Progressive
Learning [162.03694280524084]
この研究はDocScannerという、文書画像の修正のための新しいディープネットワークアーキテクチャを提示する。
DocScannerは、修正されたイメージの1つの見積を維持し、再帰的なアーキテクチャで徐々に修正される。
反復的な改善によりDocScannerは堅牢で優れたパフォーマンスに収束し、軽量なリカレントアーキテクチャにより実行効率が保証される。
論文 参考訳(メタデータ) (2021-10-28T09:15:02Z) - Cleaning Dirty Books: Post-OCR Processing for Previously Scanned Texts [4.773188087436866]
我々は,光学式文字認識(OCR)誤差の存在下での重複の問題を考察する。
プロジェクト・グーテンベルクのデータセットから19,347個のテキストを収集し,これらの誤りに対処する手法を提案する。
提案手法は,導入した誤差の6倍以上の誤差を補正することを示す。
論文 参考訳(メタデータ) (2021-10-22T17:33:17Z) - Neural OCR Post-Hoc Correction of Historical Corpora [4.427447378048202]
本稿では,再カレント(RNN)と深部畳み込みネットワーク(ConvNet)を組み合わせたニューラルアプローチを提案する。
我々のモデルは多様なOCR転写誤りを捕捉し、単語誤り率を32.3%減らして89%以上削減できることを示す。
論文 参考訳(メタデータ) (2021-02-01T01:35:55Z) - Fast(er) Reconstruction of Shredded Text Documents via Self-Supervised
Deep Asymmetric Metric Learning [62.34197797857823]
細断文書の自動復元における中心的な問題は、細断文書の相互互換性評価である。
本研究は,推定回数を線形にスケールするペアワイド互換性を測るスケーラブルな深層学習手法を提案する。
提案手法は,505個のシュレッダーを持つテストインスタンスに対して,22倍の高速化を実現した最先端技術に匹敵する精度を有する。
論文 参考訳(メタデータ) (2020-03-23T03:22:06Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。