論文の概要: Confidence-Aware Document OCR Error Detection
- arxiv url: http://arxiv.org/abs/2409.04117v1
- Date: Fri, 6 Sep 2024 08:35:28 GMT
- ステータス: 処理完了
- システム内更新日: 2024-09-09 16:25:56.258190
- Title: Confidence-Aware Document OCR Error Detection
- Title(参考訳): 信頼性に配慮した文書OCRエラー検出
- Authors: Arthur Hemmer, Mickaël Coustaty, Nicola Bartolo, Jean-Marc Ogier,
- Abstract要約: 我々は,OCRシステム間の信頼度スコアと誤差率の相関関係を解析した。
我々は、OCR信頼スコアをトークン埋め込みに組み込むBERTベースのモデルConfBERTを開発した。
- 参考スコア(独自算出の注目度): 1.003485566379789
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Optical Character Recognition (OCR) continues to face accuracy challenges that impact subsequent applications. To address these errors, we explore the utility of OCR confidence scores for enhancing post-OCR error detection. Our study involves analyzing the correlation between confidence scores and error rates across different OCR systems. We develop ConfBERT, a BERT-based model that incorporates OCR confidence scores into token embeddings and offers an optional pre-training phase for noise adjustment. Our experimental results demonstrate that integrating OCR confidence scores can enhance error detection capabilities. This work underscores the importance of OCR confidence scores in improving detection accuracy and reveals substantial disparities in performance between commercial and open-source OCR technologies.
- Abstract(参考訳): 光文字認識(OCR)は、その後のアプリケーションに影響を及ぼす精度の課題に直面し続けている。
これらの誤りに対処するために,OCR後誤り検出の精度向上のためのOCR信頼度スコアの有用性を検討する。
本研究は,OCRシステム間の信頼度と誤差率の相関関係について検討した。
我々は、OCR信頼スコアをトークン埋め込みに組み込んだBERTベースのモデルConfBERTを開発し、ノイズ調整のための任意の事前学習フェーズを提供する。
実験の結果,OCRの信頼性スコアの統合により誤り検出能力が向上することが示された。
本研究は,検出精度の向上におけるOCR信頼性スコアの重要性を強調し,商用OCR技術とオープンソースOCR技術のパフォーマンスの相違を明らかにした。
関連論文リスト
- A Coin Has Two Sides: A Novel Detector-Corrector Framework for Chinese Spelling Correction [79.52464132360618]
中国語のSpelling Correction(CSC)は、自然言語処理(NLP)の基本課題である。
本稿では,エラー検出・相関器の枠組みに基づく新しい手法を提案する。
我々の検出器は2つのエラー検出結果を得るように設計されており、それぞれ高精度とリコールが特徴である。
論文 参考訳(メタデータ) (2024-09-06T09:26:45Z) - CLOCR-C: Context Leveraging OCR Correction with Pre-trained Language Models [0.0]
本稿では、コンテキストレバレッジOCR補正(CLOCR-C)を紹介する。
トランスフォーマーベースの言語モデル(LM)の組み込みとコンテキスト適応能力を使用して、OCRの品質を向上する。
本研究の目的は, LMがOCR後の修正を行うことができるか, 下流のNLPタスクを改善するか, 補正プロセスの一部として社会文化的コンテキストを提供することの価値を判断することである。
論文 参考訳(メタデータ) (2024-08-30T17:26:05Z) - Error Correction by Paying Attention to Both Acoustic and Confidence References for Automatic Speech Recognition [52.624909026294105]
本稿では,非自己回帰型音声誤り訂正法を提案する。
信頼モジュールは、N-best ASR仮説の各単語の不確実性を測定する。
提案方式は,ASRモデルと比較して誤差率を21%削減する。
論文 参考訳(メタデータ) (2024-06-29T17:56:28Z) - Synchronous Faithfulness Monitoring for Trustworthy Retrieval-Augmented Generation [96.78845113346809]
Retrieval-augmented Language Model (RALMs) は、知識集約型タスクにおいて、高い性能と幅広い適用性を示している。
本稿では,非偽文の検出に微細な復号力学を利用する軽量モニタであるSynCheckを提案する。
また、長文検索拡張生成のためのビームサーチによって導かれる忠実度指向の復号アルゴリズムであるFODを導入する。
論文 参考訳(メタデータ) (2024-06-19T16:42:57Z) - Cross-modal Active Complementary Learning with Self-refining
Correspondence [54.61307946222386]
既存手法のロバスト性を改善するために,クロスモーダルなロバスト補完学習フレームワーク(CRCL)を提案する。
ACLは、誤った監視を行うリスクを減らすために、アクティブで補完的な学習損失を利用する。
SCCは、モーメント補正を備えた複数の自己精製プロセスを使用して、対応を補正するために受容場を拡大する。
論文 参考訳(メタデータ) (2023-10-26T15:15:11Z) - Binary Classification with Confidence Difference [100.08818204756093]
本稿では,信頼性差分法 (ConfDiff) という,弱教師付き二項分類問題について考察する。
本稿では,この問題に対処するためのリスク一貫性のあるアプローチを提案し,推定誤差が最適収束率と一致することを示す。
また,整合性や収束率も証明されたオーバーフィッティング問題を緩和するためのリスク補正手法も導入する。
論文 参考訳(メタデータ) (2023-10-09T11:44:50Z) - Enhancing OCR Performance through Post-OCR Models: Adopting Glyph
Embedding for Improved Correction [0.0]
この手法の斬新さは、CharBERTと独自の埋め込み技術を用いてOCR出力を埋め込み、文字の視覚的特徴を捉えることである。
以上の結果から,OCR後補正はOCRモデルの欠陥に効果的に対処し,グリフ埋め込みにより優れた結果が得られることが示唆された。
論文 参考訳(メタデータ) (2023-08-29T12:41:50Z) - User-Centric Evaluation of OCR Systems for Kwak'wala [92.73847703011353]
OCRを利用すると、文化的に価値ある文書の書き起こしに費やした時間を50%以上削減できることを示す。
この結果から,OCRツールが下流言語ドキュメントや再生作業において持つ潜在的なメリットが示された。
論文 参考訳(メタデータ) (2023-02-26T21:41:15Z) - iOCR: Informed Optical Character Recognition for Election Ballot Tallies [13.343515845758398]
iOCR は従来の OCR による投票集計の誤りを修正するスペル補正アルゴリズムを用いて開発された。
その結果,iOCR法は従来のOCR法よりも優れていた。
論文 参考訳(メタデータ) (2022-08-01T13:50:13Z) - Lights, Camera, Action! A Framework to Improve NLP Accuracy over OCR
documents [2.6201102730518606]
我々は、下流のNLPタスクに対してOCRエラーを軽減するための効果的なフレームワークを実証する。
まず,文書合成パイプラインを構築することにより,モデル学習におけるデータ不足問題に対処する。
コミュニティの利益のために、私たちはドキュメント合成パイプラインをオープンソースプロジェクトとして利用可能にしました。
論文 参考訳(メタデータ) (2021-08-06T00:32:54Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。