論文の概要: The Character Error Vector: Decomposable errors for page-level OCR evaluation
- arxiv url: http://arxiv.org/abs/2604.06160v1
- Date: Tue, 07 Apr 2026 17:56:06 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-04-08 17:42:09.985781
- Title: The Character Error Vector: Decomposable errors for page-level OCR evaluation
- Title(参考訳): 文字誤りベクトル:ページレベルのOCR評価における分解可能な誤り
- Authors: Jonathan Bourne, Mwiza Simbeye, Joseph Nockels,
- Abstract要約: 本稿では,OCRのキャラクタ評価器であるキャラクタエラーベクトル(CEV)を紹介する。
CEVはパースとOCRとインタラクションエラーコンポーネントに分解できる。
我々は、他のメトリクスに対してCEVのパフォーマンスを検証する。
- 参考スコア(独自算出の注目度): 0.0
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: The Character Error Rate (CER) is a key metric for evaluating the quality of Optical Character Recognition (OCR). However, this metric assumes that text has been perfectly parsed, which is often not the case. Under page-parsing errors, CER becomes undefined, limiting its use as a metric and making evaluating page-level OCR challenging, particularly when using data that do not share a labelling schema. We introduce the Character Error Vector (CEV), a bag-of-characters evaluator for OCR. The CEV can be decomposed into parsing and OCR, and interaction error components. This decomposability allows practitioners to focus on the part of the Document Understanding pipeline that will have the greatest impact on overall text extraction quality. The CEV can be implemented using a variety of methods, of which we demonstrate SpACER (Spatially Aware Character Error Rate) and a Character distribution method using the Jensen-Shannon Distance. We validate the CEV's performance against other metrics: first, the relationship with CER; then, parse quality; and finally, as a direct measure of page-level OCR quality. The validation process shows that the CEV is a valuable bridge between parsing metrics and local metrics like CER. We analyse a dataset of archival newspapers made of degraded images with complex layouts and find that state-of-the-art end-to-end models are outperformed by more traditional pipeline approaches. Whilst the CEV requires character-level positioning for optimal triage, thresholding on easily available values can predict the main error source with an F1 of 0.91. We provide the CEV as part of a Python library to support Document understanding research.
- Abstract(参考訳): 文字誤り率(CER)は、光学文字認識(OCR)の品質を評価するための重要な指標である。
しかし、この計量はテキストが完全に解析されたと仮定しており、しばしばそうではない。
ページパーシングエラーの下では、CERは未定義となり、メトリクスとしての使用を制限し、特にラベルスキーマを共有しないデータを使用する場合、ページレベルのOCRを評価するのが困難になる。
本稿では,OCRのキャラクタ評価器であるキャラクタエラーベクトル(CEV)を紹介する。
CEVはパースとOCRとインタラクションエラーコンポーネントに分解できる。
この分解性により、実践者はドキュメント理解パイプラインの一部に集中することができる。
CEVは,SpACER(Spatially Aware Character Error Rate)とJensen-Shannon Distanceを用いた文字分布法を実証する様々な手法を用いて実装することができる。
まず、CERとの関係、次に品質を解析し、最後に、ページレベルのOCR品質の直接的な測定としてCEVのパフォーマンスを検証する。
検証プロセスは、CEVがメトリクスのパースとCERのようなローカルメトリクスの間の貴重なブリッジであることを示している。
我々は、複雑なレイアウトを持つ劣化したイメージで構成されたアーカイブ新聞のデータセットを分析し、最先端のエンドツーエンドモデルが従来のパイプラインアプローチよりも優れていることを発見した。
CEVは最適なトリアージのために文字レベルの位置決めを必要とするが、容易に利用可能な値の閾値付けはF1の0.91で主エラーソースを予測することができる。
ドキュメント理解研究を支援するために,Pythonライブラリの一部としてCEVを提供しています。
関連論文リスト
- Error Patterns in Historical OCR: A Comparative Analysis of TrOCR and a Vision-Language Model [0.07874708385247352]
18世紀の印刷テキストのOCRは、劣化した印刷品質、古式グリフ、標準化されていない正書法のために、依然として困難である。
我々は,OCRトランス (TrOCR) と汎用視覚言語モデル (Qwen) を比較した。
TrOCRは、より一貫して正書法的忠実性を維持するが、カスケードエラー伝播の傾向が強い。
論文 参考訳(メタデータ) (2026-02-16T07:17:52Z) - Reference-Based Post-OCR Processing with LLM for Precise Diacritic Text in Historical Document Recognition [1.6941039309214678]
コンテンツ中心の電子書籍を参照ベースとして活用し、不完全なOCR生成テキストを訂正する手法を提案する。
この技術は、ダイアクリティカル言語のための高精度な擬似ページ・ツー・ページラベルを生成する。
パイプラインは、古いドキュメントから様々な種類のノイズを排除し、欠落した文字、単語、乱れたシーケンスといった問題に対処する。
論文 参考訳(メタデータ) (2024-10-17T08:05:02Z) - C-LLM: Learn to Check Chinese Spelling Errors Character by Character [61.53865964535705]
本稿では,C-LLMを提案する。C-LLMは,文字による誤り文字のチェックを学習する中国語のスペルチェック手法である。
C-LLMは既存の方法よりも平均10%改善する。
論文 参考訳(メタデータ) (2024-06-24T11:16:31Z) - End-to-End Page-Level Assessment of Handwritten Text Recognition [69.55992406968495]
HTRシステムは、文書のエンドツーエンドのページレベルの書き起こしに直面している。
標準メトリクスは、現れる可能性のある不整合を考慮していない。
本稿では、転写精度とROの良さを別々に検討する2つの評価法を提案する。
論文 参考訳(メタデータ) (2023-01-14T15:43:07Z) - Lights, Camera, Action! A Framework to Improve NLP Accuracy over OCR
documents [2.6201102730518606]
我々は、下流のNLPタスクに対してOCRエラーを軽減するための効果的なフレームワークを実証する。
まず,文書合成パイプラインを構築することにより,モデル学習におけるデータ不足問題に対処する。
コミュニティの利益のために、私たちはドキュメント合成パイプラインをオープンソースプロジェクトとして利用可能にしました。
論文 参考訳(メタデータ) (2021-08-06T00:32:54Z) - Cross-domain Speech Recognition with Unsupervised Character-level
Distribution Matching [60.8427677151492]
2つの領域における各文字間の微粒化適応を行うための文字レベルの分布マッチング手法であるCMatchを提案する。
Libri-Adaptデータセットを用いた実験の結果,提案手法はクロスデバイスとクロス環境の両方で14.39%,16.50%の単語誤り率(WER)を低減できることがわかった。
論文 参考訳(メタデータ) (2021-04-15T14:36:54Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。