論文の概要: Error Patterns in Historical OCR: A Comparative Analysis of TrOCR and a Vision-Language Model
- arxiv url: http://arxiv.org/abs/2602.14524v1
- Date: Mon, 16 Feb 2026 07:17:52 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-02-17 16:22:50.248054
- Title: Error Patterns in Historical OCR: A Comparative Analysis of TrOCR and a Vision-Language Model
- Title(参考訳): 歴史的OCRにおけるエラーパターン:TrOCRと視覚言語モデルの比較分析
- Authors: Ari Vesalainen, Eetu Mäkelä, Laura Ruotsalainen, Mikko Tolonen,
- Abstract要約: 18世紀の印刷テキストのOCRは、劣化した印刷品質、古式グリフ、標準化されていない正書法のために、依然として困難である。
我々は,OCRトランス (TrOCR) と汎用視覚言語モデル (Qwen) を比較した。
TrOCRは、より一貫して正書法的忠実性を維持するが、カスケードエラー伝播の傾向が強い。
- 参考スコア(独自算出の注目度): 0.07874708385247352
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Optical Character Recognition (OCR) of eighteenth-century printed texts remains challenging due to degraded print quality, archaic glyphs, and non-standardized orthography. Although transformer-based OCR systems and Vision-Language Models (VLMs) achieve strong aggregate accuracy, metrics such as Character Error Rate (CER) and Word Error Rate (WER) provide limited insight into their reliability for scholarly use. We compare a dedicated OCR transformer (TrOCR) and a general-purpose Vision-Language Model (Qwen) on line-level historical English texts using length-weighted accuracy metrics and hypothesis driven error analysis. While Qwen achieves lower CER/WER and greater robustness to degraded input, it exhibits selective linguistic regularization and orthographic normalization that may silently alter historically meaningful forms. TrOCR preserves orthographic fidelity more consistently but is more prone to cascading error propagation. Our findings show that architectural inductive biases shape OCR error structure in systematic ways. Models with similar aggregate accuracy can differ substantially in error locality, detectability, and downstream scholarly risk, underscoring the need for architecture-aware evaluation in historical digitization workflows.
- Abstract(参考訳): 18世紀の印刷テキストの光学文字認識(OCR)は、劣化した印刷品質、古式グリフ、非標準正書法のために依然として困難である。
トランスフォーマーベースのOCRシステムとVLM(Vision-Language Models)は、強力な集約精度を実現するが、文字誤り率(CER)やワード誤り率(WER)といった指標は、学術的に使用する上での信頼性について限定的な洞察を提供する。
我々は、長さ重み付き精度メトリクスと仮説駆動誤差分析を用いて、ラインレベルの歴史的英語テキストに対して、専用のOCR変換器(TrOCR)と汎用視覚言語モデル(Qwen)を比較した。
Qwenは低CER/WERを実現し、劣化した入力に対する堅牢性を高める一方で、選択的言語正規化と正書法正規化を示し、歴史的に意味のある形式を静かに変更する可能性がある。
TrOCRは、より一貫して正書法的忠実性を維持するが、カスケードエラー伝播の傾向が強い。
本研究は, 構造的帰納バイアスがOCRエラー構造を系統的に形成することを示す。
類似の集約精度を持つモデルは、エラーの局所性、検出可能性、下流の学術的リスクに大きく違いがあり、歴史的デジタル化ワークフローにおいてアーキテクチャを意識した評価の必要性が強調される。
関連論文リスト
- Reference-Based Post-OCR Processing with LLM for Precise Diacritic Text in Historical Document Recognition [1.6941039309214678]
コンテンツ中心の電子書籍を参照ベースとして活用し、不完全なOCR生成テキストを訂正する手法を提案する。
この技術は、ダイアクリティカル言語のための高精度な擬似ページ・ツー・ページラベルを生成する。
パイプラインは、古いドキュメントから様々な種類のノイズを排除し、欠落した文字、単語、乱れたシーケンスといった問題に対処する。
論文 参考訳(メタデータ) (2024-10-17T08:05:02Z) - Analysing Zero-Shot Readability-Controlled Sentence Simplification [54.09069745799918]
本研究では,異なる種類の文脈情報が,所望の可読性を持つ文を生成するモデルの能力に与える影響について検討する。
結果から,全ての試験されたモデルは,原文の制限や特徴のため,文の簡略化に苦慮していることがわかった。
実験では、RCTSに合わせたより良い自動評価指標の必要性も強調した。
論文 参考訳(メタデータ) (2024-09-30T12:36:25Z) - CLOCR-C: Context Leveraging OCR Correction with Pre-trained Language Models [0.0]
本稿では、コンテキストレバレッジOCR補正(CLOCR-C)を紹介する。
トランスフォーマーベースの言語モデル(LM)の組み込みとコンテキスト適応能力を使用して、OCRの品質を向上する。
本研究の目的は, LMがOCR後の修正を行うことができるか, 下流のNLPタスクを改善するか, 補正プロセスの一部として社会文化的文脈を提供する価値を判断することである。
論文 参考訳(メタデータ) (2024-08-30T17:26:05Z) - User-Centric Evaluation of OCR Systems for Kwak'wala [92.73847703011353]
OCRを利用すると、文化的に価値ある文書の書き起こしに費やした時間を50%以上削減できることを示す。
この結果から,OCRツールが下流言語ドキュメントや再生作業において持つ潜在的なメリットが示された。
論文 参考訳(メタデータ) (2023-02-26T21:41:15Z) - End-to-End Page-Level Assessment of Handwritten Text Recognition [69.55992406968495]
HTRシステムは、文書のエンドツーエンドのページレベルの書き起こしに直面している。
標準メトリクスは、現れる可能性のある不整合を考慮していない。
本稿では、転写精度とROの良さを別々に検討する2つの評価法を提案する。
論文 参考訳(メタデータ) (2023-01-14T15:43:07Z) - Lexically Aware Semi-Supervised Learning for OCR Post-Correction [90.54336622024299]
世界中の多くの言語における既存の言語データの多くは、非デジタル化された書籍や文書に閉じ込められている。
従来の研究は、あまり良くない言語を認識するためのニューラル・ポスト・コレクション法の有用性を実証してきた。
そこで本研究では,生画像を利用した半教師付き学習手法を提案する。
論文 参考訳(メタデータ) (2021-11-04T04:39:02Z) - Neural OCR Post-Hoc Correction of Historical Corpora [4.427447378048202]
本稿では,再カレント(RNN)と深部畳み込みネットワーク(ConvNet)を組み合わせたニューラルアプローチを提案する。
我々のモデルは多様なOCR転写誤りを捕捉し、単語誤り率を32.3%減らして89%以上削減できることを示す。
論文 参考訳(メタデータ) (2021-02-01T01:35:55Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。