論文の概要: Why Stop at Words? Unveiling the Bigger Picture through Line-Level OCR
- arxiv url: http://arxiv.org/abs/2508.21693v1
- Date: Fri, 29 Aug 2025 15:02:11 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-09-01 19:45:11.08848
- Title: Why Stop at Words? Unveiling the Bigger Picture through Line-Level OCR
- Title(参考訳): なぜ言葉が止まるのか? ラインレベルOCRで大きめの画像を公開
- Authors: Shashank Vempati, Nishit Anand, Gaurav Talebailkar, Arpan Garai, Chetan Arora,
- Abstract要約: 単語レベルOCRから行レベルOCRへの自然な進化を提案する。
提案手法はOCRの精度だけでなく効率も向上することを示す。
実験の結果, エンドツーエンドの精度は5.4%向上した。
- 参考スコア(独自算出の注目度): 4.917745659609699
- License: http://creativecommons.org/licenses/by-nc-sa/4.0/
- Abstract: Conventional optical character recognition (OCR) techniques segmented each character and then recognized. This made them prone to error in character segmentation, and devoid of context to exploit language models. Advances in sequence to sequence translation in last decade led to modern techniques first detecting words and then inputting one word at a time to a model to directly output full words as sequence of characters. This allowed better utilization of language models and bypass error-prone character segmentation step. We observe that the above transition in style has moved the bottleneck in accuracy to word segmentation. Hence, in this paper, we propose a natural and logical progression from word level OCR to line-level OCR. The proposal allows to bypass errors in word detection, and provides larger sentence context for better utilization of language models. We show that the proposed technique not only improves the accuracy but also efficiency of OCR. Despite our thorough literature survey, we did not find any public dataset to train and benchmark such shift from word to line-level OCR. Hence, we also contribute a meticulously curated dataset of 251 English page images with line-level annotations. Our experimentation revealed a notable end-to-end accuracy improvement of 5.4%, underscoring the potential benefits of transitioning towards line-level OCR, especially for document images. We also report a 4 times improvement in efficiency compared to word-based pipelines. With continuous improvements in large language models, our methodology also holds potential to exploit such advances. Project Website: https://nishitanand.github.io/line-level-ocr-website
- Abstract(参考訳): 従来の光学文字認識(OCR)技術は各文字を分割し、認識する。
これにより、文字のセグメンテーションがエラーを起こしやすくなり、言語モデルを利用するコンテキストが無くなった。
過去10年間のシーケンス翻訳の進歩は、まず単語を検知し、1つの単語を1つのモデルに入力し、完全な単語を文字のシーケンスとして直接出力する近代的な技術に繋がった。
これにより、言語モデルの利用が向上し、エラーを起こしやすい文字のセグメンテーションステップが回避された。
上述のスタイルの遷移は、単語分割の精度のボトルネックを、単語分割に移行したことを観察する。
そこで本稿では,単語レベルOCRから行レベルOCRへの自然な論理的進化を提案する。
この提案は、単語検出における誤りを回避し、言語モデルのより良い利用のためにより大きな文コンテキストを提供する。
提案手法はOCRの精度だけでなく効率も向上することを示す。
詳細な文献調査にも拘わらず、単語から行レベルのOCRへのシフトをトレーニングし、ベンチマークするパブリックデータセットは見つからなかった。
そこで本研究では,行レベルのアノテーションを用いた251の英語ページイメージの厳密にキュレートされたデータセットを寄贈する。
実験の結果、特に文書画像において、ラインレベルのOCRへの移行による潜在的なメリットを強調し、エンド・ツー・エンドの精度が5.4%向上したことが明らかとなった。
また,単語ベースのパイプラインに比べて効率が4倍向上したことも報告した。
大規模言語モデルの継続的な改善により、我々の方法論はそのような進歩を活用できる可能性も秘めている。
Project Website: https://nishitanand.github.io/line-level-ocr-website
関連論文リスト
- Detecting Document-level Paraphrased Machine Generated Content: Mimicking Human Writing Style and Involving Discourse Features [57.34477506004105]
機械生成コンテンツは、学術プラジャリズムや誤報の拡散といった課題を提起する。
これらの課題を克服するために、新しい方法論とデータセットを導入します。
人間の筆記スタイルをエミュレートするエンコーダデコーダモデルであるMhBARTを提案する。
また,PDTB前処理による談話解析を統合し,構造的特徴を符号化するモデルであるDTransformerを提案する。
論文 参考訳(メタデータ) (2024-12-17T08:47:41Z) - Reference-Based Post-OCR Processing with LLM for Precise Diacritic Text in Historical Document Recognition [1.6941039309214678]
コンテンツ中心の電子書籍を参照ベースとして活用し、不完全なOCR生成テキストを訂正する手法を提案する。
この技術は、ダイアクリティカル言語のための高精度な擬似ページ・ツー・ページラベルを生成する。
パイプラインは、古いドキュメントから様々な種類のノイズを排除し、欠落した文字、単語、乱れたシーケンスといった問題に対処する。
論文 参考訳(メタデータ) (2024-10-17T08:05:02Z) - Cross-lingual Contextualized Phrase Retrieval [63.80154430930898]
そこで本研究では,言語間関係の単語検索を多義的に行うタスクの定式化を提案する。
我々は、コントラスト学習を用いて、言語間コンテクスト対応句検索(CCPR)を訓練する。
フレーズ検索タスクでは、CCPRはベースラインをかなり上回り、少なくとも13ポイント高いトップ1の精度を達成する。
論文 参考訳(メタデータ) (2024-03-25T14:46:51Z) - Data Generation for Post-OCR correction of Cyrillic handwriting [41.94295877935867]
本稿では,B'ezier曲線に基づく合成手書き生成エンジンの開発と応用に焦点を当てる。
このようなエンジンは、任意の量で非常にリアルな手書きテキストを生成し、それを利用して実質的なデータセットを作成する。
本データセットに手書きテキスト認識(HTR)モデルを適用し,OCRエラーを識別し,POCモデルトレーニングの基礎となる。
論文 参考訳(メタデータ) (2023-11-27T15:01:26Z) - Lexically Aware Semi-Supervised Learning for OCR Post-Correction [90.54336622024299]
世界中の多くの言語における既存の言語データの多くは、非デジタル化された書籍や文書に閉じ込められている。
従来の研究は、あまり良くない言語を認識するためのニューラル・ポスト・コレクション法の有用性を実証してきた。
そこで本研究では,生画像を利用した半教師付き学習手法を提案する。
論文 参考訳(メタデータ) (2021-11-04T04:39:02Z) - TrOCR: Transformer-based Optical Character Recognition with Pre-trained
Models [47.48019831416665]
本稿では,事前学習した画像変換器とテキスト変換器モデル,すなわちTrOCRを用いたエンドツーエンドのテキスト認識手法を提案する。
TrOCRは単純だが効果的であり、大規模な合成データで事前訓練し、人間のラベル付きデータセットで微調整することができる。
実験により、TrOCRモデルは、印刷されたテキスト認識タスクと手書きのテキスト認識タスクの両方において、現在の最先端モデルよりも優れていることが示された。
論文 参考訳(メタデータ) (2021-09-21T16:01:56Z) - Boosting Continuous Sign Language Recognition via Cross Modality
Augmentation [135.30357113518127]
連続手話認識は不整合のビデオテキストペアを扱う。
クロスモーダル拡張を用いた新しいアーキテクチャを提案する。
提案するフレームワークは、既存のCTCベースの連続SLRアーキテクチャに容易に拡張できる。
論文 参考訳(メタデータ) (2020-10-11T15:07:50Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。