論文の概要: Extending TrOCR for Text Localization-Free OCR of Full-Page Scanned
Receipt Images
- arxiv url: http://arxiv.org/abs/2212.05525v2
- Date: Tue, 13 Dec 2022 03:19:37 GMT
- ステータス: 処理完了
- システム内更新日: 2022-12-14 13:36:20.539455
- Title: Extending TrOCR for Text Localization-Free OCR of Full-Page Scanned
Receipt Images
- Title(参考訳): テキストローカライゼーションのための拡張TrOCR -フルページスキャン画像のOCR-
- Authors: Hongkuan Zhang, Edward Whittaker, Ikuo Kitagishi
- Abstract要約: 本稿では,レセプション画像中のすべての文字を順序付きシーケンス・ツー・エンドに変換するために,ローカライズフリーな文書レベルOCRモデルを提案する。
具体的には、予め訓練されたTransformerベースのインスタンスレベルモデルTrOCRを、ランダムにトリミングされた画像チャンクで微調整する。
実験では64.4F1スコアと22.8%の文字誤り率を達成した。
- 参考スコア(独自算出の注目度): 0.0
- License: http://creativecommons.org/licenses/by-sa/4.0/
- Abstract: Digitization of scanned receipts aims to extract text from receipt images and
save it into structured documents. This is usually split into two sub-tasks:
text localization and optical character recognition (OCR). Most existing OCR
models only focus on the cropped text instance images, which require the
bounding box information provided by a text region detection model. Introducing
an additional detector to identify the text instance images in advance is
inefficient, however instance-level OCR models have very low accuracy when
processing the whole image for the document-level OCR, such as receipt images
containing multiple text lines arranged in various layouts. To this end, we
propose a localization-free document-level OCR model for transcribing all the
characters in a receipt image into an ordered sequence end-to-end.
Specifically, we finetune the pretrained Transformer-based instance-level model
TrOCR with randomly cropped image chunks, and gradually increase the image
chunk size to generalize the recognition ability from instance images to
full-page images. In our experiments on the SROIE receipt OCR dataset, the
model finetuned with our strategy achieved 64.4 F1-score and a 22.8% character
error rates (CER) on the word-level and character-level metrics, respectively,
which outperforms the baseline results with 48.5 F1-score and 50.6% CER. The
best model, which splits the full image into 15 equally sized chunks, gives
87.8 F1-score and 4.98% CER with minimal additional pre or post-processing of
the output. Moreover, the characters in the generated document-level sequences
are arranged in the reading order, which is practical for real-world
applications.
- Abstract(参考訳): スキャンされたレシートのデジタル化は、レシート画像からテキストを取り出し、構造化されたドキュメントに保存することを目的としている。
これは通常、テキストローカライゼーションと光学文字認識(OCR)という2つのサブタスクに分けられる。
既存のocrモデルは、テキスト領域検出モデルが提供するバウンディングボックス情報を必要とするクロッピングされたテキストインスタンスイメージのみに焦点を当てている。
テキストインスタンスイメージを事前に識別するための追加検出器の導入は非効率であるが、インスタンスレベルのOCRモデルでは、さまざまなレイアウトに配置された複数のテキスト行を含むレシート画像など、ドキュメントレベルのOCRの全体像を処理する場合の精度が極めて低い。
そこで本研究では,レシート画像中のすべての文字を順序付きシーケンス・ツー・エンドに変換するローカライズフリーな文書レベルOCRモデルを提案する。
具体的には,事前学習されたトランスフォーマーベースのインスタンスレベルモデルtrocrをランダムに切り抜いた画像チャンクで微調整し,画像チャンクサイズを徐々に増やし,インスタンス画像からフルページ画像への認識能力を一般化する。
SROIE受信OCRデータセットを用いた実験では,単語レベルと文字レベルで64.4F1スコアと22.8%の文字誤り率(CER)を達成し,48.5F1スコアと50.6%CERのベースライン結果を上回った。
最良のモデルは、全画像を15の等サイズのチャンクに分割し、87.8 f1-scoreと4.98% cerを与え、出力の予備処理または後処理を最小化する。
また、生成した文書レベルシーケンス内の文字を読み出し順に配置し、実世界のアプリケーションで実用的である。
関連論文リスト
- Mero Nagarikta: Advanced Nepali Citizenship Data Extractor with Deep Learning-Powered Text Detection and OCR [0.0]
そこで本研究では,テキストオブジェクトの正確な検出にYOLOv8を用いるロバストシステムと,最適化されたPyTesseractに基づくOCRアルゴリズムを提案する。
モバイルアプリケーションのコンテキスト内で実装されたこのシステムは、重要なテキスト情報の自動抽出を可能にする。
ネパール文字に最適化されたPyTesseractは、柔軟性と精度に関して標準のOCRよりも優れていた。
論文 参考訳(メタデータ) (2024-10-08T06:29:08Z) - Decoder Pre-Training with only Text for Scene Text Recognition [54.93037783663204]
シーンテキスト認識(STR)事前学習法は,主に合成データセットに依存し,顕著な進歩を遂げている。
STR(DPTR)用テキストのみを用いたDecoder Pre-trainingという新しい手法を提案する。
DPTRはCLIPテキストエンコーダが生成したテキスト埋め込みを擬似視覚埋め込みとして扱い、デコーダの事前訓練に使用する。
論文 参考訳(メタデータ) (2024-08-11T06:36:42Z) - Unifying Multimodal Retrieval via Document Screenshot Embedding [92.03571344075607]
Document Screenshot Embedding (DSE)は、文書のスクリーンショットを統一的な入力フォーマットとして扱う新しい検索パラダイムである。
まず、Wiki-SSというウィキペディアのウェブページのスクリーンショットをコーパスとして作成し、Natural Questionsデータセットからの質問に答える。
このようなテキスト集約的な文書検索設定では、DSEは構文解析に依存する他のテキスト検索方法と比較して、競合効果を示す。
論文 参考訳(メタデータ) (2024-06-17T06:27:35Z) - DLoRA-TrOCR: Mixed Text Mode Optical Character Recognition Based On Transformer [12.966765239586994]
マルチフォント、混合シーン、複雑なレイアウトは、従来のOCRモデルの認識精度に深刻な影響を及ぼす。
本稿では,事前学習したOCR変換器,すなわちDLoRA-TrOCRに基づくパラメータ効率の良い混合テキスト認識手法を提案する。
論文 参考訳(メタデータ) (2024-04-19T09:28:16Z) - LOCR: Location-Guided Transformer for Optical Character Recognition [55.195165959662795]
自動回帰中にトランスフォーマーアーキテクチャに位置案内を組み込むモデルであるLOCRを提案する。
125Kの学術文書ページから777万以上のテキスト配置ペアからなるデータセット上でモデルをトレーニングする。
これは、編集距離、BLEU、METEOR、F測定によって測定されたarXivから構築されたテストセットの既存のメソッドよりも優れています。
論文 参考訳(メタデータ) (2024-03-04T15:34:12Z) - Optimization of Image Processing Algorithms for Character Recognition in
Cultural Typewritten Documents [0.8158530638728501]
光文字認識(OCR)における画像処理手法とパラメータチューニングの影響について検討する。
この手法は多目的問題定式化を用いて、Levenshtein編集距離を最小化し、非支配的ソート遺伝的アルゴリズム(NSGA-II)で正しく同定された単語数を最大化する。
以上の結果から,OCRにおける画像前処理アルゴリズムの活用は,前処理なしのテキスト認識タスクが良い結果を出さないタイプに適している可能性が示唆された。
論文 参考訳(メタデータ) (2023-11-27T11:44:46Z) - EfficientOCR: An Extensible, Open-Source Package for Efficiently
Digitizing World Knowledge [1.8434042562191815]
EffOCRは、オープンソースの光文字認識(OCR)パッケージである。
これは、大規模にテキストを解放するための計算とサンプルの効率の要求を満たす。
EffOCRは安価で、トレーニングにはサンプルの効率がよい。
論文 参考訳(メタデータ) (2023-10-16T04:20:16Z) - TextFormer: A Query-based End-to-End Text Spotter with Mixed Supervision [61.186488081379]
Transformerアーキテクチャを用いた問合せベースのエンドツーエンドテキストスポッターであるTextFormerを提案する。
TextFormerは、画像エンコーダとテキストデコーダの上に構築され、マルチタスクモデリングのための共同セマンティック理解を学ぶ。
分類、セグメンテーション、認識のブランチの相互訓練と最適化を可能にし、より深い特徴共有をもたらす。
論文 参考訳(メタデータ) (2023-06-06T03:37:41Z) - Scaling Autoregressive Models for Content-Rich Text-to-Image Generation [95.02406834386814]
Partiは、テキスト・ツー・イメージ生成をシーケンス・ツー・シーケンス・モデリング問題として扱う。
PartiはTransformerベースの画像トークンライザViT-VQGANを使用して、画像を離散トークンのシーケンスとしてエンコードする。
PartiPrompts (P2)は1600以上の英語のプロンプトの総合的なベンチマークである。
論文 参考訳(メタデータ) (2022-06-22T01:11:29Z) - TrOCR: Transformer-based Optical Character Recognition with Pre-trained
Models [47.48019831416665]
本稿では,事前学習した画像変換器とテキスト変換器モデル,すなわちTrOCRを用いたエンドツーエンドのテキスト認識手法を提案する。
TrOCRは単純だが効果的であり、大規模な合成データで事前訓練し、人間のラベル付きデータセットで微調整することができる。
実験により、TrOCRモデルは、印刷されたテキスト認識タスクと手書きのテキスト認識タスクの両方において、現在の最先端モデルよりも優れていることが示された。
論文 参考訳(メタデータ) (2021-09-21T16:01:56Z) - TextOCR: Towards large-scale end-to-end reasoning for arbitrary-shaped
scene text [23.04601165885908]
実画像に900kの注釈付き単語を付加した任意の形状のシーンテキストの検出と認識を行うTextOCRを提案する。
現状のテキスト認識(OCR)モデルはTextOCRではうまく動作しないことを示す。
我々はTextOCRトレーニングされたOCRモデルを使用してPixelM4Cモデルを作成し、エンドツーエンドで画像に基づいてシーンテキストベースの推論を行う。
論文 参考訳(メタデータ) (2021-05-12T07:50:42Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。