論文の概要: 3D Rendering Framework for Data Augmentation in Optical Character
Recognition
- arxiv url: http://arxiv.org/abs/2209.14970v1
- Date: Tue, 27 Sep 2022 19:31:23 GMT
- ステータス: 処理完了
- システム内更新日: 2022-09-30 18:04:07.484145
- Title: 3D Rendering Framework for Data Augmentation in Optical Character
Recognition
- Title(参考訳): 光文字認識におけるデータ拡張のための3次元レンダリングフレームワーク
- Authors: Andreas Spruck, Maximiliane Hawesch, Anatol Maier, Christian Riess,
J\"urgen Seiler, Andr\'e Kaup
- Abstract要約: 光文字認識(OCR)のためのデータ拡張フレームワークを提案する。
提案するフレームワークは,新しい視角と照明シナリオを合成することができる。
一般的な Brno Mobile OCR データセットの 15% サブセットを増設することで,フレームワークの性能を実証する。
- 参考スコア(独自算出の注目度): 8.641647607173864
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: In this paper, we propose a data augmentation framework for Optical Character
Recognition (OCR). The proposed framework is able to synthesize new viewing
angles and illumination scenarios, effectively enriching any available OCR
dataset. Its modular structure allows to be modified to match individual user
requirements. The framework enables to comfortably scale the enlargement factor
of the available dataset. Furthermore, the proposed method is not restricted to
single frame OCR but can also be applied to video OCR. We demonstrate the
performance of our framework by augmenting a 15% subset of the common Brno
Mobile OCR dataset. Our proposed framework is capable of leveraging the
performance of OCR applications especially for small datasets. Applying the
proposed method, improvements of up to 2.79 percentage points in terms of
Character Error Rate (CER), and up to 7.88 percentage points in terms of Word
Error Rate (WER) are achieved on the subset. Especially the recognition of
challenging text lines can be improved. The CER may be decreased by up to 14.92
percentage points and the WER by up to 18.19 percentage points for this class.
Moreover, we are able to achieve smaller error rates when training on the 15%
subset augmented with the proposed method than on the original non-augmented
full dataset.
- Abstract(参考訳): 本稿では,光学文字認識(OCR)のためのデータ拡張フレームワークを提案する。
提案されたフレームワークは、利用可能なocrデータセットを効果的に強化し、新しい視野角と照明シナリオを合成することができる。
そのモジュール構造は、個々のユーザ要求に合うように修正できる。
このフレームワークは利用可能なデータセットの拡大係数を快適にスケールすることができる。
さらに,提案手法は単一フレームOCRに限らず,ビデオOCRにも適用可能である。
一般的な Brno Mobile OCR データセットの 15% サブセットを増設することで,フレームワークの性能を実証する。
提案するフレームワークはOCRアプリケーションの性能を特に小さなデータセットに活用することができる。
提案手法の適用により,文字誤り率(CER)の最大2.79ポイント,単語誤り率(WER)の最大7.88ポイントの改善を実現した。
特に、難解なテキスト行の認識を改善することができる。
cer は 14.92 パーセンテージポイント、wer は 18.19 パーセンテージポイントまで減少することができる。
さらに,提案手法で拡張した15%サブセットのトレーニングにおいて,元の非拡張フルデータセットよりも少ない誤差率を実現することができる。
関連論文リスト
- LOCR: Location-Guided Transformer for Optical Character Recognition [55.195165959662795]
自動回帰中にトランスフォーマーアーキテクチャに位置案内を組み込むモデルであるLOCRを提案する。
125Kの学術文書ページから777万以上のテキスト配置ペアからなるデータセット上でモデルをトレーニングする。
これは、編集距離、BLEU、METEOR、F測定によって測定されたarXivから構築されたテストセットの既存のメソッドよりも優れています。
論文 参考訳(メタデータ) (2024-03-04T15:34:12Z) - Enhancing OCR Performance through Post-OCR Models: Adopting Glyph
Embedding for Improved Correction [0.0]
この手法の斬新さは、CharBERTと独自の埋め込み技術を用いてOCR出力を埋め込み、文字の視覚的特徴を捉えることである。
以上の結果から,OCR後補正はOCRモデルの欠陥に効果的に対処し,グリフ埋め込みにより優れた結果が得られることが示唆された。
論文 参考訳(メタデータ) (2023-08-29T12:41:50Z) - Augmenting CLIP with Improved Visio-Linguistic Reasoning [51.135606355630046]
本稿では,CLIPの視覚言語推論能力を向上させるために,SDS-CLIPと呼ばれる試料効率のよい軽量化手法を提案する。
提案手法は,異なるCLIPモデルの絶対的視覚言語性能を最大7%向上させる。
CLIPに視覚言語推論を誘導する副産物として、ゼロショットのパフォーマンスは、さまざまな下流データセットでわずかに向上する。
論文 参考訳(メタデータ) (2023-07-18T13:10:11Z) - RBSR: Efficient and Flexible Recurrent Network for Burst
Super-Resolution [57.98314517861539]
バースト超解像(BurstSR)は、高解像度(HR)画像を低解像度(LR)画像と雑音画像から再構成することを目的としている。
本稿では,効率よくフレキシブルなリカレントネットワークでフレーム単位のキューを融合させることを提案する。
論文 参考訳(メタデータ) (2023-06-30T12:14:13Z) - Extending TrOCR for Text Localization-Free OCR of Full-Page Scanned
Receipt Images [0.07673339435080445]
本稿では,レセプション画像中のすべての文字を順序付きシーケンス・ツー・エンドに変換するために,ローカライズフリーな文書レベルOCRモデルを提案する。
具体的には、訓練済みのインスタンスレベルモデルTrOCRをランダムにトリミングした画像チャンクで微調整する。
実験では64.4F1スコアと22.8%の文字誤り率を達成した。
論文 参考訳(メタデータ) (2022-12-11T15:45:26Z) - Dynamic Low-Resolution Distillation for Cost-Efficient End-to-End Text
Spotting [49.33891486324731]
コスト効率の高い動的低分解能蒸留(DLD)テキストスポッティングフレームワークを提案する。
それは、小さなが認識可能な解像度で画像を推測し、精度と効率のバランスを改善することを目的としている。
提案手法はエンド・ツー・エンドを最適化し,既存のテキストスポッティング・フレームワークに実装することで,実践性を向上させる。
論文 参考訳(メタデータ) (2022-07-14T06:49:59Z) - Lights, Camera, Action! A Framework to Improve NLP Accuracy over OCR
documents [2.6201102730518606]
我々は、下流のNLPタスクに対してOCRエラーを軽減するための効果的なフレームワークを実証する。
まず,文書合成パイプラインを構築することにより,モデル学習におけるデータ不足問題に対処する。
コミュニティの利益のために、私たちはドキュメント合成パイプラインをオープンソースプロジェクトとして利用可能にしました。
論文 参考訳(メタデータ) (2021-08-06T00:32:54Z) - TNCR: Table Net Detection and Classification Dataset [62.997667081978825]
TNCRデータセットは、スキャンされた文書画像のテーブル検出と5つのクラスに分類される。
我々は、テーブル検出のための最先端のディープラーニングベースの手法を実装し、いくつかの強力なベースラインを構築した。
我々は、テーブルの検出、分類、構造認識に対するより深い学習アプローチを促進するために、TNCRをオープンソースにしました。
論文 参考訳(メタデータ) (2021-06-19T10:48:58Z) - Unknown-box Approximation to Improve Optical Character Recognition
Performance [7.805544279853116]
特定のOCRエンジン用にカスタマイズされたプリプロセッサを作成するための新しいアプローチが提示される。
2つのデータセットと2つのOCRエンジンによる実験は、提示されたプリプロセッサがOCRの精度をベースラインから最大46%向上できることを示している。
論文 参考訳(メタデータ) (2021-05-17T16:09:15Z) - Light Field Reconstruction Using Convolutional Network on EPI and
Extended Applications [78.63280020581662]
スパースビューからの光場再構成のための新しい畳み込みニューラルネットワーク(CNN)ベースのフレームワークを開発した。
最先端のアルゴリズムと比較して,提案フレームワークの高性能と堅牢性を実証する。
論文 参考訳(メタデータ) (2021-03-24T08:16:32Z) - On-Device Text Image Super Resolution [0.0]
我々は、よりシャープな文字エッジを再構築し、OCRの信頼性を高める新しいディープニューラルネットワークを提案する。
提案アーキテクチャは, バイコビックアップサンプリングによるPSNRの大幅な改善を実現するだけでなく, 平均推定時間1枚当たり11.7msで動作する。
ICDAR 2015 TextSRデータセットでは、OCRの精度が75.89%に達しています。
論文 参考訳(メタデータ) (2020-11-20T07:49:48Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。