論文の概要: Data Generation for Post-OCR correction of Cyrillic handwriting
- arxiv url: http://arxiv.org/abs/2311.15896v1
- Date: Mon, 27 Nov 2023 15:01:26 GMT
- ステータス: 処理完了
- システム内更新日: 2023-11-28 14:56:16.971580
- Title: Data Generation for Post-OCR correction of Cyrillic handwriting
- Title(参考訳): キリル文字のポストOCR補正のためのデータ生成
- Authors: Evgenii Davydkin, Aleksandr Markelov, Egor Iuldashev, Anton Dudkin,
Ivan Krivorotov
- Abstract要約: 本稿では,B'ezier曲線に基づく合成手書き生成エンジンの開発と応用に焦点を当てる。
このようなエンジンは、任意の量で非常にリアルな手書きテキストを生成し、それを利用して実質的なデータセットを作成する。
本データセットに手書きテキスト認識(HTR)モデルを適用し,OCRエラーを識別し,POCモデルトレーニングの基礎となる。
- 参考スコア(独自算出の注目度): 41.94295877935867
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: This paper introduces a novel approach to post-Optical Character Recognition
Correction (POC) for handwritten Cyrillic text, addressing a significant gap in
current research methodologies. This gap is due to the lack of large text
corporas that provide OCR errors for further training of language-based POC
models, which are demanding in terms of corpora size. Our study primarily
focuses on the development and application of a synthetic handwriting
generation engine based on B\'ezier curves. Such an engine generates highly
realistic handwritten text in any amounts, which we utilize to create a
substantial dataset by transforming Russian text corpora sourced from the
internet. We apply a Handwritten Text Recognition (HTR) model to this dataset
to identify OCR errors, forming the basis for our POC model training. The
correction model is trained on a 90-symbol input context, utilizing a
pre-trained T5 architecture with a seq2seq correction task. We evaluate our
approach on HWR200 and School_notebooks_RU datasets as they provide significant
challenges in the HTR domain. Furthermore, POC can be used to highlight errors
for teachers, evaluating student performance. This can be done simply by
comparing sentences before and after correction, displaying differences in
text. Our primary contribution lies in the innovative use of B\'ezier curves
for Cyrillic text generation and subsequent error correction using a
specialized POC model. We validate our approach by presenting Word Accuracy
Rate (WAR) and Character Accuracy Rate (CAR) results, both with and without
post-OCR correction, using real open corporas of handwritten Cyrillic text.
These results, coupled with our methodology, are designed to be reproducible,
paving the way for further advancements in the field of OCR and handwritten
text analysis. Paper contributions can be found in
https://github.com/dbrainio/CyrillicHandwritingPOC
- Abstract(参考訳): 本稿では,手書きキリル文字に対するポストオプティカル文字認識補正(POC)の新たなアプローチを提案する。
このギャップは、コーパスサイズが要求される言語ベースのPOCモデルのさらなるトレーニングにOCRエラーを提供する大きなテキストコーパスがないためである。
本研究は主にB'ezier曲線に基づく合成手書き生成エンジンの開発と応用に焦点を当てている。
このようなエンジンは、任意の量で非常にリアルな手書きテキストを生成し、それを利用して、インターネットからソースされたロシアのテキストコーパスを変換することで、実質的なデータセットを作成する。
本データセットに手書きテキスト認識(HTR)モデルを適用し,OCRエラーを識別し,POCモデルトレーニングの基礎となる。
この補正モデルは、事前訓練されたT5アーキテクチャとSeq2seq補正タスクを用いて90シンボル入力コンテキストで訓練される。
HTR領域における課題として,HWR200と School_notebooks_RUデータセットに対するアプローチを評価した。
さらに、POCは教師のエラーを強調し、生徒のパフォーマンスを評価するために使用することができる。
これは単に訂正前後の文を比較し、テキストの相違を表示するだけでできる。
我々の主な貢献は、キリル文字生成におけるB\'ezier曲線の革新的利用と、特殊POCモデルを用いたその後の誤り訂正である。
我々は,手書きキリル文字の実際のオープンコーパスを用いて,単語の精度(WAR)と文字の精度(CAR)の結果をOCR後の訂正の有無にかかわらず提示することで,我々のアプローチを検証する。
これらの結果は,本手法と組み合わせて再現可能であり,OCRと手書きテキスト解析の分野におけるさらなる進歩の道を開くものである。
論文はhttps://github.com/dbrainio/CyrillicHandwritingPOCにある。
関連論文リスト
- NeKo: Toward Post Recognition Generative Correction Large Language Models with Task-Oriented Experts [57.53692236201343]
提案するマルチタスク補正MOEでは,専門家が音声・テキスト・言語・テキスト・視覚・テキスト・データセットの「専門家」になるよう訓練する。
NeKoはマルチタスクモデルとして文法とポストOCR補正を競合的に実行している。
論文 参考訳(メタデータ) (2024-11-08T20:11:24Z) - Reference-Based Post-OCR Processing with LLM for Diacritic Languages [0.0]
コンテンツ中心の電子書籍を参照ベースとして活用し、不完全なOCR生成テキストを訂正する手法を提案する。
この技術は、ダイアクリティカル言語のための高精度な擬似ページ・ツー・ページラベルを生成する。
パイプラインは、古いドキュメントから様々な種類のノイズを排除し、欠落した文字、単語、乱れたシーケンスといった問題に対処する。
論文 参考訳(メタデータ) (2024-10-17T08:05:02Z) - CLOCR-C: Context Leveraging OCR Correction with Pre-trained Language Models [0.0]
本稿では、コンテキストレバレッジOCR補正(CLOCR-C)を紹介する。
トランスフォーマーベースの言語モデル(LM)の組み込みとコンテキスト適応能力を使用して、OCRの品質を向上する。
本研究の目的は, LMがOCR後の修正を行うことができるか, 下流のNLPタスクを改善するか, 補正プロセスの一部として社会文化的コンテキストを提供することの価値を判断することである。
論文 参考訳(メタデータ) (2024-08-30T17:26:05Z) - Classification of Non-native Handwritten Characters Using Convolutional Neural Network [0.0]
非ネイティブユーザによる英語文字の分類は、カスタマイズされたCNNモデルを提案することによって行われる。
我々はこのCNNを、手書きの独立した英語文字データセットと呼ばれる新しいデータセットでトレーニングする。
5つの畳み込み層と1つの隠蔽層を持つモデルでは、文字認識精度において最先端モデルよりも優れる。
論文 参考訳(メタデータ) (2024-06-06T21:08:07Z) - Context Perception Parallel Decoder for Scene Text Recognition [52.620841341333524]
シーンテキスト認識手法は高い精度と高速な推論速度を達成するのに苦労している。
本稿では、STRにおけるARデコーディングの実証的研究を行い、ARデコーダが言語文脈をモデル化するだけでなく、視覚的文脈知覚のガイダンスも提供することを明らかにする。
我々は一連のCPPDモデルを構築し、提案したモジュールを既存のSTRデコーダにプラグインする。英語と中国語のベンチマーク実験により、CPPDモデルはARベースモデルよりも約8倍高速に動作し、高い競争精度を達成できることを示した。
論文 参考訳(メタデータ) (2023-07-23T09:04:13Z) - Cleansing Jewel: A Neural Spelling Correction Model Built On Google OCR-ed Tibetan Manuscripts [12.346821696831805]
我々は,Google OCR-ed Tibetan Manuscripts 上に構築したニューラルスペル補正モデルを用いて,OCR-ed noisy出力の自動補正を行う。
本稿では、データセット、モデルアーキテクチャ、トレーニング、分析の4つのセクションに分けられる。
論文 参考訳(メタデータ) (2023-04-07T00:45:12Z) - Lexically Aware Semi-Supervised Learning for OCR Post-Correction [90.54336622024299]
世界中の多くの言語における既存の言語データの多くは、非デジタル化された書籍や文書に閉じ込められている。
従来の研究は、あまり良くない言語を認識するためのニューラル・ポスト・コレクション法の有用性を実証してきた。
そこで本研究では,生画像を利用した半教師付き学習手法を提案する。
論文 参考訳(メタデータ) (2021-11-04T04:39:02Z) - TrOCR: Transformer-based Optical Character Recognition with Pre-trained
Models [47.48019831416665]
本稿では,事前学習した画像変換器とテキスト変換器モデル,すなわちTrOCRを用いたエンドツーエンドのテキスト認識手法を提案する。
TrOCRは単純だが効果的であり、大規模な合成データで事前訓練し、人間のラベル付きデータセットで微調整することができる。
実験により、TrOCRモデルは、印刷されたテキスト認識タスクと手書きのテキスト認識タスクの両方において、現在の最先端モデルよりも優れていることが示された。
論文 参考訳(メタデータ) (2021-09-21T16:01:56Z) - Lights, Camera, Action! A Framework to Improve NLP Accuracy over OCR
documents [2.6201102730518606]
我々は、下流のNLPタスクに対してOCRエラーを軽減するための効果的なフレームワークを実証する。
まず,文書合成パイプラインを構築することにより,モデル学習におけるデータ不足問題に対処する。
コミュニティの利益のために、私たちはドキュメント合成パイプラインをオープンソースプロジェクトとして利用可能にしました。
論文 参考訳(メタデータ) (2021-08-06T00:32:54Z) - Structured Multimodal Attentions for TextVQA [57.71060302874151]
上述の2つの問題を主に解決するために,終端から終端までの構造化マルチモーダルアテンション(SMA)ニューラルネットワークを提案する。
SMAはまず、画像に現れるオブジェクト・オブジェクト・オブジェクト・テキスト・テキストの関係を符号化するために構造グラフ表現を使用し、その後、それを推論するためにマルチモーダルグラフアテンションネットワークを設計する。
提案モデルでは,テキストVQAデータセットとST-VQAデータセットの2つのタスクを事前学習ベースTAP以外のモデルで比較した。
論文 参考訳(メタデータ) (2020-06-01T07:07:36Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。