論文の概要: Lexically Aware Semi-Supervised Learning for OCR Post-Correction
- arxiv url: http://arxiv.org/abs/2111.02622v1
- Date: Thu, 4 Nov 2021 04:39:02 GMT
- ステータス: 処理完了
- システム内更新日: 2021-11-05 15:04:53.481952
- Title: Lexically Aware Semi-Supervised Learning for OCR Post-Correction
- Title(参考訳): OCR後補正のための語彙的半教師付き学習
- Authors: Shruti Rijhwani, Daisy Rosenblum, Antonios Anastasopoulos, Graham
Neubig
- Abstract要約: 世界中の多くの言語における既存の言語データの多くは、非デジタル化された書籍や文書に閉じ込められている。
従来の研究は、あまり良くない言語を認識するためのニューラル・ポスト・コレクション法の有用性を実証してきた。
そこで本研究では,生画像を利用した半教師付き学習手法を提案する。
- 参考スコア(独自算出の注目度): 90.54336622024299
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Much of the existing linguistic data in many languages of the world is locked
away in non-digitized books and documents. Optical character recognition (OCR)
can be used to produce digitized text, and previous work has demonstrated the
utility of neural post-correction methods that improve the results of
general-purpose OCR systems on recognition of less-well-resourced languages.
However, these methods rely on manually curated post-correction data, which are
relatively scarce compared to the non-annotated raw images that need to be
digitized.
In this paper, we present a semi-supervised learning method that makes it
possible to utilize these raw images to improve performance, specifically
through the use of self-training, a technique where a model is iteratively
trained on its own outputs. In addition, to enforce consistency in the
recognized vocabulary, we introduce a lexically-aware decoding method that
augments the neural post-correction model with a count-based language model
constructed from the recognized texts, implemented using weighted finite-state
automata (WFSA) for efficient and effective decoding.
Results on four endangered languages demonstrate the utility of the proposed
method, with relative error reductions of 15-29%, where we find the combination
of self-training and lexically-aware decoding essential for achieving
consistent improvements. Data and code are available at
https://shrutirij.github.io/ocr-el/.
- Abstract(参考訳): 世界中の多くの言語における既存の言語データの多くは、非digitized bookやドキュメントに閉じ込められている。
光文字認識(OCR)は、デジタル化されたテキストを生成するのに利用でき、以前の研究は、汎用OCRシステムの結果を改善するニューラルネットワーク後補正法の利点を実証してきた。
しかし、これらの手法は手作業による補正後データに依存しており、デジタル化が必要な非注釈の原画像に比べて比較的少ない。
本稿では,これらの生画像を用いて,特に自己学習によって,モデルが自己出力で反復的に訓練される手法を用いて,パフォーマンスを向上させるための半教師あり学習手法を提案する。
さらに,認識された語彙の一貫性を強制するために,重み付き有限状態オートマトン(wfsa)を用いて実装し,認識されたテキストから構築したカウントベース言語モデルを用いて,神経後修正モデルを強化する語彙認識復号法を提案する。
4つの絶滅危惧言語における結果から,提案手法の有用性が示され,相対誤差が15~29%に低下した。
データとコードはhttps://shrutirij.github.io/ocr-el/で入手できる。
関連論文リスト
- Decoding at the Speed of Thought: Harnessing Parallel Decoding of Lexical Units for LLMs [57.27982780697922]
大規模言語モデルは、自然言語の理解と生成において例外的な能力を示した。
しかし、それらの生成速度は、その復号過程の本質的にシーケンシャルな性質によって制限される。
本稿では,データ駆動方式で実装された新しいデコーディング手法であるLexical Unit Decodingを紹介する。
論文 参考訳(メタデータ) (2024-05-24T04:35:13Z) - Efficiently Leveraging Linguistic Priors for Scene Text Spotting [63.22351047545888]
本稿では,大規模テキストコーパスから言語知識を活用する手法を提案する。
シーンテキストデータセットとよく一致したテキスト分布を生成し、ドメイン内の微調整の必要性を取り除く。
実験結果から,本手法は認識精度を向上するだけでなく,単語のより正確な局所化を可能にすることが示された。
論文 参考訳(メタデータ) (2024-02-27T01:57:09Z) - EfficientOCR: An Extensible, Open-Source Package for Efficiently
Digitizing World Knowledge [1.8434042562191815]
EffOCRは、オープンソースの光文字認識(OCR)パッケージである。
これは、大規模にテキストを解放するための計算とサンプルの効率の要求を満たす。
EffOCRは安価で、トレーニングにはサンプルの効率がよい。
論文 参考訳(メタデータ) (2023-10-16T04:20:16Z) - Offline Detection of Misspelled Handwritten Words by Convolving
Recognition Model Features with Text Labels [0.0]
テキストに対して手書き画像を比較する作業を紹介する。
我々のモデルの分類ヘッドは、最先端の生成逆数ネットワークを用いて生成された合成データに基づいて訓練されている。
このような大規模なパフォーマンス向上は、ヒューマン・イン・ザ・ループの自動化を利用したアプリケーションの生産性を大幅に向上させる可能性がある。
論文 参考訳(メタデータ) (2023-09-18T21:13:42Z) - Optimizing the Neural Network Training for OCR Error Correction of
Historical Hebrew Texts [0.934612743192798]
本稿では,ヘブライOCR後補正のための軽量ニューラルネットワークを,手作業で生成したデータよりもはるかに少ない精度でトレーニングする方法を提案する。
過去のOCR新聞の分析は、共通言語とコーパス固有のOCRエラーを学習するために行われた。
論文 参考訳(メタデータ) (2023-07-30T12:59:06Z) - Scalable Learning of Latent Language Structure With Logical Offline
Cycle Consistency [71.42261918225773]
概念的には、LOCCOは、トレーニング対象のセマンティクスを使用してラベルなしテキストのアノテーションを生成する、自己学習の一形態と見なすことができる。
追加ボーナスとして、LOCCOによって生成されたアノテーションは、神経テキスト生成モデルをトレーニングするために自明に再利用することができる。
論文 参考訳(メタデータ) (2023-05-31T16:47:20Z) - CSSL-MHTR: Continual Self-Supervised Learning for Scalable Multi-script Handwritten Text Recognition [16.987008461171065]
我々は,手書き文字認識における破滅的な忘れの問題を軽減するために,連続的な自己指導型学習の可能性を探究する。
提案手法は,各タスクにアダプタと呼ばれる中間層を追加し,現在のタスクを学習しながら,前モデルからの知識を効率的に抽出する。
私たちは英語、イタリア語、ロシア語のスクリプトで最先端のパフォーマンスを達成しましたが、タスクごとにいくつかのパラメータしか追加していません。
論文 参考訳(メタデータ) (2023-03-16T14:27:45Z) - Uncovering the Handwritten Text in the Margins: End-to-end Handwritten
Text Detection and Recognition [0.840835093659811]
本研究は,手書きペラリアの自動検出と認識のためのエンドツーエンドフレームワークを提案する。
データ拡張と転送学習を使用して、トレーニングデータの不足を克服する。
このフレームワークの有効性はスウェーデンのウプサラ大学図書館で発見された初期の書籍コレクションのデータから実証的に評価されている。
論文 参考訳(メタデータ) (2023-03-10T14:00:53Z) - DenseCLIP: Language-Guided Dense Prediction with Context-Aware Prompting [91.56988987393483]
本稿では,CLIPから事前学習した知識を暗黙的かつ明示的に活用することで,高密度予測のための新しい枠組みを提案する。
具体的には,CLIPにおける元の画像テキストマッチング問題を画素テキストマッチング問題に変換し,画素テキストスコアマップを用いて高密度予測モデルの学習を指導する。
本手法は,任意の密集予測システムや種々の事前学習された視覚バックボーンに適用可能な,モデルに依存しない手法である。
論文 参考訳(メタデータ) (2021-12-02T18:59:32Z) - TEACHTEXT: CrossModal Generalized Distillation for Text-Video Retrieval [103.85002875155551]
本研究では,大規模言語前訓練を利用した一般化蒸留法TeachTextを提案する。
提案手法をビデオ側モダリティに拡張し,テスト時に使用するモダリティの数を効果的に削減できることを示す。
提案手法は,いくつかのビデオ検索ベンチマークの精度を著しく向上させ,テスト時の計算オーバーヘッドを増加させない。
論文 参考訳(メタデータ) (2021-04-16T17:55:28Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。