論文の概要: Scrambled text: training Language Models to correct OCR errors using synthetic data
- arxiv url: http://arxiv.org/abs/2409.19735v1
- Date: Sun, 29 Sep 2024 15:20:37 GMT
- ステータス: 翻訳完了
- システム内更新日: 2024-10-01 22:05:03.058877
- Title: Scrambled text: training Language Models to correct OCR errors using synthetic data
- Title(参考訳): スクランブルテキスト:合成データを用いたOCR誤り訂正のための言語モデルトレーニング
- Authors: Jonathan Bourne,
- Abstract要約: 本稿では,合成データ上での言語モデルの微調整により,OCRエラーの修正能力が大幅に向上することを示す。
合成データで訓練されたモデルは、文字誤り率を55%減らし、単語誤り率を32%減らし、実際のデータで訓練されたモデルよりも優れていた。
- 参考スコア(独自算出の注目度): 0.0
- License:
- Abstract: OCR errors are common in digitised historical archives significantly affecting their usability and value. Generative Language Models (LMs) have shown potential for correcting these errors using the context provided by the corrupted text and the broader socio-cultural context, a process called Context Leveraging OCR Correction (CLOCR-C). However, getting sufficient training data for fine-tuning such models can prove challenging. This paper shows that fine-tuning a language model on synthetic data using an LM and using a character level Markov corruption process can significantly improve the ability to correct OCR errors. Models trained on synthetic data reduce the character error rate by 55% and word error rate by 32% over the base LM and outperform models trained on real data. Key findings include; training on under-corrupted data is better than over-corrupted data; non-uniform character level corruption is better than uniform corruption; More tokens-per-observation outperforms more observations for a fixed token budget. The outputs for this paper are a set of 8 heuristics for training effective CLOCR-C models, a dataset of 11,000 synthetic 19th century newspaper articles and scrambledtext a python library for creating synthetic corrupted data.
- Abstract(参考訳): OCRエラーは、デジタル化された歴史的アーカイブにおいて、そのユーザビリティと価値に大きな影響を及ぼす。
生成言語モデル(LM)は、腐敗したテキストとより広い社会文化的文脈(Context Leveraging OCR Correction (CLOCR-C)と呼ばれるプロセス)によって、これらのエラーを修正する可能性を示している。
しかし、そのようなモデルを微調整するのに十分なトレーニングデータを取得することは困難である。
本稿では,LMを用いた合成データ上での言語モデルの微調整と文字レベルのマルコフ汚損処理により,OCR誤りの訂正能力を大幅に向上できることを示す。
合成データで訓練されたモデルは、文字誤り率を55%減らし、単語誤り率を32%減らし、実際のデータで訓練されたモデルよりも優れていた。
主な発見は、過度に破損したデータに対するトレーニングは、過度に破損したデータよりも優れており、不均一な文字レベルの汚職は、均一な汚職よりも優れている。
本論文の出力は,有効なCLOCR-Cモデルの学習のための8つのヒューリスティックス,合成19世紀の新聞記事11,000のデータセット,および合成劣化データを作成するためのピソンライブラリスクランブルテキストである。
関連論文リスト
- Unveiling the Flaws: Exploring Imperfections in Synthetic Data and Mitigation Strategies for Large Language Models [89.88010750772413]
大規模言語モデル(LLM)の学習における高品質なデータ不足問題に対する解決法として,合成データを提案する。
我々の研究は、Q-A(Q-A)ペア、一般的な合成データに関連するこれらの特定の欠陥を掘り下げ、これらの欠陥を軽減するための未学習技術に基づく方法を提案する。
我々の研究は、より堅牢で効率的なLLMトレーニングを促進することを目的として、合成データの効果的な利用に関する重要な洞察を得た。
論文 参考訳(メタデータ) (2024-06-18T08:38:59Z) - Organic Data-Driven Approach for Turkish Grammatical Error Correction and LLMs [0.0]
我々は,新しい有機データ駆動型アプローチ,クリーン挿入を導入し,並列なトルコ文法的誤り訂正データセットを構築する。
トルコの文法的誤り訂正テストの2つのセットについて, 公開されている3つのうちの2つについて, 最先端の結果を得た。
論文 参考訳(メタデータ) (2024-05-24T08:00:24Z) - Text Quality-Based Pruning for Efficient Training of Language Models [66.66259229732121]
本研究では,大容量NLPデータセットのテキスト品質を数値評価する手法を提案する。
テキスト品質指標を提案することにより、低品質テキストインスタンスを識別・排除する枠組みを確立する。
複数のモデルやデータセットに対する実験結果から,このアプローチの有効性が示された。
論文 参考訳(メタデータ) (2024-04-26T18:01:25Z) - Deductive Closure Training of Language Models for Coherence, Accuracy, and Updatability [58.582216812183496]
言語モデル(LM)は、実際に正しいテキストを生成し、個々のクレームの真理値を推定することがある。
現在のLMは誤った内容や非意味な内容を生成しており、編集や更新は困難である。
本稿では,DCT(Deductive Closure Training)と呼ばれる手法を提案する。
論文 参考訳(メタデータ) (2024-01-16T18:58:37Z) - Data Generation for Post-OCR correction of Cyrillic handwriting [41.94295877935867]
本稿では,B'ezier曲線に基づく合成手書き生成エンジンの開発と応用に焦点を当てる。
このようなエンジンは、任意の量で非常にリアルな手書きテキストを生成し、それを利用して実質的なデータセットを作成する。
本データセットに手書きテキスト認識(HTR)モデルを適用し,OCRエラーを識別し,POCモデルトレーニングの基礎となる。
論文 参考訳(メタデータ) (2023-11-27T15:01:26Z) - Let's Synthesize Step by Step: Iterative Dataset Synthesis with Large
Language Models by Extrapolating Errors from Small Models [69.76066070227452]
※データ合成*はラベル付きデータの少ない小さなモデルをトレーニングするための有望な方法です。
本稿では,この分散ギャップを縮めるデータ合成フレームワークであるStep* (**S3**) による合成ステップを提案する。
提案手法は,合成データセットと実データとのギャップを小さくすることで,小型モデルの性能を向上させる。
論文 参考訳(メタデータ) (2023-10-20T17:14:25Z) - CSCD-NS: a Chinese Spelling Check Dataset for Native Speakers [62.61866477815883]
CSCD-NSは中国初のネイティブ話者向けスペルチェックデータセットである。
CSCD-NSはスケールが10倍大きく、誤差分布が異なる。
本稿では,入力過程をシミュレーションする新しい手法を提案する。
論文 参考訳(メタデータ) (2022-11-16T09:25:42Z) - OCR Synthetic Benchmark Dataset for Indic Languages [1.3460700494288012]
我々は,Indic言語用のOCRベンチマークデータセットとして最大規模を公開している。
コレクションには合計90kの画像と23のIndic言語に関する基礎的な真実が含まれている。
論文 参考訳(メタデータ) (2022-05-05T10:07:57Z) - Lexically Aware Semi-Supervised Learning for OCR Post-Correction [90.54336622024299]
世界中の多くの言語における既存の言語データの多くは、非デジタル化された書籍や文書に閉じ込められている。
従来の研究は、あまり良くない言語を認識するためのニューラル・ポスト・コレクション法の有用性を実証してきた。
そこで本研究では,生画像を利用した半教師付き学習手法を提案する。
論文 参考訳(メタデータ) (2021-11-04T04:39:02Z) - Lights, Camera, Action! A Framework to Improve NLP Accuracy over OCR
documents [2.6201102730518606]
我々は、下流のNLPタスクに対してOCRエラーを軽減するための効果的なフレームワークを実証する。
まず,文書合成パイプラインを構築することにより,モデル学習におけるデータ不足問題に対処する。
コミュニティの利益のために、私たちはドキュメント合成パイプラインをオープンソースプロジェクトとして利用可能にしました。
論文 参考訳(メタデータ) (2021-08-06T00:32:54Z) - Synthetic Data Generation for Grammatical Error Correction with Tagged
Corruption Models [15.481446439370343]
ERRANTなどの自動アノテーションツールからのエラー型タグを使用して、合成データ生成をガイドする。
我々は、与えられた開発セットにマッチするエラータグ頻度分布を持つ、新しい大規模合成事前学習データセットを構築した。
本手法は,母国英語と非母国英語を混合したGECシステムをネイティブ英語テストセットに適用する上で,特に有効である。
論文 参考訳(メタデータ) (2021-05-27T17:17:21Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。