論文の概要: A Simple and Practical Approach to Improve Misspellings in OCR Text
- arxiv url: http://arxiv.org/abs/2106.12030v1
- Date: Tue, 22 Jun 2021 19:38:17 GMT
- ステータス: 処理完了
- システム内更新日: 2021-06-24 15:25:24.919614
- Title: A Simple and Practical Approach to Improve Misspellings in OCR Text
- Title(参考訳): OCRテキストのミススペル改善のためのシンプルで実践的なアプローチ
- Authors: Junxia Lin (1), Johannes Ledolter (2) ((1) Georgetown University
Medical Center, Georgetown University, (2) Tippie College of Business,
University of Iowa)
- Abstract要約: 本稿では,OCRテキストにおける非単語誤りの同定と訂正に焦点を当てる。
従来のN-gram補正法は、1ワード誤りを効果的に処理できる。
本稿では,分割およびマージエラーを処理可能な教師なし手法を開発する。
- 参考スコア(独自算出の注目度): 0.0
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: The focus of our paper is the identification and correction of non-word
errors in OCR text. Such errors may be the result of incorrect insertion,
deletion, or substitution of a character, or the transposition of two adjacent
characters within a single word. Or, it can be the result of word boundary
problems that lead to run-on errors and incorrect-split errors. The traditional
N-gram correction methods can handle single-word errors effectively. However,
they show limitations when dealing with split and merge errors. In this paper,
we develop an unsupervised method that can handle both errors. The method we
develop leads to a sizable improvement in the correction rates. This tutorial
paper addresses very difficult word correction problems - namely incorrect
run-on and split errors - and illustrates what needs to be considered when
addressing such problems. We outline a possible approach and assess its success
on a limited study.
- Abstract(参考訳): 本論文の焦点は,OCRテキストにおける非単語誤りの同定と訂正である。
このような誤りは、文字の誤挿入、削除、置換、または一つの単語内で隣接する2つの文字の転置の結果である。
あるいは、単語境界の問題の結果で、実行中のエラーと誤分割エラーにつながる可能性がある。
従来のn-gram補正手法は、シングルワードエラーを効果的に処理できる。
しかし、これらは分割とマージエラーを扱う際の制限を示す。
本稿では,2つの誤りを扱える教師なし手法を開発する。
開発した手法は,補正率の大幅な向上につながる。
本チュートリアルでは,単語修正の難しさ,すなわち実行時エラーと分割エラーの問題に対処し,そのような問題に対処する上で考慮すべきことを説明する。
可能なアプローチを概説し、その成功を限定的な研究で評価する。
関連論文リスト
- Subtle Errors Matter: Preference Learning via Error-injected Self-editing [59.405145971637204]
eRror-Injected Self-Editing (RISE) と呼ばれる新しい好み学習フレームワークを提案する。
RISEは定義済みの微妙な誤りを正しい解の部分的なトークンに注入し、エラー軽減のためにハードペアを構築する。
RISEの有効性を検証する実験では、Qwen2-7B-Instructでは、GSM8Kでは3.0%、MATHでは7.9%が顕著に改善された。
論文 参考訳(メタデータ) (2024-10-09T07:43:38Z) - A Coin Has Two Sides: A Novel Detector-Corrector Framework for Chinese Spelling Correction [79.52464132360618]
中国語のSpelling Correction(CSC)は、自然言語処理(NLP)の基本課題である。
本稿では,エラー検出・相関器の枠組みに基づく新しい手法を提案する。
我々の検出器は2つのエラー検出結果を得るように設計されており、それぞれ高精度とリコールが特徴である。
論文 参考訳(メタデータ) (2024-09-06T09:26:45Z) - Chinese Spelling Correction as Rephrasing Language Model [63.65217759957206]
文中のスペル誤りを検知し,訂正することを目的とした中国語スペル補正(CSC)について検討する。
現在の最先端の手法は、CSCをシーケンスタギングタスクと文対上の細いBERTベースのモデルとみなしている。
本稿では,文字から文字へのタグ付けではなく,追加のスロットを埋め込むことで文全体を言い換える言語モデル(ReLM)を提案する。
論文 参考訳(メタデータ) (2023-08-17T06:04:28Z) - Correcting Real-Word Spelling Errors: A New Hybrid Approach [1.5469452301122175]
実単語誤りを検出し,訂正するために,統計的・統語的知識に依存した新しいハイブリッド手法を提案する。
このモデルは、WordNetベースのHirstとBudanitskyのメソッドやWilcox-O'HearnとHirstの固定ウィンドウサイズメソッドなど、他のモデルよりも実用的であることが証明できる。
論文 参考訳(メタデータ) (2023-02-09T06:03:11Z) - Real-Word Error Correction with Trigrams: Correcting Multiple Errors in
a Sentence [0.0]
本稿では,文中の複数単語の誤りを検出し,訂正することに焦点を当てた新しいバリエーションを提案する。
We test our approach on the Wall Street Journal corpus and show that it developed of Hirst and Budanitsky's WordNet based method and Wilcox-O'Hearn, Hirst, and Budanitsky's fixed windows size method。
論文 参考訳(メタデータ) (2023-02-07T13:52:14Z) - SoftCorrect: Error Correction with Soft Detection for Automatic Speech
Recognition [116.31926128970585]
我々は,明示的かつ暗黙的な誤り検出の限界を回避するため,ソフトエラー検出機構を備えたSoftCorrectを提案する。
暗黙的な誤り検出とCTC損失と比較すると、SoftCorrectはどの単語が誤りであるかを明示的な信号を提供する。
AISHELL-1とAidatatangデータセットの実験では、SoftCorrectはそれぞれ26.1%と9.4%のCER削減を達成した。
論文 参考訳(メタデータ) (2022-12-02T09:11:32Z) - Tokenization Repair in the Presence of Spelling Errors [0.2964978357715083]
エラーのスペルは存在するが、修正する問題の一部ではない。
高品質なトークン化修復の鍵となる3つの要素を同定する。
論文 参考訳(メタデータ) (2020-10-15T16:55:45Z) - Improving the Efficiency of Grammatical Error Correction with Erroneous
Span Detection and Correction [106.63733511672721]
ESD(Eroneous Span Detection)とESC(Eroneous Span Correction)の2つのサブタスクに分割することで、文法的誤り訂正(GEC)の効率を改善するための言語に依存しない新しいアプローチを提案する。
ESDは、効率的なシーケンスタグ付けモデルを用いて文法的に誤りテキストスパンを識別する。ESCは、Seq2seqモデルを利用して、注釈付き誤字スパンの文を入力として取り、これらのスパンの修正テキストのみを出力する。
実験の結果,提案手法は英語と中国語のGECベンチマークにおいて従来のセク2seq手法と同等に動作し,推論に要するコストは50%以下であった。
論文 参考訳(メタデータ) (2020-10-07T08:29:11Z) - On the Robustness of Language Encoders against Grammatical Errors [66.05648604987479]
我々は、非ネイティブ話者から実際の文法的誤りを収集し、これらの誤りをクリーンテキストデータ上でシミュレートするために敵攻撃を行う。
結果,全ての試験モデルの性能は影響するが,影響の程度は異なることがわかった。
論文 参考訳(メタデータ) (2020-05-12T11:01:44Z) - Error correction and extraction in request dialogs [12.137183622356197]
Componentは、ユーザの2つの最後の発話を取得し、最後の発話が2番目の最後の発話の誤り訂正であるかどうかを検出する。
そして、最後の発話における誤差補正に従って第2の最終発話を補正し、抽出した再並列及び補修エンティティのペアを出力する。
1つの誤り訂正検出と1つの誤り訂正アプローチをパイプラインに組み合わせたり、エラー訂正アプローチをトレーニングしたり、エンドツーエンドで2つのコンポーネントを避けることができる。
論文 参考訳(メタデータ) (2020-04-08T20:49:10Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。