論文の概要: An Unsupervised method for OCR Post-Correction and Spelling
Normalisation for Finnish
- arxiv url: http://arxiv.org/abs/2011.03502v1
- Date: Fri, 6 Nov 2020 18:19:48 GMT
- ステータス: 処理完了
- システム内更新日: 2022-09-29 04:13:22.272993
- Title: An Unsupervised method for OCR Post-Correction and Spelling
Normalisation for Finnish
- Title(参考訳): フィンランドのOCRポストコレクションとスペル化正規化の教師なし手法
- Authors: Quan Duong, Mika H\"am\"al\"ainen, Simon Hengchen
- Abstract要約: 歴史的コーパスはOCR法で導入された誤りを含むことが知られている。
我々は、文字に基づくシーケンス・ツー・シーケンスNMT(neural machine translation)モデルをトレーニングするために、並列データの完全自動教師なし抽出に関する以前の研究に基づいて構築した。
本手法は,スペル正規化の利点を付加して,教師なしのままで性能が向上することを示す。
- 参考スコア(独自算出の注目度): 1.0957528713294875
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Historical corpora are known to contain errors introduced by OCR (optical
character recognition) methods used in the digitization process, often said to
be degrading the performance of NLP systems. Correcting these errors manually
is a time-consuming process and a great part of the automatic approaches have
been relying on rules or supervised machine learning. We build on previous work
on fully automatic unsupervised extraction of parallel data to train a
character-based sequence-to-sequence NMT (neural machine translation) model to
conduct OCR error correction designed for English, and adapt it to Finnish by
proposing solutions that take the rich morphology of the language into account.
Our new method shows increased performance while remaining fully unsupervised,
with the added benefit of spelling normalisation. The source code and models
are available on GitHub and Zenodo.
- Abstract(参考訳): 歴史的コーパスは、デジタル化プロセスで使用されるOCR(Optical character recognition)メソッドによって導入されたエラーを含むことが知られている。
これらのエラーを手動で修正するのは時間を要するプロセスであり、自動的なアプローチの大部分がルールや教師付き機械学習に依存している。
そこで本研究では,並列データの完全自動無教師抽出により,文字ベースシーケンスからシーケンスへのnmt(neural machine translation)モデルを学習し,英語用に設計されたocr誤り訂正を実行し,言語構造を考慮に入れた解をフィンランド語に適用する。
提案手法は完全に教師なしのままで性能が向上し,スペリング正規化の利点が増す。
ソースコードとモデルはgithubとzenodoから入手できる。
関連論文リスト
- LM-Combiner: A Contextual Rewriting Model for Chinese Grammatical Error Correction [49.0746090186582]
過剰補正は中国の文法的誤り訂正(CGEC)タスクにおいて重要な問題である。
モデルアンサンブル法による最近の研究は、過剰補正を効果的に軽減し、ECCシステムの精度を向上させることができる。
本稿では,GECシステム出力の過度補正をモデルアンサンブルなしで直接修正できる書き換えモデルLM-Combinerを提案する。
論文 参考訳(メタデータ) (2024-03-26T06:12:21Z) - A Novel Approach for Automatic Program Repair using Round-Trip
Translation with Large Language Models [50.86686630756207]
研究によると、ある文の文法的誤りは、それを他の言語に翻訳し、その語を返せば修正できる。
現在の自動プログラム修復(APR)生成モデルは、ソースコードで事前訓練され、修正のために微調整されている。
本稿では,あるプログラミング言語から別のプログラミング言語,あるいは自然言語へのコード変換,そして,その逆といった,微調整ステップをバイパスし,ラウンド・トリップ変換(RTT)を用いる手法を提案する。
論文 参考訳(メタデータ) (2024-01-15T22:36:31Z) - Chinese Spelling Correction as Rephrasing Language Model [63.65217759957206]
文中のスペル誤りを検知し,訂正することを目的とした中国語スペル補正(CSC)について検討する。
現在の最先端の手法は、CSCをシーケンスタギングタスクと文対上の細いBERTベースのモデルとみなしている。
本稿では,文字から文字へのタグ付けではなく,追加のスロットを埋め込むことで文全体を言い換える言語モデル(ReLM)を提案する。
論文 参考訳(メタデータ) (2023-08-17T06:04:28Z) - An Error-Guided Correction Model for Chinese Spelling Error Correction [13.56600372085612]
中国語の綴り訂正を改善するための誤り誘導補正モデル(EGCM)を提案する。
我々のモデルは、最先端のアプローチに対する優れた性能を顕著なマージンで達成する。
論文 参考訳(メタデータ) (2023-01-16T09:27:45Z) - Generating Sequences by Learning to Self-Correct [64.0249217590888]
自己補正(Self-Correction)は、不完全な世代を反復的に修正する独立した修正器から不完全なベースジェネレータを分離する。
本稿では,3つの多種多様なタスクにおいて,自己補正がベースジェネレータを改善することを示す。
論文 参考訳(メタデータ) (2022-10-31T18:09:51Z) - uChecker: Masked Pretrained Language Models as Unsupervised Chinese
Spelling Checkers [23.343006562849126]
そこで我々はtextbfuChecker というフレームワークを提案し,教師なしのスペル検出と修正を行う。
BERTのようなマスキーク事前訓練言語モデルをバックボーンモデルとして導入する。
各種フレキシブルなMASKの操作に特化して,マスク付き言語モデルを微調整するためのコンフュージョンセット誘導マスキング戦略を提案する。
論文 参考訳(メタデータ) (2022-09-15T05:57:12Z) - Lexically Aware Semi-Supervised Learning for OCR Post-Correction [90.54336622024299]
世界中の多くの言語における既存の言語データの多くは、非デジタル化された書籍や文書に閉じ込められている。
従来の研究は、あまり良くない言語を認識するためのニューラル・ポスト・コレクション法の有用性を実証してきた。
そこで本研究では,生画像を利用した半教師付き学習手法を提案する。
論文 参考訳(メタデータ) (2021-11-04T04:39:02Z) - Non-Parametric Online Learning from Human Feedback for Neural Machine
Translation [54.96594148572804]
本稿では,人間のフィードバックによるオンライン学習の課題について検討する。
従来手法では、高品質な性能を達成するために、オンラインモデル更新や翻訳メモリネットワークの追加が必要であった。
モデル構造を変更することなく、新しい非パラメトリックオンライン学習手法を提案する。
論文 参考訳(メタデータ) (2021-09-23T04:26:15Z) - End-to-End Lexically Constrained Machine Translation for Morphologically
Rich Languages [0.0]
本研究は, 機械翻訳による単語の正しいインフレクションを許容する機構について検討する。
英語とチェコ語のペアを用いた実験により, 自動評価と手動評価の両方において, 制約付き単語の翻訳が改良されることが示唆された。
論文 参考訳(メタデータ) (2021-06-23T13:40:13Z) - Empirical Error Modeling Improves Robustness of Noisy Neural Sequence
Labeling [26.27504889360246]
本稿では,誤りのないテキストから誤文への変換を訓練したシーケンス・ツー・シーケンスモデルを用いた経験的誤り生成手法を提案する。
テキスト入力が不完全である場合にさらに悪化するデータ空間の問題に対処するため,ノイズの多い言語モデルによる埋め込みを学習した。
提案手法は, 誤り系列ラベリングデータセットのベースラインノイズ発生と誤り訂正技術より優れていた。
論文 参考訳(メタデータ) (2021-05-25T12:15:45Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。