論文の概要: An Assessment of the Impact of OCR Noise on Language Models
- arxiv url: http://arxiv.org/abs/2202.00470v1
- Date: Wed, 26 Jan 2022 21:56:14 GMT
- ステータス: 処理完了
- システム内更新日: 2022-02-06 08:53:18.218986
- Title: An Assessment of the Impact of OCR Noise on Language Models
- Title(参考訳): 言語モデルにおけるocr雑音の影響評価
- Authors: Konstantin Todorov and Giovanni Colavizza
- Abstract要約: 我々は、オランダ語、英語、フランス語、ドイツ語のデータを用いて、OCRノイズが様々な言語モデルに与える影響を評価する。
我々は、OCRノイズが言語モデリングに重大な障害となり、言語モデルは、OCRの品質として、ノイズレスのターゲットから次第に遠ざかっていくことに気付きました。
- 参考スコア(独自算出の注目度): 0.22843885788439797
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Neural language models are the backbone of modern-day natural language
processing applications. Their use on textual heritage collections which have
undergone Optical Character Recognition (OCR) is therefore also increasing.
Nevertheless, our understanding of the impact OCR noise could have on language
models is still limited. We perform an assessment of the impact OCR noise has
on a variety of language models, using data in Dutch, English, French and
German. We find that OCR noise poses a significant obstacle to language
modelling, with language models increasingly diverging from their noiseless
targets as OCR quality lowers. In the presence of small corpora, simpler models
including PPMI and Word2Vec consistently outperform transformer-based models in
this respect.
- Abstract(参考訳): ニューラルネットワークモデルは、現代の自然言語処理アプリケーションのバックボーンである。
そのため、光学文字認識(OCR)を施したテキスト遺産コレクションの利用も増加している。
それでも、OCRノイズが言語モデルに与える影響についての私たちの理解は限定的です。
我々は、オランダ語、英語、フランス語、ドイツ語のデータを用いて、OCRノイズが様々な言語モデルに与える影響を評価する。
OCRの品質が低下するにつれて,OCRのノイズは言語モデルにとって大きな障害となる。
小さなコーパスの存在下では、PPMIやWord2Vecといったシンプルなモデルは、この点においてトランスフォーマーベースのモデルより一貫して優れている。
関連論文リスト
- Spanish TrOCR: Leveraging Transfer Learning for Language Adaptation [0.0]
本研究では,TrOCRアーキテクチャのスペイン語への移行学習能力について検討する。
我々は、英語のTrOCRエンコーダを言語固有のデコーダと統合し、この言語でモデルを訓練する。
英語のTrOCRをスペイン語で微調整すると、固定データセットサイズに対する言語固有のデコーダよりも優れた認識が得られる。
論文 参考訳(メタデータ) (2024-07-09T15:31:41Z) - Multilingual Audio-Visual Speech Recognition with Hybrid CTC/RNN-T Fast Conformer [59.57249127943914]
本稿では,複数の改良を加えた多言語音声認識モデルを提案する。
我々は、6つの異なる言語に対する音声視覚訓練データの量を増やし、重複しない多言語データセットの自動書き起こしを生成する。
提案モデルでは, LRS3データセット上での新たな最先端性能を実現し, WERは0.8%に達した。
論文 参考訳(メタデータ) (2024-03-14T01:16:32Z) - Large Language Models are Efficient Learners of Noise-Robust Speech
Recognition [65.95847272465124]
大規模言語モデル(LLM)の最近の進歩は、自動音声認識(ASR)のための生成誤り訂正(GER)を促進している。
本研究では,このベンチマークをノイズの多い条件に拡張し,GERのデノナイジングをLLMに教えることができるかを検討する。
最新のLLM実験では,単語誤り率を最大53.9%改善し,新たなブレークスルーを実現している。
論文 参考訳(メタデータ) (2024-01-19T01:29:27Z) - Ask Language Model to Clean Your Noisy Translation Data [7.246698449812031]
MTNTのターゲット文からノイズを除去することに集中し、ノイズ評価のベンチマークとしてより適している。
大規模言語モデル (LLM) はスラング, ジャーゴン, 代名詞を効果的に言い換えることができることを示す。
C-MTNT実験はNMTモデルのロバスト性を評価する上での有効性を示した。
論文 参考訳(メタデータ) (2023-10-20T13:05:32Z) - Extrapolating Multilingual Understanding Models as Multilingual
Generators [82.1355802012414]
本稿では,多言語理解モデルに統一モデルを得るための生成能力を付与する手法について検討する。
少数の新しいパラメータを持つ多言語ジェネレータにエンコーダを適用するために,textbfSemantic-textbfGuided textbfAlignment-then-Denoising (SGA)アプローチを提案する。
論文 参考訳(メタデータ) (2023-05-22T15:33:21Z) - User-Centric Evaluation of OCR Systems for Kwak'wala [92.73847703011353]
OCRを利用すると、文化的に価値ある文書の書き起こしに費やした時間を50%以上削減できることを示す。
この結果から,OCRツールが下流言語ドキュメントや再生作業において持つ潜在的なメリットが示された。
論文 参考訳(メタデータ) (2023-02-26T21:41:15Z) - Noisy Parallel Data Alignment [36.578851892373365]
既存の単語レベルのアライメントモデルをノイズの多い設定で検討し、ノイズの多いデータに対してより堅牢にすることを目的としている。
複数の言語ペアでテストされたノイズシミュレーションと構造バイアス法により,最先端のニューラルベースアライメントモデルにおけるアライメントエラー率を59.6%に抑えることができた。
論文 参考訳(メタデータ) (2023-01-23T19:26:34Z) - Cross-Lingual Cross-Modal Retrieval with Noise-Robust Learning [25.230786853723203]
低リソース言語に対するノイズローバストな言語間クロスモーダル検索手法を提案する。
低リソース言語のための擬似並列文ペアを構築するために,機械翻訳を用いる。
ノイズロスのターゲット言語表現を学習するための多視点自己蒸留法を提案する。
論文 参考訳(メタデータ) (2022-08-26T09:32:24Z) - Towards Language Modelling in the Speech Domain Using Sub-word
Linguistic Units [56.52704348773307]
音節や音素を含む言語単位に基づくLSTMに基づく新しい生成音声LMを提案する。
限られたデータセットでは、現代の生成モデルで要求されるものよりも桁違いに小さいので、我々のモデルはバブリング音声を近似する。
補助的なテキストLM,マルチタスク学習目標,補助的な調音特徴を用いた訓練の効果を示す。
論文 参考訳(メタデータ) (2021-10-31T22:48:30Z) - How Phonotactics Affect Multilingual and Zero-shot ASR Performance [74.70048598292583]
Transformer encoder-decoderモデルは、トレーニング中に提示された言語のIPA転写において、多言語データをうまく活用することが示されている。
我々は,エンコーダデコーダをAMとLMを分離したハイブリッドASRシステムに置き換える。
交叉音韻律のモデル化による利得は限定的であり,強すぎるモデルがゼロショット転送を損なう可能性があることを示す。
論文 参考訳(メタデータ) (2020-10-22T23:07:24Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。