論文の概要: Noisy Parallel Data Alignment
- arxiv url: http://arxiv.org/abs/2301.09685v1
- Date: Mon, 23 Jan 2023 19:26:34 GMT
- ステータス: 処理完了
- システム内更新日: 2023-01-25 14:56:37.534544
- Title: Noisy Parallel Data Alignment
- Title(参考訳): ノイズ並列データアライメント
- Authors: Ruoyu Xie, Antonios Anastasopoulos
- Abstract要約: 既存の単語レベルのアライメントモデルをノイズの多い設定で検討し、ノイズの多いデータに対してより堅牢にすることを目的としている。
複数の言語ペアでテストされたノイズシミュレーションと構造バイアス法により,最先端のニューラルベースアライメントモデルにおけるアライメントエラー率を59.6%に抑えることができた。
- 参考スコア(独自算出の注目度): 36.578851892373365
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: An ongoing challenge in current natural language processing is how its major
advancements tend to disproportionately favor resource-rich languages, leaving
a significant number of under-resourced languages behind. Due to the lack of
resources required to train and evaluate models, most modern language
technologies are either nonexistent or unreliable to process endangered, local,
and non-standardized languages. Optical character recognition (OCR) is often
used to convert endangered language documents into machine-readable data.
However, such OCR output is typically noisy, and most word alignment models are
not built to work under such noisy conditions. In this work, we study the
existing word-level alignment models under noisy settings and aim to make them
more robust to noisy data. Our noise simulation and structural biasing method,
tested on multiple language pairs, manages to reduce the alignment error rate
on a state-of-the-art neural-based alignment model up to 59.6%.
- Abstract(参考訳): 現在の自然言語処理における現在進行中の課題は、その主要な進歩がいかにリソース豊富な言語を不釣り合いに好んでいるかであり、多くの非リソース言語は残されている。
モデルのトレーニングと評価に必要なリソースが不足しているため、現代の言語技術の多くは、絶滅危惧言語、ローカル言語、非標準言語を処理できないか信頼できない。
光文字認識(OCR)は、絶滅危惧言語文書を機械可読データに変換するためにしばしば用いられる。
しかし、このようなocr出力は一般に騒がしく、ほとんどの単語アライメントモデルはそのような騒がしい条件下では動作しない。
本研究では,既存の単語レベルのアライメントモデルをノイズの多い設定で検討し,ノイズの多いデータに対してより堅牢にすることを目的とする。
複数の言語ペアでテストされたノイズシミュレーションと構造バイアス法により、最先端のニューラルネットワークアライメントモデルにおけるアライメントエラー率を59.6%まで削減できる。
関連論文リスト
- ELAICHI: Enhancing Low-resource TTS by Addressing Infrequent and Low-frequency Character Bigrams [16.172599163455693]
言語や地理的に関連のある言語からの高品質なデータを活用して、ターゲット言語のためのTSを改善する。
第2に,非スタディオ環境で記録された低品質自動音声認識(ASR)データを利用する。
第3に、より堅牢な出力を生成するために、合成データを用いた大規模モデルからの知識蒸留を適用する。
論文 参考訳(メタデータ) (2024-10-23T14:18:25Z) - MoSECroT: Model Stitching with Static Word Embeddings for Crosslingual Zero-shot Transfer [50.40191599304911]
クロスリンガルゼロショット転送のための静的単語埋め込みを用いたMoSECroTモデルスティッチについて紹介する。
本稿では,ソースコードPLMの埋め込みと対象言語の静的単語埋め込みのための共通空間を構築するために,相対表現を利用した最初のフレームワークを提案する。
提案するフレームワークは,MoSECroTに対処する際,弱いベースラインと競合するが,強いベースラインに比べて競合する結果が得られないことを示す。
論文 参考訳(メタデータ) (2024-01-09T21:09:07Z) - A Cheaper and Better Diffusion Language Model with Soft-Masked Noise [62.719656543880596]
Masked-Diffuse LMは言語モデリングのための新しい拡散モデルであり、言語の言語的特徴に触発されている。
具体的には,テキストデータのノイズを改善するために,戦略的ソフトマスキングによってテキストに劣化を加える言語情報処理を設計する。
我々は,我々のMasked-Diffuse LMが,高効率の最先端拡散モデルよりも優れた生成品質を達成できることを実証した。
論文 参考訳(メタデータ) (2023-04-10T17:58:42Z) - Robustification of Multilingual Language Models to Real-world Noise with
Robust Contrastive Pretraining [14.087882550564169]
ノイズの多いデータに基づいてニューラルモデルのロバスト性を評価し,改良は英語に限られていることを示唆する。
事前訓練された多言語モデルの性能をベンチマークするために、5つの言語と4つのNLPタスクをカバーするノイズの多いデータセットを構築した。
本稿では,多言語事前学習モデルのゼロショット言語間ロバスト性を高めるために,ロバストコントラスト事前学習(RCP)を提案する。
論文 参考訳(メタデータ) (2022-10-10T15:40:43Z) - Cross-Lingual Cross-Modal Retrieval with Noise-Robust Learning [25.230786853723203]
低リソース言語に対するノイズローバストな言語間クロスモーダル検索手法を提案する。
低リソース言語のための擬似並列文ペアを構築するために,機械翻訳を用いる。
ノイズロスのターゲット言語表現を学習するための多視点自己蒸留法を提案する。
論文 参考訳(メタデータ) (2022-08-26T09:32:24Z) - An Assessment of the Impact of OCR Noise on Language Models [0.22843885788439797]
我々は、オランダ語、英語、フランス語、ドイツ語のデータを用いて、OCRノイズが様々な言語モデルに与える影響を評価する。
我々は、OCRノイズが言語モデリングに重大な障害となり、言語モデルは、OCRの品質として、ノイズレスのターゲットから次第に遠ざかっていくことに気付きました。
論文 参考訳(メタデータ) (2022-01-26T21:56:14Z) - Lexically Aware Semi-Supervised Learning for OCR Post-Correction [90.54336622024299]
世界中の多くの言語における既存の言語データの多くは、非デジタル化された書籍や文書に閉じ込められている。
従来の研究は、あまり良くない言語を認識するためのニューラル・ポスト・コレクション法の有用性を実証してきた。
そこで本研究では,生画像を利用した半教師付き学習手法を提案する。
論文 参考訳(メタデータ) (2021-11-04T04:39:02Z) - Towards Language Modelling in the Speech Domain Using Sub-word
Linguistic Units [56.52704348773307]
音節や音素を含む言語単位に基づくLSTMに基づく新しい生成音声LMを提案する。
限られたデータセットでは、現代の生成モデルで要求されるものよりも桁違いに小さいので、我々のモデルはバブリング音声を近似する。
補助的なテキストLM,マルチタスク学習目標,補助的な調音特徴を用いた訓練の効果を示す。
論文 参考訳(メタデータ) (2021-10-31T22:48:30Z) - Understanding Model Robustness to User-generated Noisy Texts [2.958690090551675]
NLPでは、スペルエラーなどの自然発生ノイズによってモデル性能が劣化することが多い。
本稿では,文法的誤り訂正コーパスから統計的に誤りをモデル化する。
論文 参考訳(メタデータ) (2021-10-14T14:54:52Z) - OCR Post Correction for Endangered Language Texts [113.8242302688894]
我々は、3つの危惧言語でスキャンされた書籍の書き起こしのベンチマークデータセットを作成する。
本稿では,汎用OCRツールがデータ・スカース・セッティングに対して堅牢でないかを体系的に分析する。
我々は,このデータ・スカース・セッティングにおけるトレーニングを容易にするために,OCRポスト補正法を開発した。
論文 参考訳(メタデータ) (2020-11-10T21:21:08Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。