論文の概要: Data Augmentation to Address Out-of-Vocabulary Problem in Low-Resource
Sinhala-English Neural Machine Translation
- arxiv url: http://arxiv.org/abs/2205.08722v1
- Date: Wed, 18 May 2022 04:52:43 GMT
- ステータス: 処理完了
- システム内更新日: 2022-05-19 12:41:52.308743
- Title: Data Augmentation to Address Out-of-Vocabulary Problem in Low-Resource
Sinhala-English Neural Machine Translation
- Title(参考訳): 低音源シンハラ音声翻訳における語彙外問題へのデータ拡張
- Authors: Aloka Fernando, Surangika Ranathunga
- Abstract要約: Out-of-Vocabulary(OOV)はニューラルマシン翻訳(NMT)の問題である
両種類のOOVを考慮した単語とフレーズの置換に基づくデータ拡張(DA)手法を提案する。
単語の構文的および意味的特性は、合成文の流布を保証するために考慮する。
- 参考スコア(独自算出の注目度): 1.2891210250935146
- License: http://creativecommons.org/licenses/by-nc-nd/4.0/
- Abstract: Out-of-Vocabulary (OOV) is a problem for Neural Machine Translation (NMT).
OOV refers to words with a low occurrence in the training data, or to those
that are absent from the training data. To alleviate this, word or phrase-based
Data Augmentation (DA) techniques have been used. However, existing DA
techniques have addressed only one of these OOV types and limit to considering
either syntactic constraints or semantic constraints. We present a word and
phrase replacement-based DA technique that consider both types of OOV, by
augmenting (1) rare words in the existing parallel corpus, and (2) new words
from a bilingual dictionary. During augmentation, we consider both syntactic
and semantic properties of the words to guarantee fluency in the synthetic
sentences. This technique was experimented with low resource Sinhala-English
language pair. We observe with only semantic constraints in the DA, the results
are comparable with the scores obtained considering syntactic constraints, and
is favourable for low-resourced languages that lacks linguistic tool support.
Additionally, results can be further improved by considering both syntactic and
semantic constraints.
- Abstract(参考訳): Out-of-Vocabulary (OOV) はニューラルマシン翻訳(NMT)の問題である。
oovは、トレーニングデータに発生する頻度の低い単語、またはトレーニングデータに欠けている単語を指す。
これを軽減するために、単語またはフレーズベースのデータ拡張(DA)技術が使用されている。
しかし、既存のDA手法は、これらのOOVタイプの1つにのみ対応しており、構文的制約または意味的制約を考慮に入れている。
本稿では,(1)既存並列コーパスにおけるレアワードと,(2)バイリンガル辞書からの新たな単語を補完することにより,両種類のオーブを考慮した単語と句の置換に基づくda手法を提案する。
拡張中は,単語の構文的特徴と意味的特性の両方を,合成文の流布性を保証するために検討する。
この手法を低資源シンハラ英語対を用いて実験した。
我々は,DAにおける意味的制約のみを観察し,構文的制約を考慮した結果と同等であり,言語ツールサポートに欠ける低リソース言語に好適である。
さらに、構文的制約と意味的制約の両方を考慮することで、結果をさらに改善することができる。
関連論文リスト
- An Analysis of BPE Vocabulary Trimming in Neural Machine Translation [56.383793805299234]
語彙トリミング(vocabulary trimming)は、まれなサブワードをコンポーネントサブワードに置き換える後処理のステップである。
ボキャブラリトリミングは性能向上に失敗し,さらに大きな劣化を招きやすいことを示す。
論文 参考訳(メタデータ) (2024-03-30T15:29:49Z) - HyPoradise: An Open Baseline for Generative Speech Recognition with
Large Language Models [81.56455625624041]
ASRの誤り訂正に外部の大規模言語モデル(LLM)を利用する最初のオープンソースベンチマークを導入する。
提案したベンチマークには、334,000組以上のN-best仮説を含む新しいデータセットHyPoradise (HP)が含まれている。
合理的なプロンプトと生成能力を持つLLMは、N-bestリストに欠けているトークンを修正できる。
論文 参考訳(メタデータ) (2023-09-27T14:44:10Z) - Towards Effective Disambiguation for Machine Translation with Large
Language Models [65.80775710657672]
我々は「あいまいな文」を翻訳する大規模言語モデルの能力について研究する。
実験の結果,提案手法はDeepLやNLLBといった最先端システムと5つの言語方向のうち4つで一致し,性能を向上できることがわかった。
論文 参考訳(メタデータ) (2023-09-20T22:22:52Z) - Distributional Data Augmentation Methods for Low Resource Language [0.9208007322096533]
簡単なデータ拡張(EDA)は、同義語を注入して置換し、ランダムに置換することでトレーニングデータを増強する。
EDAの大きな障害の1つは、低リソース言語では容易に見つからない、多目的で完全な同義語辞書の必要性である。
本稿では,意味的単語コンテキスト情報と単語置換・拡張のためのパート・オブ・音声タグを利用する2つの拡張,EDDA(Easy Distributional Data Augmentation)とタイプ固有類似語置換(type specific similar word replacement,TSSR)を提案する。
論文 参考訳(メタデータ) (2023-09-09T19:01:59Z) - Emphasizing Unseen Words: New Vocabulary Acquisition for End-to-End
Speech Recognition [21.61242091927018]
トレンディングワードや新しい名前を持つエンティティなど、Of-Vocabulary以外の単語は、現代のASRシステムに問題を引き起こす。
我々は,テキスト音声システムを用いてOOV語を生成することを提案し,損失を再スケールすることで,ニューラルネットワークがOOV語により多くの注意を払うことを奨励する。
論文 参考訳(メタデータ) (2023-02-20T02:21:30Z) - Always Keep your Target in Mind: Studying Semantics and Improving
Performance of Neural Lexical Substitution [124.99894592871385]
本稿では,従来の言語モデルと最近の言語モデルの両方を用いた語彙置換手法の大規模比較研究を行う。
目的語に関する情報を適切に注入すれば,SOTA LMs/MLMsによるすでに競合する結果がさらに大幅に改善できることを示す。
論文 参考訳(メタデータ) (2022-06-07T16:16:19Z) - DEEP: DEnoising Entity Pre-training for Neural Machine Translation [123.6686940355937]
機械翻訳モデルは通常、トレーニングコーパスで稀な名前付きエンティティの翻訳を貧弱に生成することが示されている。
文中の名前付きエンティティ翻訳精度を向上させるために,大量のモノリンガルデータと知識ベースを利用するDenoising Entity Pre-training法であるDEEPを提案する。
論文 参考訳(メタデータ) (2021-11-14T17:28:09Z) - Rejuvenating Low-Frequency Words: Making the Most of Parallel Data in
Non-Autoregressive Translation [98.11249019844281]
知識蒸留(KD)は、非自己回帰翻訳(NAT)モデルを訓練するための合成データを構築するために一般的に用いられる。
低周波対象語に対するアライメントを向上するために,逆KDを提案する。
その結果,提案手法は翻訳品質を大幅に向上させることができることがわかった。
論文 参考訳(メタデータ) (2021-06-02T02:41:40Z) - Incorporating Bilingual Dictionaries for Low Resource Semi-Supervised
Neural Machine Translation [5.958653653305609]
我々は、単語・バイ・ワードの翻訳によって合成文を生成する、広く利用可能なバイリンガル辞書を組み込んだ。
これにより、高品質なコンテンツを維持しながら、モデルの語彙を自動的に拡張する。
論文 参考訳(メタデータ) (2020-04-05T02:14:14Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。