論文の概要: Textual Augmentation Techniques Applied to Low Resource Machine
Translation: Case of Swahili
- arxiv url: http://arxiv.org/abs/2306.07414v1
- Date: Mon, 12 Jun 2023 20:43:24 GMT
- ステータス: 処理完了
- システム内更新日: 2023-06-14 15:48:10.705650
- Title: Textual Augmentation Techniques Applied to Low Resource Machine
Translation: Case of Swahili
- Title(参考訳): 低資源機械翻訳に応用したテキスト拡張技術:スワヒリの事例
- Authors: Catherine Gitau and VUkosi Marivate
- Abstract要約: 機械翻訳において、世界中の言語ペアのほとんどは、ほとんど並列データがないため、低リソースと見なされている。
テキスト分類タスクで広く使われている3つの単純なデータ拡張手法を研究・適用する。
多様なデータセットでより広範な実験を行う場合には、これらの手法をニューラルネットワーク翻訳に使用する可能性がある。
- 参考スコア(独自算出の注目度): 1.9686054517684888
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: In this work we investigate the impact of applying textual data augmentation
tasks to low resource machine translation. There has been recent interest in
investigating approaches for training systems for languages with limited
resources and one popular approach is the use of data augmentation techniques.
Data augmentation aims to increase the quantity of data that is available to
train the system. In machine translation, majority of the language pairs around
the world are considered low resource because they have little parallel data
available and the quality of neural machine translation (NMT) systems depend a
lot on the availability of sizable parallel corpora. We study and apply three
simple data augmentation techniques popularly used in text classification
tasks; synonym replacement, random insertion and contextual data augmentation
and compare their performance with baseline neural machine translation for
English-Swahili (En-Sw) datasets. We also present results in BLEU, ChrF and
Meteor scores. Overall, the contextual data augmentation technique shows some
improvements both in the $EN \rightarrow SW$ and $SW \rightarrow EN$
directions. We see that there is potential to use these methods in neural
machine translation when more extensive experiments are done with diverse
datasets.
- Abstract(参考訳): 本研究では,低リソース機械翻訳におけるテキストデータ拡張タスクの適用効果について検討する。
資源が限られている言語のための学習システムのアプローチに対する調査に近年関心が集まっており、一般的なアプローチはデータ拡張技術の利用である。
データ拡張は、システムのトレーニングに利用可能なデータの量を増やすことを目的としている。
機械翻訳では、世界中の言語ペアのほとんどが、並列データが少ないためリソースが少ないと考えられており、ニューラルネットワーク翻訳(nmt)システムの品質は、相当な並列コーパスの可用性に大きく依存している。
テキスト分類タスクで広く用いられている3つの単純なデータ拡張手法であるシノニム置換,ランダム挿入,文脈データ拡張について検討し,その性能をイングリッシュ・スワヒリ(en-sw)データセットのベースラインニューラルマシン翻訳と比較した。
また,bleu,chrf,meteorスコアについても報告する。
全体として、コンテキストデータ拡張技術は、$EN \rightarrow SW$と$SW \rightarrow EN$方向の両方で改善されている。
多様なデータセットでより広範な実験を行う場合には、これらの手法をニューラルネットワーク翻訳に使用する可能性がある。
関連論文リスト
- Investigating Neural Machine Translation for Low-Resource Languages: Using Bavarian as a Case Study [1.6819960041696331]
本稿では,ドイツ語とバイエルン語の自動翻訳システムを開発するために,最先端のニューラルマシン翻訳技術を再考する。
我々の実験では、バックトランスレーションとトランスファー学習を適用して、より多くのトレーニングデータを自動生成し、より高い翻訳性能を達成する。
ボニフェロニ補正による統計的意義は驚くほど高いベースラインシステムを示し、バックトランスレーションにより大幅な改善がもたらされた。
論文 参考訳(メタデータ) (2024-04-12T06:16:26Z) - Unified Model Learning for Various Neural Machine Translation [63.320005222549646]
既存の機械翻訳(NMT)研究は主にデータセット固有のモデルの開発に焦点を当てている。
我々は,NMT(UMLNMT)のための統一モデル学習モデル(Unified Model Learning for NMT)を提案する。
OurNMTは、データセット固有のモデルよりも大幅に改善され、モデルデプロイメントコストが大幅に削減される。
論文 参考訳(メタデータ) (2023-05-04T12:21:52Z) - Learning to Generalize to More: Continuous Semantic Augmentation for
Neural Machine Translation [50.54059385277964]
CsaNMT(Continuous Semantic Augmentation)と呼ばれる新しいデータ拡張パラダイムを提案する。
CsaNMTは各トレーニングインスタンスを、同じ意味の下で適切なリテラル式をカバーできる隣接領域で拡張する。
論文 参考訳(メタデータ) (2022-04-14T08:16:28Z) - A Survey on Low-Resource Neural Machine Translation [106.51056217748388]
我々は、関連する作品を、使用した補助データに基づいて3つのカテゴリに分類する。
私たちの調査は、研究者がこの分野をよりよく理解し、より良いアルゴリズムを設計するきっかけになることを期待しています。
論文 参考訳(メタデータ) (2021-07-09T06:26:38Z) - AUGVIC: Exploiting BiText Vicinity for Low-Resource NMT [9.797319790710711]
AUGVICは低リソースNMTのための新しいデータ拡張フレームワークである。
余分なモノリンガルデータを明示的に使用せずに、与えられたbitextのヴィジナルサンプルを利用する。
AUGVICは、従来のバックトランスレーションにおいて、関連ドメインと遠隔ドメインのモノリンガルデータの相違を緩和するのに有効であることを示す。
論文 参考訳(メタデータ) (2021-06-09T15:29:18Z) - On the Language Coverage Bias for Neural Machine Translation [81.81456880770762]
言語カバレッジバイアスは、ニューラルネットワーク翻訳(NMT)において重要である。
実験を慎重に設計することにより、トレーニングデータにおける言語カバレッジバイアスの包括的分析を行う。
本稿では,言語カバレッジバイアス問題を軽減するための,シンプルで効果的な2つのアプローチを提案する。
論文 参考訳(メタデータ) (2021-06-07T01:55:34Z) - Exploiting Neural Query Translation into Cross Lingual Information
Retrieval [49.167049709403166]
既存のCLIRシステムは、高度ニューラルネットワーク翻訳(NMT)ではなく、統計ベースの機械翻訳(SMT)を主に活用している
本稿では,ユーザクリックスルーデータに基づいてクエリ変換ペアを抽出する新しいデータ拡張手法を提案する。
実験結果から,提案手法は強いベースラインよりも高い検索精度が得られることがわかった。
論文 参考訳(メタデータ) (2020-10-26T15:28:19Z) - Selecting Backtranslated Data from Multiple Sources for Improved Neural
Machine Translation [8.554761233491236]
我々は、ルールベース、フレーズベース統計システム、ニューラルMTシステムで翻訳されたデータが、新しいMTシステムに与える影響を分析する。
我々は、高品質なMTシステムを維持しながら、使用するデータ量を減らすために、異なるデータ選択戦略を利用する。
論文 参考訳(メタデータ) (2020-05-01T10:50:53Z) - Syntax-aware Data Augmentation for Neural Machine Translation [76.99198797021454]
本稿では,ニューラルマシン翻訳のための新しいデータ拡張戦略を提案する。
文中の役割を考慮し,単語選択のための文特異的確率を設定した。
提案手法はWMT14の英語-ドイツ語データセットとIWSLT14のドイツ語-英語データセットを用いて評価する。
論文 参考訳(メタデータ) (2020-04-29T13:45:30Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。