論文の概要: Data Augmentation With Back translation for Low Resource languages: A case of English and Luganda
- arxiv url: http://arxiv.org/abs/2505.02463v1
- Date: Mon, 05 May 2025 08:47:52 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-05-06 18:49:35.606528
- Title: Data Augmentation With Back translation for Low Resource languages: A case of English and Luganda
- Title(参考訳): 低資源言語への逆翻訳によるデータ拡張:英語とルガンダを事例として
- Authors: Richard Kimera, Dongnyeong Heo, Daniela N. Rim, Heeyoul Choi,
- Abstract要約: 本稿では,英語とルガンダ語を併用したニューラル機械翻訳モデルを構築するための半教師付き手法として,バック翻訳の適用について検討する。
提案手法では,公開データとウェブクローリングデータの両方を用いて独自のNMTモデルを構築し,反復および増分バック翻訳手法を適用した。
その結果,英ラガンダ対の翻訳性能は,全翻訳方向の10点以上のBLEUスコアユニットで過去のベンチマークを上回った。
- 参考スコア(独自算出の注目度): 0.0
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: In this paper,we explore the application of Back translation (BT) as a semi-supervised technique to enhance Neural Machine Translation(NMT) models for the English-Luganda language pair, specifically addressing the challenges faced by low-resource languages. The purpose of our study is to demonstrate how BT can mitigate the scarcity of bilingual data by generating synthetic data from monolingual corpora. Our methodology involves developing custom NMT models using both publicly available and web-crawled data, and applying Iterative and Incremental Back translation techniques. We strategically select datasets for incremental back translation across multiple small datasets, which is a novel element of our approach. The results of our study show significant improvements, with translation performance for the English-Luganda pair exceeding previous benchmarks by more than 10 BLEU score units across all translation directions. Additionally, our evaluation incorporates comprehensive assessment metrics such as SacreBLEU, ChrF2, and TER, providing a nuanced understanding of translation quality. The conclusion drawn from our research confirms the efficacy of BT when strategically curated datasets are utilized, establishing new performance benchmarks and demonstrating the potential of BT in enhancing NMT models for low-resource languages.
- Abstract(参考訳): 本稿では,低リソース言語が直面する課題に特に対処するため,英語とルガンダの言語ペアに対するニューラルネットワーク翻訳(NMT)モデルを強化するための半教師付き手法として,バック翻訳(BT)の適用について検討する。
本研究の目的は,単言語コーパスから合成データを生成することにより,BTがバイリンガルデータの不足を軽減できることを示すことである。
提案手法では,公開データとウェブクローリングデータの両方を用いて独自のNMTモデルを構築し,反復および増分バック翻訳手法を適用した。
私たちは、複数の小さなデータセットにまたがるインクリメンタルなバックトランスレーションのためのデータセットを戦略的に選択します。
その結果,英ラガンダ対の翻訳性能は,全翻訳方向の10点以上のBLEUスコアユニットで過去のベンチマークを上回った。
さらに、SacreBLEU、ChrF2、TERなどの総合的な評価指標を取り入れ、翻訳品質の微妙な理解を提供する。
本研究から得られた結論は、戦略的にキュレートされたデータセットを利用する場合のBTの有効性を確認し、新たな性能ベンチマークを確立し、低リソース言語におけるNMTモデルの拡張におけるBTの可能性を示すものである。
関連論文リスト
- High-Resource Translation:Turning Abundance into Accessibility [0.0]
本稿では,トランスファーラーニング技術を活用して,英語からテルグ語への翻訳モデルを構築するための新しいアプローチを提案する。
このモデルは反復的バックトランスレーションを取り入れて合成並列データを生成し、トレーニングデータセットを効果的に強化し、モデルの翻訳能力を向上する。
論文 参考訳(メタデータ) (2025-04-08T11:09:51Z) - Cross-lingual Transfer or Machine Translation? On Data Augmentation for
Monolingual Semantic Textual Similarity [2.422759879602353]
Wikipediaデータの言語間転送では、モノリンガルSTSのパフォーマンスが改善されている。
学習データとしてNLIに着目した先行研究とは対照的に,これらの言語ではWikipediaドメインがNLIドメインよりも優れている。
論文 参考訳(メタデータ) (2024-03-08T12:28:15Z) - Importance-Aware Data Augmentation for Document-Level Neural Machine
Translation [51.74178767827934]
ドキュメントレベルのニューラルマシン翻訳(DocNMT)は、一貫性と結合性の両方を持つ翻訳を生成することを目的としている。
長い入力長とトレーニングデータの可用性が限られているため、DocNMTはデータスパシティーの課題に直面していることが多い。
本稿では,隠れ状態のノルムとトレーニング勾配から推定したトークン重要度情報に基づいてトレーニングデータを拡張するDocNMTのための新しいIADAアルゴリズムを提案する。
論文 参考訳(メタデータ) (2024-01-27T09:27:47Z) - Improving Multilingual Translation by Representation and Gradient
Regularization [82.42760103045083]
表現レベルと勾配レベルの両方でNMTモデルを正規化するための共同手法を提案する。
提案手法は,オフターゲット翻訳の発生率の低減とゼロショット翻訳性能の向上に有効であることを示す。
論文 参考訳(メタデータ) (2021-09-10T10:52:21Z) - HintedBT: Augmenting Back-Translation with Quality and Transliteration
Hints [7.452359972117693]
標的単言語コーパスのバックトランスレーションは、ニューラルマシン翻訳(NMT)に広く用いられているデータ拡張戦略である
私たちは、エンコーダとデコーダにヒント(タグを通して)を提供するテクニックのファミリーであるHintedBTを紹介します。
これらのヒントを別々に使用することで翻訳品質が大幅に向上することを示す。
論文 参考訳(メタデータ) (2021-09-09T17:43:20Z) - ChrEnTranslate: Cherokee-English Machine Translation Demo with Quality
Estimation and Corrective Feedback [70.5469946314539]
ChrEnTranslateは、英語と絶滅危惧言語チェロキーとの翻訳のためのオンライン機械翻訳デモシステムである。
統計モデルとニューラルネットワークモデルの両方をサポートし、信頼性をユーザに通知するための品質評価を提供する。
論文 参考訳(メタデータ) (2021-07-30T17:58:54Z) - On the Language Coverage Bias for Neural Machine Translation [81.81456880770762]
言語カバレッジバイアスは、ニューラルネットワーク翻訳(NMT)において重要である。
実験を慎重に設計することにより、トレーニングデータにおける言語カバレッジバイアスの包括的分析を行う。
本稿では,言語カバレッジバイアス問題を軽減するための,シンプルで効果的な2つのアプローチを提案する。
論文 参考訳(メタデータ) (2021-06-07T01:55:34Z) - An Exploration of Data Augmentation Techniques for Improving English to
Tigrinya Translation [21.636157115922693]
補助データを生成する効果的な方法は、ターゲット言語文のバック翻訳です。
本稿では,Tigrinyaを事例として,合成原文を生成するバックトランスレーション法について検討する。
論文 参考訳(メタデータ) (2021-03-31T03:31:09Z) - Leveraging Monolingual Data with Self-Supervision for Multilingual
Neural Machine Translation [54.52971020087777]
モノリンガルデータを使用することで、マルチリンガルモデルにおける低リソース言語の翻訳品質が大幅に向上する。
自己監督は多言語モデルのゼロショット翻訳品質を改善する。
並列データやバックトランスレーションなしで、ro-en翻訳で最大33のBLEUを得る。
論文 参考訳(メタデータ) (2020-05-11T00:20:33Z) - Evaluating Low-Resource Machine Translation between Chinese and
Vietnamese with Back-Translation [32.25731930652532]
後方翻訳(BT)は広く使われ、ニューラルネットワーク翻訳(NMT)におけるデータ拡張の標準手法の1つとなっている。
ベトナム語、ベトナム語、中国語のNMTモデルと統計的機械翻訳(SMT)モデルの両方に対して、文字ベースおよび単語ベースの設定で合成データの異なるサイズの影響を評価し、比較する。
論文 参考訳(メタデータ) (2020-03-04T17:10:10Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。