論文の概要: Low-Resource Neural Machine Translation Using Recurrent Neural Networks and Transfer Learning: A Case Study on English-to-Igbo
- arxiv url: http://arxiv.org/abs/2504.17252v1
- Date: Thu, 24 Apr 2025 05:02:26 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-05-02 19:15:53.251249
- Title: Low-Resource Neural Machine Translation Using Recurrent Neural Networks and Transfer Learning: A Case Study on English-to-Igbo
- Title(参考訳): リカレントニューラルネットワークとトランスファーラーニングを用いた低リソースニューラルネットワーク翻訳:英語とイグボ語を事例として
- Authors: Ocheme Anthony Ekle, Biswarup Das,
- Abstract要約: 我々はニューラル・マシン・トランスフォーメーション(NMT)とトランスフォーマー・ベース・トランスフォーマー・トランスフォーメーション・ラーニング・モデルを開発した。
私たちのモデルは、Bible corpora、ローカルニュース、Wikipediaの記事、Common Crawlからコンパイルされた、キュレートされたベンチマークデータセットに基づいてトレーニングされています。
転送学習では,+4.83BLEU点の性能向上が観測され,推定翻訳精度は70%に達した。
- 参考スコア(独自算出の注目度): 0.0
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: In this study, we develop Neural Machine Translation (NMT) and Transformer-based transfer learning models for English-to-Igbo translation - a low-resource African language spoken by over 40 million people across Nigeria and West Africa. Our models are trained on a curated and benchmarked dataset compiled from Bible corpora, local news, Wikipedia articles, and Common Crawl, all verified by native language experts. We leverage Recurrent Neural Network (RNN) architectures, including Long Short-Term Memory (LSTM) and Gated Recurrent Units (GRU), enhanced with attention mechanisms to improve translation accuracy. To further enhance performance, we apply transfer learning using MarianNMT pre-trained models within the SimpleTransformers framework. Our RNN-based system achieves competitive results, closely matching existing English-Igbo benchmarks. With transfer learning, we observe a performance gain of +4.83 BLEU points, reaching an estimated translation accuracy of 70%. These findings highlight the effectiveness of combining RNNs with transfer learning to address the performance gap in low-resource language translation tasks.
- Abstract(参考訳): 本研究では,ナイジェリアと西アフリカで4000万人以上の人々が話していた低リソースのアフリカ系言語であるニューラル・マシン・トランスフォーメーション(NMT)とトランスフォーマーに基づくトランスフォーマー・ラーニング・モデルを開発した。
私たちのモデルは、Bible corpora、ローカルニュース、ウィキペディア記事、Common Crawlからコンパイルされた、キュレートされたベンチマークデータセットでトレーニングされています。
本稿では,Long Short-Term Memory (LSTM) や Gated Recurrent Units (GRU) などのリカレントニューラルネットワーク(RNN) アーキテクチャを活用して,翻訳精度の向上を図る。
性能をさらに向上するため、SimpleTransformersフレームワーク内でMarianNMT事前学習モデルを用いて転送学習を適用する。
我々のRNNベースのシステムは、既存のイングリッシュ・イグボのベンチマークと密接に一致して、競合する結果を得る。
転送学習では,+4.83BLEU点の性能向上が観測され,推定翻訳精度は70%に達した。
これらの結果は、低リソース言語翻訳タスクのパフォーマンスギャップに対処するために、RNNとトランスファーラーニングを組み合わせることの有効性を強調した。
関連論文リスト
- Understanding and Analyzing Model Robustness and Knowledge-Transfer in Multilingual Neural Machine Translation using TX-Ray [3.2771631221674333]
本研究では,言語間の知識伝達が,極低リソース環境におけるニューラルマシン翻訳(MNMT)をいかに向上させるかを検討する。
我々は、最小限の並列データを利用して、英語・ドイツ語・英語・フランス語・英語・スペイン語の翻訳を行い、言語間マッピングを確立する。
逐次移動学習は40kパラレル文コーパスのベースラインよりも優れており,その有効性を示している。
論文 参考訳(メタデータ) (2024-12-18T14:21:58Z) - Beyond MLE: Investigating SEARNN for Low-Resourced Neural Machine Translation [0.09459165957946088]
このプロジェクトは、低リソースのアフリカ言語のための機械翻訳を改善するSEARNNの可能性を探求した。
英語をイグボ語に、フランス語をエウス語に、フランス語をグマラ語に翻訳する実験が行われた。
我々は、SEARNNが、低リソース言語のための機械翻訳において、効果的にRNNを訓練するための有効なアルゴリズムであることを証明した。
論文 参考訳(メタデータ) (2024-05-20T06:28:43Z) - Boosting Unsupervised Machine Translation with Pseudo-Parallel Data [2.900810893770134]
本研究では,モノリンガルコーパスから抽出した擬似並列文対と,モノリンガルコーパスから逆転写された合成文対を利用する訓練戦略を提案する。
裏書きされたデータのみに基づいてトレーニングされたベースラインに対して、最大14.5 BLEUポイント(ウクライナ語)の改善を達成しました。
論文 参考訳(メタデータ) (2023-10-22T10:57:12Z) - Reduce, Reuse, Recycle: Is Perturbed Data better than Other Language augmentation for Low Resource Self-Supervised Speech Models [48.44820587495038]
自己教師付き表現学習(SSRL)は、音素認識を含むタスクの教師付きモデルよりも優れた性能を示した。
SSRLモデルのトレーニングは、十分な事前学習データが入手できない低リソース言語にとって課題となる。
本稿では,低リソース環境下でのSSRLモデルの事前学習にピッチ変動,雑音付加,アクセント付きターゲット言語,その他の言語音声を用いることを提案し,音素認識の評価を行う。
論文 参考訳(メタデータ) (2023-09-22T10:09:09Z) - Learning to Generalize to More: Continuous Semantic Augmentation for
Neural Machine Translation [50.54059385277964]
CsaNMT(Continuous Semantic Augmentation)と呼ばれる新しいデータ拡張パラダイムを提案する。
CsaNMTは各トレーニングインスタンスを、同じ意味の下で適切なリテラル式をカバーできる隣接領域で拡張する。
論文 参考訳(メタデータ) (2022-04-14T08:16:28Z) - Towards Better Chinese-centric Neural Machine Translation for
Low-resource Languages [12.374365655284342]
ニューラルマシン翻訳(NMT)システムの構築は、特に低リソース環境において急激なトレンドとなっている。
最近の研究は、英語を中心とした低リソースのNMTシステムを研究する傾向にあるが、中国語など他の言語を中心とした低リソースのNMTシステムに焦点を当てる研究はほとんどない。
本稿では,モノリンガル単語の埋め込みによるデータ強化,バイリンガルカリキュラム学習,コントラスト的再ランク付けを活用した勝者競争システムを提案する。
論文 参考訳(メタデータ) (2022-04-09T01:05:37Z) - Parameter-Efficient Neural Reranking for Cross-Lingual and Multilingual
Retrieval [66.69799641522133]
最先端のニューラルランカーは、お腹が空いていることで悪名高い。
現在のアプローチでは、英語データに基づいて訓練されたローダを、多言語エンコーダを用いて他の言語や言語間設定に転送するのが一般的である。
本研究では,Sparse Fine-Tuning Masks (SFTMs) とAdapters (Adapters) の2つのパラメータ効率のアプローチにより,より軽量で効果的なゼロショット転送が可能となることを示す。
論文 参考訳(メタデータ) (2022-04-05T15:44:27Z) - Cross-lingual Transferring of Pre-trained Contextualized Language Models [73.97131976850424]
本稿では,PRLMのための新しい言語間モデル転送フレームワークTreLMを提案する。
シンボルの順序と言語間のシーケンス長の差に対処するため,中間的なTRILayer構造を提案する。
提案手法は,スクラッチから学習した言語モデルに対して,性能と効率の両面で,限られたデータで著しく優れることを示す。
論文 参考訳(メタデータ) (2021-07-27T06:51:13Z) - Neural Machine Translation model for University Email Application [1.4731169524644787]
ML-> EN, EN-> ML翻訳のための最先端のシーケンス・ツー・シーケンスニューラルネットワークをGoogle Translateと比較した。
Google TranslationのBLEUスコアが低いことは、アプリケーションベースの地域モデルの方が優れていることを示している。
論文 参考訳(メタデータ) (2020-07-20T15:05:16Z) - Learning Source Phrase Representations for Neural Machine Translation [65.94387047871648]
本稿では,対応するトークン表現から句表現を生成可能な注意句表現生成機構を提案する。
実験では,強力なトランスフォーマーベースライン上でのWMT 14の英語・ドイツ語・英語・フランス語タスクにおいて,大幅な改善が得られた。
論文 参考訳(メタデータ) (2020-06-25T13:43:11Z) - It's Easier to Translate out of English than into it: Measuring Neural
Translation Difficulty by Cross-Mutual Information [90.35685796083563]
クロスミューチュアル情報(英: Cross-mutual information、XMI)は、機械翻訳の難易度に関する非対称情報理論の指標である。
XMIは、ほとんどのニューラルマシン翻訳モデルの確率的性質を利用する。
本稿では,現代ニューラル翻訳システムを用いた言語間翻訳の難易度に関する最初の体系的および制御的な研究について述べる。
論文 参考訳(メタデータ) (2020-05-05T17:38:48Z) - Improving Massively Multilingual Neural Machine Translation and
Zero-Shot Translation [81.7786241489002]
ニューラルネットワーク翻訳(NMT)の多言語モデルは理論的には魅力的であるが、しばしばバイリンガルモデルに劣る。
我々は,多言語NMTが言語ペアをサポートするためにより強力なモデリング能力を必要とすることを論じる。
未知のトレーニング言語ペアの翻訳を強制するために,ランダムなオンライン翻訳を提案する。
論文 参考訳(メタデータ) (2020-04-24T17:21:32Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。