論文の概要: Low Resource Neural Machine Translation: A Benchmark for Five African
Languages
- arxiv url: http://arxiv.org/abs/2003.14402v1
- Date: Tue, 31 Mar 2020 17:50:07 GMT
- ステータス: 処理完了
- システム内更新日: 2022-12-18 00:57:08.202975
- Title: Low Resource Neural Machine Translation: A Benchmark for Five African
Languages
- Title(参考訳): 低資源ニューラルマシン翻訳:5つのアフリカ語言語のベンチマーク
- Authors: Surafel M. Lakew, Matteo Negri, Marco Turchi
- Abstract要約: 英語と5つのアフリカのLRLペア(Swahili, Amharic, Tigrigna, Oromo, Somali)のNMTをベンチマークする。
ベースライン単一言語対 NMT モデルと半教師付き学習,移動学習,多言語モデリングを比較した。
平均的なBLEUスコアでは、多言語的アプローチは10の翻訳方向のうち6つで最大5点までの最大利得を示す。
- 参考スコア(独自算出の注目度): 14.97774471012222
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Recent advents in Neural Machine Translation (NMT) have shown improvements in
low-resource language (LRL) translation tasks. In this work, we benchmark NMT
between English and five African LRL pairs (Swahili, Amharic, Tigrigna, Oromo,
Somali [SATOS]). We collected the available resources on the SATOS languages to
evaluate the current state of NMT for LRLs. Our evaluation, comparing a
baseline single language pair NMT model against semi-supervised learning,
transfer learning, and multilingual modeling, shows significant performance
improvements both in the En-LRL and LRL-En directions. In terms of averaged
BLEU score, the multilingual approach shows the largest gains, up to +5 points,
in six out of ten translation directions. To demonstrate the generalization
capability of each model, we also report results on multi-domain test sets. We
release the standardized experimental data and the test sets for future works
addressing the challenges of NMT in under-resourced settings, in particular for
the SATOS languages.
- Abstract(参考訳): ニューラルネットワーク翻訳(NMT)の最近の進歩は、低リソース言語(LRL)翻訳タスクの改善を示している。
本研究では、英語と5つのアフリカのLRLペア(Swahili, Amharic, Tigrigna, Oromo, Somali [SATOS])のNMTをベンチマークする。
我々は SATOS 言語上で利用可能な資源を収集し, LRL の NMT の現状を評価した。
ベースライン単一言語対 NMT モデルと半教師付き学習,移動学習,多言語モデリングを比較し,En-LRL と LRL-En の両方向において有意な性能向上を示した。
平均的なBLEUスコアでは、多言語的アプローチは10の翻訳方向のうち6つで最大5点までの最大利得を示している。
また,各モデルの一般化性能を示すため,多領域テストセットの結果を報告する。
我々は標準化された実験データと将来に向けたテストセットをリリースし、特にSATOS言語におけるNMTの課題に対処する。
関連論文リスト
- NusaMT-7B: Machine Translation for Low-Resource Indonesian Languages with Large Language Models [2.186901738997927]
本稿では,低リソースインドネシア語用機械翻訳モデルであるNusaMT-7Bを紹介する。
提案手法は, 単言語データ, Supervised Fine-Tuning (SFT) , 自己学習, LLMベースのデータクリーナーを併用し, 並列文のノイズを低減する。
この結果から,LLMの微調整により,低リソース言語への翻訳品質が向上し,言語保存や異文化間コミュニケーションに寄与することが示唆された。
論文 参考訳(メタデータ) (2024-10-10T11:33:25Z) - Optimizing the Training Schedule of Multilingual NMT using Reinforcement Learning [0.3277163122167433]
マルチ言語NMTのトレーニングスケジュールを最適化するために強化学習を利用する2つのアルゴリズムを提案する。
LRLとHRLを用いた8対1の翻訳データセットでは,単言語バッチのランダム選択と多言語バッチのシャッフルの両方に関して,BLEUとCOMETのスコアが向上する。
論文 参考訳(メタデータ) (2024-10-08T15:20:13Z) - Quality or Quantity? On Data Scale and Diversity in Adapting Large Language Models for Low-Resource Translation [62.202893186343935]
低リソース言語に大規模言語モデルを適用するのに何が必要かについて検討する。
我々は、事前トレーニングとスーパーバイザードファインチューニング(SFT)の間に並列データが重要であることを示す。
2つの低リソース言語群にまたがる3つの LLM 実験により,本研究の一般化可能性を示す一貫した傾向が示された。
論文 参考訳(メタデータ) (2024-08-23T00:59:38Z) - Salute the Classic: Revisiting Challenges of Machine Translation in the
Age of Large Language Models [91.6543868677356]
ニューラルネットワーク翻訳の進化は、6つのコア課題の影響を受けている。
これらの課題には、ドメインミスマッチ、並列データの量、まれな単語予測、長文の翻訳、単語アライメントとしてのアテンションモデル、そして準最適ビームサーチが含まれる。
この研究はこれらの課題を再考し、先進的な大規模言語モデルにおけるそれらの継続的な関連性についての洞察を提供する。
論文 参考訳(メタデータ) (2024-01-16T13:30:09Z) - Zero-Shot Cross-Lingual Reranking with Large Language Models for
Low-Resource Languages [51.301942056881146]
アフリカ語における言語間情報検索システムにおいて,大規模言語モデル (LLM) がリランカーとしてどのように機能するかを検討する。
私たちの実装は、英語と4つのアフリカの言語(ハウサ語、ソマリ語、スワヒリ語、ヨルバ語)を対象としています。
我々は、英語のクェリとアフリカの言葉の文節による言語横断的な格付けについて検討する。
論文 参考訳(メタデータ) (2023-12-26T18:38:54Z) - Machine Translation for Ge'ez Language [0.0]
Ge'ezのような低リソース言語の機械翻訳は、語彙外単語、ドメインミスマッチ、ラベル付きトレーニングデータの欠如といった課題に直面している。
言語関連性に基づく多言語ニューラルマシン翻訳(MNMT)モデルを開発した。
また,最新のLCMであるGPT-3.5を用いて,ファジィマッチングを用いた数ショット翻訳実験を行った。
論文 参考訳(メタデータ) (2023-11-24T14:55:23Z) - Low-Resource Machine Translation for Low-Resource Languages: Leveraging
Comparable Data, Code-Switching and Compute Resources [4.119597443825115]
我々は,真の低資源言語に対する教師なしニューラルマシン翻訳(nmt)の実証研究を行っている。
バイリンガル辞書を用いた類似のデータマイニングと、モデルのトレーニングに控えめな計算リソースを追加することで、パフォーマンスが大幅に向上することを示す。
私たちの仕事は、低リソースNMTにおける異なる控えめな計算資源の影響を定量的に示す最初のものです。
論文 参考訳(メタデータ) (2021-03-24T15:40:28Z) - Self-Learning for Zero Shot Neural Machine Translation [13.551731309506874]
本研究は、並列データを共有するピボット言語を仮定せずに学習するゼロショットNMTモデリング手法を提案する。
教師なしNMTと比較して、ドメインミスマッチ設定でも一貫した改善が観察される。
論文 参考訳(メタデータ) (2021-03-10T09:15:19Z) - Improving Target-side Lexical Transfer in Multilingual Neural Machine
Translation [104.10726545151043]
マルチリンガルデータは、LRLからターゲット言語に翻訳するNMTモデルにとって、LRLに翻訳するモデルよりも有益であることが判明した。
実験の結果,DecSDEは最大1.8BLEUの英語から4つの言語への翻訳において一貫した向上をもたらすことがわかった。
論文 参考訳(メタデータ) (2020-10-04T19:42:40Z) - Leveraging Monolingual Data with Self-Supervision for Multilingual
Neural Machine Translation [54.52971020087777]
モノリンガルデータを使用することで、マルチリンガルモデルにおける低リソース言語の翻訳品質が大幅に向上する。
自己監督は多言語モデルのゼロショット翻訳品質を改善する。
並列データやバックトランスレーションなしで、ro-en翻訳で最大33のBLEUを得る。
論文 参考訳(メタデータ) (2020-05-11T00:20:33Z) - Cross-lingual Supervision Improves Unsupervised Neural Machine
Translation [97.84871088440102]
我々は,高リソース言語対からゼロリソース翻訳方向への弱教師付き信号を活用するために,多言語非教師付きNMTフレームワークを導入する。
6つのベンチマークの教師なし翻訳方向において,BLEUスコアが3以上あることにより,翻訳品質が大幅に向上する。
論文 参考訳(メタデータ) (2020-04-07T05:46:49Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。