論文の概要: Building a Parallel Corpus and Training Translation Models Between
Luganda and English
- arxiv url: http://arxiv.org/abs/2301.02773v1
- Date: Sat, 7 Jan 2023 03:26:09 GMT
- ステータス: 処理完了
- システム内更新日: 2023-01-10 16:31:39.367739
- Title: Building a Parallel Corpus and Training Translation Models Between
Luganda and English
- Title(参考訳): 並列コーパスの構築とルガンダと英語間の翻訳モデルの学習
- Authors: Richard Kimera, Daniela N. Rim, Heeyoul Choi
- Abstract要約: ルガンダ語と英語の対訳文が41,070である並列コーパスを構築した。
我々のモデルは、最初のLuganda- English Neural Machine Translationモデルである。
私たちが構築したバイリンガルデータセットは、一般公開される予定です。
- 参考スコア(独自算出の注目度): 0.0
- License: http://creativecommons.org/licenses/by-nc-sa/4.0/
- Abstract: Neural machine translation (NMT) has achieved great successes with large
datasets, so NMT is more premised on high-resource languages. This continuously
underpins the low resource languages such as Luganda due to the lack of
high-quality parallel corpora, so even 'Google translate' does not serve
Luganda at the time of this writing. In this paper, we build a parallel corpus
with 41,070 pairwise sentences for Luganda and English which is based on three
different open-sourced corpora. Then, we train NMT models with hyper-parameter
search on the dataset. Experiments gave us a BLEU score of 21.28 from Luganda
to English and 17.47 from English to Luganda. Some translation examples show
high quality of the translation. We believe that our model is the first
Luganda-English NMT model. The bilingual dataset we built will be available to
the public.
- Abstract(参考訳): neural machine translation (nmt)は大規模なデータセットで大きな成功を収めているため、nmtは高リソース言語を前提としている。
これは、高品質な並列コーパスがないために、lugandaのような低リソース言語を継続的に支えているため、この執筆時点では「google translate」でさえlugandaに役立たない。
本稿では,3つの異なるオープンソースコーパスに基づいて,luganda と english のペアセンテンス 41,070 の並列コーパスを構築する。
そして、データセット上で超パラメータ探索を用いてNMTモデルを訓練する。
BLEUのスコアはルガンダから英語まで21.28点、英語からルガンダまで17.47点だった。
いくつかの翻訳例は翻訳の質の高さを示している。
我々のモデルは最初のルガンダ英語NMTモデルであると信じている。
私たちが構築したバイリンガルデータセットが一般公開される予定です。
関連論文リスト
- A Tulu Resource for Machine Translation [3.038642416291856]
英語・トゥルー語翻訳のための最初の並列データセットを提案する。
トゥル語はインド南西部で約250万人が話されている。
パラレル・イングリッシュ・トゥルデータを使わずにトレーニングした我々のイングリッシュ・トゥルシステムは、Google Translateを19のBLEUポイントで上回っている。
論文 参考訳(メタデータ) (2024-03-28T04:30:07Z) - Chain-of-Dictionary Prompting Elicits Translation in Large Language Models [100.47154959254937]
大規模言語モデル(LLM)は多言語ニューラルマシン翻訳(MNMT)において驚くほど優れた性能を示した
入力単語のサブセットに対する多言語辞書の連鎖による事前知識でLLMを拡張して翻訳能力を引き出す新しい方法であるCoDを提案する。
論文 参考訳(メタデータ) (2023-05-11T05:19:47Z) - A Bilingual Parallel Corpus with Discourse Annotations [82.07304301996562]
本稿では,Jiang et al. (2022)で最初に導入された大きな並列コーパスであるBWBと,注釈付きテストセットについて述べる。
BWBコーパスは、専門家によって英語に翻訳された中国の小説で構成されており、注釈付きテストセットは、様々な談話現象をモデル化する機械翻訳システムの能力を調査するために設計されている。
論文 参考訳(メタデータ) (2022-10-26T12:33:53Z) - Bridging the Data Gap between Training and Inference for Unsupervised
Neural Machine Translation [49.916963624249355]
UNMTモデルは、翻訳されたソースと推論中の自然言語で擬似並列データに基づいて訓練される。
トレーニングと推論のソース差はUNMTモデルの翻訳性能を妨げている。
本稿では、擬似並列データ自然言語を同時に用いたオンライン自己学習手法を提案する。
論文 参考訳(メタデータ) (2022-03-16T04:50:27Z) - Efficient Inference for Multilingual Neural Machine Translation [60.10996883354372]
我々は、その品質を劣化させることなく、多言語NMTを推論で高速にする方法をいくつか検討する。
実験により,浅いデコーダと語彙フィルタを組み合わせることで,翻訳品質を損なうことなく2倍以上の高速な推論が可能であることが確認された。
論文 参考訳(メタデータ) (2021-09-14T13:28:13Z) - ChrEnTranslate: Cherokee-English Machine Translation Demo with Quality
Estimation and Corrective Feedback [70.5469946314539]
ChrEnTranslateは、英語と絶滅危惧言語チェロキーとの翻訳のためのオンライン機械翻訳デモシステムである。
統計モデルとニューラルネットワークモデルの両方をサポートし、信頼性をユーザに通知するための品質評価を提供する。
論文 参考訳(メタデータ) (2021-07-30T17:58:54Z) - Beyond English-Centric Multilingual Machine Translation [74.21727842163068]
我々は真の多言語多言語翻訳モデルを作成し、100言語のいずれかのペア間で直接翻訳できる。
大規模なマイニングによって生成された教師付きデータで、数千の言語方向をカバーするトレーニングデータセットを構築し、オープンソースにしています。
WMTのベストシングルシステムに競争力を持たせながら、非英語の方向を直接翻訳する場合、非英語モデルに焦点をあてると10 BLEU以上のゲインが得られる。
論文 参考訳(メタデータ) (2020-10-21T17:01:23Z) - Complete Multilingual Neural Machine Translation [44.98358050355681]
本稿では、英語中心の並列コーパスを充実させるために、多方向整列例を用いて検討する。
このような接続パターンでMNMTを完全多言語ニューラルネットワーク翻訳(cMNMT)と呼ぶ。
対象言語のみに条件付けされた新たなトレーニングデータサンプリング戦略と組み合わせて、cMNMTは全ての言語ペアに対して競合翻訳品質を得る。
論文 参考訳(メタデータ) (2020-10-20T13:03:48Z) - HausaMT v1.0: Towards English-Hausa Neural Machine Translation [0.012691047660244334]
英語・ハウサ語機械翻訳のベースラインモデルを構築した。
ハーサ語は、アラビア語に次いで世界で2番目に大きいアフロ・アジア語である。
論文 参考訳(メタデータ) (2020-06-09T02:08:03Z) - Luganda Text-to-Speech Machine [1.6042394978941517]
ウガンダでは、ルガンダは最も話されている母国語であり、非公式なコミュニケーションや正式なビジネス取引に使われる。
本研究では、ルガンダ語の構造と構造を分析し、ルガンダ・TSを提案して開発した。
このシステムは、ローカルソースのLuganda言語テキストとオーディオを使用して構築、訓練された。
論文 参考訳(メタデータ) (2020-05-11T21:33:33Z) - Neural Machine Translation for Low-Resourced Indian Languages [4.726777092009554]
機械翻訳は、人間の関与なしにテキストを別の言語に変換する効果的な手法である。
本稿では,NMTを英語・タミル語・英語・マラヤラム語という,最も形態学的に豊かな2つの言語に適用した。
我々は,BPE(Byte-Pair-Encoded)とMultiBPE(MultiBPE)を併用したマルチヘッド自己アテンション(Multihead self-attention)を用いた新しいNMTモデルを提案し,効率的な翻訳システムを開発した。
論文 参考訳(メタデータ) (2020-04-19T17:29:34Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。