論文の概要: MENYO-20k: A Multi-domain English-Yor\`ub\'a Corpus for Machine
Translation and Domain Adaptation
- arxiv url: http://arxiv.org/abs/2103.08647v1
- Date: Mon, 15 Mar 2021 18:52:32 GMT
- ステータス: 処理完了
- システム内更新日: 2021-03-18 01:21:39.580998
- Title: MENYO-20k: A Multi-domain English-Yor\`ub\'a Corpus for Machine
Translation and Domain Adaptation
- Title(参考訳): MENYO-20k: 機械翻訳とドメイン適応のための多ドメイン英語Yor\`ub\'aコーパス
- Authors: David I. Adelani, Dana Ruiter, Jesujoba O. Alabi, Damilola Adebonojo,
Adesina Ayeni, Mofe Adeyemi, Ayodele Awokoya, Cristina Espa\~na-Bonet
- Abstract要約: ベンチマークのための標準列車試験スプリットを備えた低リソースYorub'a- English(yo-en)言語ペアのための,最初のマルチドメイン並列コーパスであるMENYO-20kを提案する。
bleu $+9.9$ と$8.6$ (en2yo) はfacebookの m2m-100 と google multilingual nmt と比較して大きく上昇している。
- 参考スコア(独自算出の注目度): 1.4553698107056112
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Massively multilingual machine translation (MT) has shown impressive
capabilities, including zero and few-shot translation between low-resource
language pairs. However, these models are often evaluated on high-resource
languages with the assumption that they generalize to low-resource ones. The
difficulty of evaluating MT models on low-resource pairs is often due the lack
of standardized evaluation datasets. In this paper, we present MENYO-20k, the
first multi-domain parallel corpus for the low-resource Yor\`ub\'a--English
(yo--en) language pair with standardized train-test splits for benchmarking. We
provide several neural MT (NMT) benchmarks on this dataset and compare to the
performance of popular pre-trained (massively multilingual) MT models, showing
that, in almost all cases, our simple benchmarks outperform the pre-trained MT
models. A major gain of BLEU $+9.9$ and $+8.6$ (en2yo) is achieved in
comparison to Facebook's M2M-100 and Google multilingual NMT respectively when
we use MENYO-20k to fine-tune generic models.
- Abstract(参考訳): 大規模な多言語機械翻訳(mt)は、低リソース言語ペア間のゼロおよびマイショット翻訳など、素晴らしい機能を示している。
しかし、これらのモデルは、低リソース言語に一般化するという仮定で、高リソース言語でしばしば評価される。
低リソースペアでのMTモデル評価の難しさは、標準化された評価データセットの欠如によることが多い。
本稿では,ローリソースyor\ `ub\'a- english (yo-en) 言語ペアに対して,ベンチマークのための標準トレインテスト分割を用いた,最初のマルチドメイン並列コーパスであるmenyo-20kを提案する。
このデータセット上でいくつかのニューラルMT(NMT)ベンチマークを提供し、一般的な事前学習(多言語)MTモデルの性能と比較し、ほぼすべてのケースにおいて、我々の単純なベンチマークが事前訓練されたMTモデルより優れていることを示す。
BLEU $+9.9$と$+8.6$(en2yo)の主な利益は、MENYO-20kを使用してジェネリックモデルを微調整する際に、FacebookのM2M-100とGoogleの多言語NTTと比較して達成される。
関連論文リスト
- Towards Zero-Shot Multimodal Machine Translation [64.9141931372384]
本稿では,マルチモーダル機械翻訳システムの学習において,完全教師付きデータの必要性を回避する手法を提案する。
我々の手法はZeroMMTと呼ばれ、2つの目的の混合で学習することで、強いテキストのみの機械翻訳(MT)モデルを適応させることである。
本手法が完全に教師付きトレーニングデータを持たない言語に一般化されることを証明するため,CoMMuTE評価データセットをアラビア語,ロシア語,中国語の3言語に拡張した。
論文 参考訳(メタデータ) (2024-07-18T15:20:31Z) - Machine Translation for Ge'ez Language [0.0]
Ge'ezのような低リソース言語の機械翻訳は、語彙外単語、ドメインミスマッチ、ラベル付きトレーニングデータの欠如といった課題に直面している。
言語関連性に基づく多言語ニューラルマシン翻訳(MNMT)モデルを開発した。
また,最新のLCMであるGPT-3.5を用いて,ファジィマッチングを用いた数ショット翻訳実験を行った。
論文 参考訳(メタデータ) (2023-11-24T14:55:23Z) - Distilling Efficient Language-Specific Models for Cross-Lingual Transfer [75.32131584449786]
多言語変換器(MMT)は多言語間変換学習に広く用いられている。
MMTの言語カバレッジは、モデルサイズ、推論時間、エネルギ、ハードウェアコストの点で、必要以上にコストがかかる。
本稿では,MMTから圧縮された言語固有のモデルを抽出し,言語間移動のための元のMTのキャパシティを保持することを提案する。
論文 参考訳(メタデータ) (2023-06-02T17:31:52Z) - Robust Domain Adaptation for Pre-trained Multilingual Neural Machine
Translation Models [0.0]
本稿では,組込み凍結と対向損失を組み合わせた汎用mNMTの微調整手法を提案する。
実験では、全ての言語対に対する汎用ドメインの初期性能を最小限に抑えながら、特殊なデータの性能を向上させることを示した。
論文 参考訳(メタデータ) (2022-10-26T18:47:45Z) - SMaLL-100: Introducing Shallow Multilingual Machine Translation Model
for Low-Resource Languages [102.50127671423752]
本稿では,100言語をカバーするM2M-100(12B)機械翻訳モデルの蒸留版であるSMaLL-100を紹介する。
我々はSMALL-100を全ての言語対を均一にサンプリングすることで訓練し、低リソース言語の性能を維持することに重点を置いている。
我々のモデルはM2M-100(1.2B)に匹敵する結果を得るが、推論では3.6倍小さく、4.3倍高速である。
論文 参考訳(メタデータ) (2022-10-20T22:32:29Z) - Evaluating Multiway Multilingual NMT in the Turkic Languages [11.605271847666005]
本研究では、テュルク語族に属する22言語における機械翻訳システムの訓練と評価のための最先端手法の評価を行う。
我々は,26のバイリンガルベースラインと,コーパスを用いたマルチウェイニューラルMT(MNMT)モデルを訓練し,自動測定と人的評価を用いた広範囲な解析を行った。
MNMTモデルは、ドメイン外テストセットのほとんど全てのバイリンガルベースラインより優れており、単一のペアの下流タスクでモデルを微調整することで、大きなパフォーマンス向上がもたらされる。
論文 参考訳(メタデータ) (2021-09-13T19:01:07Z) - Pre-training Multilingual Neural Machine Translation by Leveraging
Alignment Information [72.2412707779571]
mRASPは、汎用多言語ニューラルマシン翻訳モデルを事前訓練するためのアプローチである。
我々は,低,中,豊かな資源を含む多種多様な環境における42の翻訳方向の実験を行い,エキゾチックな言語対への変換を行った。
論文 参考訳(メタデータ) (2020-10-07T03:57:54Z) - Improving Massively Multilingual Neural Machine Translation and
Zero-Shot Translation [81.7786241489002]
ニューラルネットワーク翻訳(NMT)の多言語モデルは理論的には魅力的であるが、しばしばバイリンガルモデルに劣る。
我々は,多言語NMTが言語ペアをサポートするためにより強力なモデリング能力を必要とすることを論じる。
未知のトレーニング言語ペアの翻訳を強制するために,ランダムなオンライン翻訳を提案する。
論文 参考訳(メタデータ) (2020-04-24T17:21:32Z) - Towards Making the Most of Context in Neural Machine Translation [112.9845226123306]
我々は、これまでの研究がグローバルな文脈をはっきりと利用しなかったと論じている。
本研究では,各文の局所的文脈を意図的にモデル化する文書レベルNMTフレームワークを提案する。
論文 参考訳(メタデータ) (2020-02-19T03:30:00Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。