論文の概要: Evaluating Multiway Multilingual NMT in the Turkic Languages
- arxiv url: http://arxiv.org/abs/2109.06262v1
- Date: Mon, 13 Sep 2021 19:01:07 GMT
- ステータス: 処理完了
- システム内更新日: 2021-09-16 07:04:44.368299
- Title: Evaluating Multiway Multilingual NMT in the Turkic Languages
- Title(参考訳): トルコ語におけるマルチウェイ多言語NMTの評価
- Authors: Jamshidbek Mirzakhalov, Anoop Babu, Aigiz Kunafin, Ahsan Wahab, Behzod
Moydinboyev, Sardana Ivanova, Mokhiyakhon Uzokova, Shaxnoza Pulatova, Duygu
Ataman, Julia Kreutzer, Francis Tyers, Orhan Firat, John Licato, Sriram
Chellappan
- Abstract要約: 本研究では、テュルク語族に属する22言語における機械翻訳システムの訓練と評価のための最先端手法の評価を行う。
我々は,26のバイリンガルベースラインと,コーパスを用いたマルチウェイニューラルMT(MNMT)モデルを訓練し,自動測定と人的評価を用いた広範囲な解析を行った。
MNMTモデルは、ドメイン外テストセットのほとんど全てのバイリンガルベースラインより優れており、単一のペアの下流タスクでモデルを微調整することで、大きなパフォーマンス向上がもたらされる。
- 参考スコア(独自算出の注目度): 11.605271847666005
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Despite the increasing number of large and comprehensive machine translation
(MT) systems, evaluation of these methods in various languages has been
restrained by the lack of high-quality parallel corpora as well as engagement
with the people that speak these languages. In this study, we present an
evaluation of state-of-the-art approaches to training and evaluating MT systems
in 22 languages from the Turkic language family, most of which being extremely
under-explored. First, we adopt the TIL Corpus with a few key improvements to
the training and the evaluation sets. Then, we train 26 bilingual baselines as
well as a multi-way neural MT (MNMT) model using the corpus and perform an
extensive analysis using automatic metrics as well as human evaluations. We
find that the MNMT model outperforms almost all bilingual baselines in the
out-of-domain test sets and finetuning the model on a downstream task of a
single pair also results in a huge performance boost in both low- and
high-resource scenarios. Our attentive analysis of evaluation criteria for MT
models in Turkic languages also points to the necessity for further research in
this direction. We release the corpus splits, test sets as well as models to
the public.
- Abstract(参考訳): 大規模かつ包括的な機械翻訳(MT)システムの増加にもかかわらず、これらの手法の評価は、高品質な並列コーパスの欠如と、これらの言語を話す人々との関わりによって抑制されてきた。
本研究では,テュルク語族に属する22言語を対象に,MTシステムの訓練と評価のための最先端手法の評価を行った。
まず、トレーニングと評価セットにいくつかの重要な改善を加えたTIL Corpusを採用します。
次に,26のバイリンガルベースラインと,そのコーパスを用いたマルチウェイニューラルMT(MNMT)モデルを訓練し,自動測定と人的評価を用いた広範囲な解析を行った。
MNMTモデルはドメイン外のテストセットでほとんどすべてのバイリンガルベースラインを上回り、単一のペアの下流タスクでモデルを微調整することで、低リソースと高リソースの両方のシナリオにおいて大きなパフォーマンス向上をもたらす。
トルコ語におけるMTモデルの評価基準の注意深い分析は、この方向のさらなる研究の必要性も指摘している。
コーパスの分割、テストセット、モデルも公開しています。
関連論文リスト
- Revisiting Machine Translation for Cross-lingual Classification [91.43729067874503]
この分野のほとんどの研究は、機械翻訳コンポーネントではなく多言語モデルに焦点を当てている。
より強力なMTシステムを用いて、原文のトレーニングと機械翻訳テキストの推論のミスマッチを緩和することにより、翻訳テストは以前想定していたよりも大幅に優れていることを示す。
論文 参考訳(メタデータ) (2023-05-23T16:56:10Z) - Evaluating and Improving the Coreference Capabilities of Machine
Translation Models [30.60934078720647]
機械翻訳は幅広い言語能力を必要とする。
現在のエンドツーエンドモデルは、バイリンガルコーパスで一致した文を観察することで暗黙的に学習することが期待されている。
論文 参考訳(メタデータ) (2023-02-16T18:16:09Z) - High-resource Language-specific Training for Multilingual Neural Machine
Translation [109.31892935605192]
負の干渉を軽減するために,HLT-MT(High-Resource Language-specific Training)を用いた多言語翻訳モデルを提案する。
具体的には、まずマルチ言語モデルを高リソースペアでトレーニングし、デコーダの上部にある言語固有のモジュールを選択する。
HLT-MTは、高リソース言語から低リソース言語への知識伝達のために、利用可能なすべてのコーパスでさらに訓練されている。
論文 参考訳(メタデータ) (2022-07-11T14:33:13Z) - Analyzing the Mono- and Cross-Lingual Pretraining Dynamics of
Multilingual Language Models [73.11488464916668]
本研究では,多言語事前学習プロセスのダイナミクスについて検討する。
我々は,XLM-Rプレトレーニング全体から抽出したチェックポイントを,一連の言語的タスクを用いて探索する。
分析の結果,より複雑なものよりも低レベルな言語スキルが得られ,早期に高い言語性能が得られることがわかった。
論文 参考訳(メタデータ) (2022-05-24T03:35:00Z) - A Large-Scale Study of Machine Translation in the Turkic Languages [7.3458368273762815]
ニューラルマシン翻訳(NMT)の最近の進歩は、機械翻訳システムの品質を、競争力のあるシステムを構築するために広く採用されつつあるところまで押し上げている。
しかし、まだNMTのメリットを享受できていない言語はたくさんあります。
本稿では,テュルク語族におけるMTの実践的応用に関する,最初の大規模ケーススタディを提供する。
論文 参考訳(メタデータ) (2021-09-09T23:56:30Z) - Improving the Lexical Ability of Pretrained Language Models for
Unsupervised Neural Machine Translation [127.81351683335143]
クロスリンガルプリトレーニングは、2つの言語の語彙的表現と高レベル表現を整列させるモデルを必要とする。
これまでの研究では、これは表現が十分に整合していないためです。
本稿では,語彙レベルの情報で事前学習するバイリンガルマスク言語モデルを,型レベルのクロスリンガルサブワード埋め込みを用いて強化する。
論文 参考訳(メタデータ) (2021-03-18T21:17:58Z) - MENYO-20k: A Multi-domain English-Yor\`ub\'a Corpus for Machine
Translation and Domain Adaptation [1.4553698107056112]
ベンチマークのための標準列車試験スプリットを備えた低リソースYorub'a- English(yo-en)言語ペアのための,最初のマルチドメイン並列コーパスであるMENYO-20kを提案する。
bleu $+9.9$ と$8.6$ (en2yo) はfacebookの m2m-100 と google multilingual nmt と比較して大きく上昇している。
論文 参考訳(メタデータ) (2021-03-15T18:52:32Z) - Pre-training Multilingual Neural Machine Translation by Leveraging
Alignment Information [72.2412707779571]
mRASPは、汎用多言語ニューラルマシン翻訳モデルを事前訓練するためのアプローチである。
我々は,低,中,豊かな資源を含む多種多様な環境における42の翻訳方向の実験を行い,エキゾチックな言語対への変換を行った。
論文 参考訳(メタデータ) (2020-10-07T03:57:54Z) - COMET: A Neural Framework for MT Evaluation [8.736370689844682]
COMETは多言語機械翻訳評価モデルのトレーニングのためのニューラルネットワークフレームワークである。
本フレームワークは、MT品質をより正確に予測するために、ソース入力とターゲット言語参照変換の両方からの情報を利用する。
我々のモデルは、WMT 2019 Metricsの共有タスクにおいて、新しい最先端のパフォーマンスを実現し、ハイパフォーマンスシステムに対する堅牢性を実証する。
論文 参考訳(メタデータ) (2020-09-18T18:54:15Z) - Balancing Training for Multilingual Neural Machine Translation [130.54253367251738]
多言語機械翻訳(MT)モデルは、複数の言語に翻訳/翻訳することができる。
標準的なプラクティスは、表現力を高めるために、リソースの少ない言語をアップサンプルすることである。
そこで本研究では,データスコアラによるトレーニングデータの重み付けを自動的に学習する手法を提案する。
論文 参考訳(メタデータ) (2020-04-14T18:23:28Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。