論文の概要: The VolcTrans System for WMT22 Multilingual Machine Translation Task
- arxiv url: http://arxiv.org/abs/2210.11599v1
- Date: Thu, 20 Oct 2022 21:18:03 GMT
- ステータス: 処理完了
- システム内更新日: 2022-10-24 14:25:29.769554
- Title: The VolcTrans System for WMT22 Multilingual Machine Translation Task
- Title(参考訳): WMT22多言語機械翻訳タスクのためのVolcTransシステム
- Authors: Xian Qian, Kai Hu, Jiaqiang Wang, Yifeng Liu, Xingyuan Pan, Jun Cao,
Mingxuan Wang
- Abstract要約: VolcTransは、複数のソースのデータに基づいてトレーニングされたトランスフォーマーベースの多言語モデルである。
一連のルールはバイリンガルテキストとモノリンガルテキストの両方をきれいにする。
このシステムは17.3 BLEU、21.9 spBLEU、41.9 chrF2++を平均して達成している。
- 参考スコア(独自算出の注目度): 24.300726424411007
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: This report describes our VolcTrans system for the WMT22 shared task on
large-scale multilingual machine translation. We participated in the
unconstrained track which allows the use of external resources. Our system is a
transformerbased multilingual model trained on data from multiple sources
including the public training set from the data track, NLLB data provided by
Meta AI, self-collected parallel corpora, and pseudo bitext from
back-translation. A series of heuristic rules clean both bilingual and
monolingual texts. On the official test set, our system achieves 17.3 BLEU,
21.9 spBLEU, and 41.9 chrF2++ on average over all language pairs. The average
inference speed is 11.5 sentences per second using a single Nvidia Tesla V100
GPU. Our code and trained models are available at
https://github.com/xian8/wmt22
- Abstract(参考訳): 本稿では,大規模多言語機械翻訳におけるWMT22共有タスクのためのVolcTransシステムについて述べる。
外部資源の利用を可能にする未整備の軌道に参加した。
我々のシステムは、データトラックからの公開トレーニングセット、Meta AIが提供するNLLBデータ、自己コンパイル並列コーパス、バックトランスレーションからの擬似bitextを含む、複数のソースのデータに基づいて訓練されたトランスフォーマーベースの多言語モデルである。
一連のヒューリスティックな規則はバイリンガルテキストとモノリンガルテキストの両方をきれいにする。
公式テストセットでは,全言語対の平均17.3 BLEU,21.9 spBLEU,41.9 chrF2++を達成した。
平均的な推論速度は、nvidia tesla v100 gpuで毎秒11.5センテンスである。
私たちのコードとトレーニングされたモデルはhttps://github.com/xian8/wmt22で利用可能です。
関連論文リスト
- A Tulu Resource for Machine Translation [3.038642416291856]
英語・トゥルー語翻訳のための最初の並列データセットを提案する。
トゥル語はインド南西部で約250万人が話されている。
パラレル・イングリッシュ・トゥルデータを使わずにトレーニングした我々のイングリッシュ・トゥルシステムは、Google Translateを19のBLEUポイントで上回っている。
論文 参考訳(メタデータ) (2024-03-28T04:30:07Z) - Tencent's Multilingual Machine Translation System for WMT22 Large-Scale
African Languages [47.06332023467713]
本稿では,テンセントのWMT22における多言語機械翻訳システムについて述べる。
我々は,多言語ニューラルマシン翻訳(MNMT)モデルを開発するために,データ拡張,分散ロバストな最適化,言語ファミリグループ化を採用する。
論文 参考訳(メタデータ) (2022-10-18T07:22:29Z) - Multilingual Bidirectional Unsupervised Translation Through Multilingual
Finetuning and Back-Translation [23.401781865904386]
本研究では,NMTモデルをトレーニングし,未知の言語を英語と英語の両方に翻訳する2段階のアプローチを提案する。
最初の段階では、事前訓練されたXLM-RおよびRoBERTa重みにエンコーダデコーダモデルを初期化し、40言語で並列データに対して多言語微調整を行う。
第2段階では、この一般化機能を活用して、単言語データセットから合成並列データを生成し、その後、連続した後方翻訳ラウンドで双方向に訓練する。
論文 参考訳(メタデータ) (2022-09-06T21:20:41Z) - Building Multilingual Machine Translation Systems That Serve Arbitrary
X-Y Translations [75.73028056136778]
任意のX-Y翻訳方向に対応するMNMTシステムを実際に構築する方法を示す。
また,本提案手法を,実用的な展開シナリオに対応するため,極めて大規模なデータ設定で検討した。
論文 参考訳(メタデータ) (2022-06-30T02:18:15Z) - Multilingual Machine Translation Systems from Microsoft for WMT21 Shared
Task [95.06453182273027]
本報告では、大規模多言語機械翻訳におけるWMT21共有タスクのためのMicrosoftの機械翻訳システムについて述べる。
共有タスクへのモデル提出はDeltaLMnotefooturlhttps://aka.ms/deltalmで行われました。
最終提出は自動評価基準で3トラックにランクインした。
論文 参考訳(メタデータ) (2021-11-03T09:16:17Z) - Towards Making the Most of Multilingual Pretraining for Zero-Shot Neural
Machine Translation [74.158365847236]
SixT++は、100のソース言語をサポートする強力な多言語NMTモデルであるが、たった6つのソース言語からの並列データセットで一度トレーニングされている。
CRISSとm2m-100は、それぞれ7.2と5.0BLEUの2つの強い多言語NMTシステムより大幅に優れていた。
論文 参考訳(メタデータ) (2021-10-16T10:59:39Z) - XLM-T: Scaling up Multilingual Machine Translation with Pretrained
Cross-lingual Transformer Encoders [89.0059978016914]
そこで本稿では,既製のクロスリンガルトランスフォーマでモデルを初期化し,多言語並列データで微調整するXLM-Tを提案する。
この単純な方法は,10対のWMTデータセットと94対のOPUS-100コーパスにおいて,大幅な改善を実現する。
論文 参考訳(メタデータ) (2020-12-31T11:16:51Z) - Beyond English-Centric Multilingual Machine Translation [74.21727842163068]
我々は真の多言語多言語翻訳モデルを作成し、100言語のいずれかのペア間で直接翻訳できる。
大規模なマイニングによって生成された教師付きデータで、数千の言語方向をカバーするトレーニングデータセットを構築し、オープンソースにしています。
WMTのベストシングルシステムに競争力を持たせながら、非英語の方向を直接翻訳する場合、非英語モデルに焦点をあてると10 BLEU以上のゲインが得られる。
論文 参考訳(メタデータ) (2020-10-21T17:01:23Z) - Pre-training Multilingual Neural Machine Translation by Leveraging
Alignment Information [72.2412707779571]
mRASPは、汎用多言語ニューラルマシン翻訳モデルを事前訓練するためのアプローチである。
我々は,低,中,豊かな資源を含む多種多様な環境における42の翻訳方向の実験を行い,エキゾチックな言語対への変換を行った。
論文 参考訳(メタデータ) (2020-10-07T03:57:54Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。