論文の概要: NVIDIA NeMo Neural Machine Translation Systems for English-German and
English-Russian News and Biomedical Tasks at WMT21
- arxiv url: http://arxiv.org/abs/2111.08634v1
- Date: Tue, 16 Nov 2021 17:24:11 GMT
- ステータス: 処理完了
- システム内更新日: 2021-11-17 13:44:09.517797
- Title: NVIDIA NeMo Neural Machine Translation Systems for English-German and
English-Russian News and Biomedical Tasks at WMT21
- Title(参考訳): NVIDIA NeMo Neural Machine Translation System for English-German and English- Russian News and Biomedical Tasks at WMT21
- Authors: Sandeep Subramanian, Oleksii Hrinchuk, Virginia Adams, Oleksii
Kuchaiev
- Abstract要約: 本稿では,WMT21ニュースおよびバイオメディカル共有翻訳タスクの制約データトラックに対するNVIDIA NeMoのニューラルマシン翻訳システムの概要について述べる。
WMT'20 En-De テストでは, 昨年の38.8 のタスクから, 最多の38.8 のサトレBLEU スコアを達成した。
我々のバイオメディカル・タスクであるRu-EnとEn-Ruは、それぞれWMT'20バイオメディカル・タスク・テストセットでBLEUスコア43.8と40.3に達し、前年度のベスト・サブミッションを上回った。
- 参考スコア(独自算出の注目度): 9.6802854608431
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: This paper provides an overview of NVIDIA NeMo's neural machine translation
systems for the constrained data track of the WMT21 News and Biomedical Shared
Translation Tasks. Our news task submissions for English-German (En-De) and
English-Russian (En-Ru) are built on top of a baseline transformer-based
sequence-to-sequence model. Specifically, we use a combination of 1) checkpoint
averaging 2) model scaling 3) data augmentation with backtranslation and
knowledge distillation from right-to-left factorized models 4) finetuning on
test sets from previous years 5) model ensembling 6) shallow fusion decoding
with transformer language models and 7) noisy channel re-ranking. Additionally,
our biomedical task submission for English-Russian uses a biomedically biased
vocabulary and is trained from scratch on news task data, medically relevant
text curated from the news task dataset, and biomedical data provided by the
shared task. Our news system achieves a sacreBLEU score of 39.5 on the WMT'20
En-De test set outperforming the best submission from last year's task of 38.8.
Our biomedical task Ru-En and En-Ru systems reach BLEU scores of 43.8 and 40.3
respectively on the WMT'20 Biomedical Task Test set, outperforming the previous
year's best submissions.
- Abstract(参考訳): 本稿では,WMT21ニュースおよびバイオメディカル共有翻訳タスクの制約データトラックに対するNVIDIA NeMoのニューラルマシン翻訳システムの概要について述べる。
英語-ドイツ語(En-De)と英語-ロシア語(En-Ru)のニュースタスクは,ベースライントランスフォーマーに基づくシーケンス・ツー・シーケンスモデル上に構築されている。
具体的には 組み合わせて
1)チェックポイント平均化
2)モデルスケーリング
3) 左右因数分解モデルによる逆翻訳・知識蒸留によるデータ増大
4 前年の試験セットの微調整
5)モデルアンサンブル
6)トランスフォーマー言語モデルを用いた浅い核融合復号
7) ノイズチャネルの再ランキング。
さらに, 英語-ロシア語における生物医学的タスクの提出は, 生物医学的偏りのある語彙を用い, ニュースタスクデータ, ニュースタスクデータセットから収集された医学的関連テキスト, 共有タスクによって提供される生体医学的データからスクラッチから訓練される。
WMT'20 En-De テストでは, 昨年の38.8 のタスクから, 最多の38.8 のサトレBLEU スコアを達成した。
バイオメディカルタスクru-enとen-ruシステムは、wmt'20バイオメディカルタスクテストセットでそれぞれ43.8と40.3のbleuスコアに達し、前年のベストサブミッションを上回っています。
関連論文リスト
- Summer: WeChat Neural Machine Translation Systems for the WMT22
Biomedical Translation Task [54.63368889359441]
本稿では,WeChatのWMT 2022への参加について紹介する。
我々のシステムはTransformerをベースにしており、翻訳の質を向上させるためにいくつかの異なるTransformer構造を使用している。
われわれの中国の$to$Englishシステムは、Summerと呼ばれ、すべての応募の中でBLEUのスコアが最も高い。
論文 参考訳(メタデータ) (2022-11-28T03:10:50Z) - BJTU-WeChat's Systems for the WMT22 Chat Translation Task [66.81525961469494]
本稿では,WMT'22チャット翻訳タスクに対して,北京地東大学とWeChat AIを共同で提案する。
Transformerに基づいて、いくつかの有効な変種を適用します。
本システムでは,0.810と0.946のCOMETスコアを達成している。
論文 参考訳(メタデータ) (2022-11-28T02:35:04Z) - Overview of the Shared Task on Fake News Detection in Urdu at FIRE 2021 [55.41644538483948]
共有タスクの目標は、コミュニティにこの重要な問題を解決するための効率的な方法を考え出すことを動機付けることです。
トレーニングセットには1300件の注釈付きニュース記事、750件のリアルニュース、550件のフェイクニュース、300件のニュース記事、200件のリアルニュース、100件のフェイクニュースが含まれている。
F1-macroスコアは0.679で、これは過去最高の0.907 F1-macroよりも低かった。
論文 参考訳(メタデータ) (2022-07-11T18:58:36Z) - Developing neural machine translation models for Hungarian-English [0.0]
私は、Hunglish2コーパスを使用して、英語とハンガリー語とハンガリー英語のニューラルマシン翻訳タスクのモデルをトレーニングします。
ハンガリー語で最良のモデルはBLEUスコア33.9、英語で最高のモデルはBLEUスコア28.6である。
論文 参考訳(メタデータ) (2021-11-07T14:35:00Z) - WeChat Neural Machine Translation Systems for WMT21 [22.51171167457826]
本稿では,WMT 2021 WeChatにおけるAIの参加について紹介する。
我々は、データフィルタリング、大規模合成データ生成、高度な微調整アプローチ、そしてSelf-BLEUベースのモデルアンサンブルを取り入れている。
日本語・中国語・日本語・英語・ドイツ語にそれぞれ36.9点,46.9点,27.8点,31.3点のBLEUスコアが得られた。
論文 参考訳(メタデータ) (2021-08-05T06:38:48Z) - SJTU-NICT's Supervised and Unsupervised Neural Machine Translation
Systems for the WMT20 News Translation Task [111.91077204077817]
我々は英語・中国語・英語・ポーランド語・ドイツ語・アッパー・ソルビアンという3つの言語対の4つの翻訳指導に参加した。
言語ペアの異なる条件に基づいて、我々は多様なニューラルネットワーク翻訳(NMT)技術の実験を行った。
私たちの提出書では、主要なシステムは英語、中国語、ポーランド語、英語、ドイツ語から上セルビア語への翻訳の道順で第一位を獲得しました。
論文 参考訳(メタデータ) (2020-10-11T00:40:05Z) - WeChat Neural Machine Translation Systems for WMT20 [61.03013964996131]
本システムは,有効な変種とDTMTアーキテクチャを備えたTransformerをベースとしている。
実験では,データ選択,複数の合成データ生成手法,高度な微調整手法,自己視覚モデルアンサンブルを用いた。
制約のある中国語と英語のシステムでは36.9のケースセンシティブなBLEUスコアが得られます。
論文 参考訳(メタデータ) (2020-10-01T08:15:09Z) - A Multilingual Neural Machine Translation Model for Biomedical Data [84.17747489525794]
生物医学領域におけるテキストの翻訳に使用できる多言語ニューラルマシン翻訳モデルをリリースする。
このモデルは5つの言語(フランス語、ドイツ語、イタリア語、韓国語、スペイン語)から英語に翻訳できる。
ドメインタグを使用して、大量のジェネリックおよびバイオメディカルデータをトレーニングする。
論文 参考訳(メタデータ) (2020-08-06T21:26:43Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。