論文の概要、ライセンス

# (参考訳) 資源豊富な機械翻訳のための自己指導型共同訓練 [全文訳有]

Self-supervised and Supervised Joint Training for Resource-rich Machine Translation ( http://arxiv.org/abs/2106.04060v1 )

ライセンス: CC BY 4.0
Yong Cheng, Wei Wang, Lu Jiang, Wolfgang Macherey(参考訳) テキスト表現の自己教師付き事前学習は、低リソースニューラルネットワーク翻訳(NMT)に成功している。 しかし、通常は資源豊富なnmtで顕著な成果を得ることができない。 本稿では,NMTモデルの最適化に自己教師付き学習と教師付き学習を組み合わせた共同学習手法である$F_2$-XEnDecを提案する。 教師付き学習のための補完的な自己教師付き信号を利用するため、NMTモデルはクロスオーバーエンコーダデコーダと呼ばれる新しいプロセスを通じて単言語および並列文から解釈された例に基づいて訓練される。 WMT'14英語-ドイツ語とWMT'14英語-フランス語の2つのリソース豊富な翻訳ベンチマークの実験は、我々の手法がいくつかの強力なベースライン法よりも大幅に改善され、逆翻訳を取り入れた場合の46.19BLEUの技法の新たな状態が得られることを示した。 また,提案手法は,ソーシャルメディアに頻繁に現れる符号スイッチングノイズなどの入力摂動に対するモデルロバスト性を向上させることができることを示す。

Self-supervised pre-training of text representations has been successfully applied to low-resource Neural Machine Translation (NMT). However, it usually fails to achieve notable gains on resource-rich NMT. In this paper, we propose a joint training approach, $F_2$-XEnDec, to combine self-supervised and supervised learning to optimize NMT models. To exploit complementary self-supervised signals for supervised learning, NMT models are trained on examples that are interbred from monolingual and parallel sentences through a new process called crossover encoder-decoder. Experiments on two resource-rich translation benchmarks, WMT'14 English-German and WMT'14 English-French, demonstrate that our approach achieves substantial improvements over several strong baseline methods and obtains a new state of the art of 46.19 BLEU on English-French when incorporating back translation. Results also show that our approach is capable of improving model robustness to input perturbations such as code-switching noise which frequently appears on social media.
公開日: Tue, 8 Jun 2021 02:35:40 GMT

※ 翻訳結果を表に示しています。PDFがオリジナルの論文です。翻訳結果のライセンスはCC BY-SA 4.0です。詳細はトップページをご参照ください。

翻訳結果

    Page: /      
英語(論文から抽出)日本語訳スコア
Self-supervised and Supervised Joint Training for 自己指導型ジョイントトレーニング 0.42
Resource-rich Machine Translation Yong Cheng 1 Wei Wang † Lu Jiang 1 2 Wolfgang Macherey 1 資源豊富な機械翻訳 Yong Cheng 1 Wei Wang ? Lu Jiang 1 2 Wolfgang Macherey 1 0.75
1 2 0 2 n u J 1 2 0 2 n u J 0.85
8 ] L C . s c [ 8 ]LC。 sc [ 0.60
1 v 0 6 0 4 0 1 v 0 6 0 4 0 0.85
. 6 0 1 2 : v i X r a . 6 0 1 2 : v i X r a 0.85
Abstract Self-supervised pre-training of text representations has been successfully applied to lowresource Neural Machine Translation (NMT). 概要 テキスト表現の自己教師付き事前学習は、低リソースニューラルネットワーク翻訳(NMT)に成功している。 0.49
However, it usually fails to achieve notable gains on resource-rich NMT. しかし、通常は資源豊富なnmtで顕著な成果を得ることができない。 0.55
In this paper, we propose a joint training approach, F2-XEnDec, to combine self-supervised and supervised learning to optimize NMT models. 本稿では,NMTモデルの最適化に自己教師付き学習と教師付き学習を組み合わせた共同学習手法F2-XEnDecを提案する。 0.72
To exploit complementary self-supervised signals for supervised learning, NMT models are trained on examples that are interbred from monolingual and parallel sentences through a new process called crossover encoder-decoder. 教師付き学習のための補完的な自己教師付き信号を利用するため、NMTモデルはクロスオーバーエンコーダデコーダと呼ばれる新しいプロセスを通じて単言語および並列文から解釈された例に基づいて訓練される。 0.59
Experiments on two resourcerich translation benchmarks, WMT’14 EnglishGerman and WMT’14 English-French, demonstrate that our approach achieves substantial improvements over several strong baseline methods and obtains a new state-of-the-art of 46.19 BLEU on English-French when incorporating back translation. WMT'14英語とWMT'14英語-フランス語の2つのリソース豊富な翻訳ベンチマークの実験は、我々のアプローチがいくつかの強力なベースライン法よりも大幅に改善され、逆翻訳を取り入れた場合、46.19BLEUの新たな最先端技術が得られることを示した。
訳抜け防止モード: WMT'14英語とWMT'14英語の2つのリソース豊富な翻訳ベンチマークの実験 我々のアプローチは 強力なベースライン法よりも 大幅に改善され 46.19 BLEU - 英語で46.19 BLEU。
0.73
Results also show that our approach is capable of improving model robustness to input perturbations such as code-switching noise which frequently appears on social media. また,提案手法は,ソーシャルメディアに頻繁に現れる符号スイッチングノイズなどの入力摂動に対するモデルロバスト性を向上させることができることを示す。 0.66
1. Introduction Self-supervised pre-training of text representations (Peters et al , 2018; Radford et al , 2018) has achieved tremendous success in natural language processing applications. 1. 導入 テキスト表現の自己教師付き事前トレーニング(Peters et al , 2018; Radford et al , 2018)は自然言語処理アプリケーションで大きな成功を収めた。 0.83
Inspired by BERT (Devlin et al , 2019), recent works attempt to leverage sequence-to-sequence model pre-training for Neural Machine Translation (NMT) (Lewis et al , 2019; Song et al , 2019; Liu et al , 2020b). BERT (Devlin et al , 2019)にインスパイアされた最近の研究は、ニューラルネットワーク翻訳(NMT)のためのシーケンス・ツー・シーケンス・モデルの事前トレーニング(Lewis et al , 2019; Song et al , 2019; Liu et al , 2020b)を活用しようとしている。 0.70
Generally, these methods comprise two stages: pre-training and finetuning. 一般的に、これらの方法は事前訓練と微調整の2段階からなる。 0.54
During the pre-training stage, the model is learned with a self- 事前学習の段階では、モデルが自己で学習される。 0.67
1Google Research, Google LLC, USA 2Language Technologies Institute, Carnegie Mellon University, Pittsburgh, Pennsylvania. 1Google Research, Google LLC, USA 2Language Technologies Institute, カーネギーメロン大学, ペンシルベニア州ピッツバーグ。 0.86
† Work done while at Google Research. 研究はGoogle Researchで行われました。 0.48
Correspondence to: Yong Cheng <chengyong@google.com >. 英訳:yong cheng <chengyong@google.com >。 0.57
Proceedings of the 38 th International Conference on Machine Learning, PMLR 139, 2021. 第38回機械学習国際会議(PMLR 139, 2021)の開催報告 0.68
Copyright 2021 by the author(s). 著作者による著作権2021。 0.53
supervised task on abundant unlabeled data (i.e. 豊富なラベルのないデータ(すなわち 0.46
monolingual sentences). In the second stage, the full or partial model is finetuned on a downstream translation task of labeled data (i.e. モノリンガルの文) 第2段階では、ラベル付きデータの下流翻訳タスク(すなわち、)において、フルまたは部分的なモデルを微調整する。 0.56
parallel sentences). Studies have demonstrated the benefit of pre-training for the low-resource translation task in which the labeled data is limited (Lewis et al , 2019; Song et al , 2019). 平行文)。 ラベル付きデータが制限された低リソース翻訳タスク(lewis et al , 2019; song et al , 2019)の事前学習の利点が実証されている。 0.64
All these successes share the same setup: pre-training on abundant unlabeled data and finetuning on limited labeled data. 豊富なラベルのないデータを事前トレーニングし、制限されたラベル付きデータを微調整する。
訳抜け防止モード: これらすべての成功は、同じ設定を共有している。 ラベル付きデータに精巧に調整します
0.60
In many NMT applications, we are confronted with a different setup where abundant labeled data, e g , millions of parallel sentences, are available for finetuning. 多くのNMTアプリケーションでは、大量のラベル付きデータ、例えば数百万の並列文がファインタニングに利用できるような異なる設定に直面しています。 0.69
For these resource-rich translation tasks, the two-stage approach is less effective and, even worse, sometimes can undermine the performance if improperly utilized (Zhu et al , 2020), in part due to the catastrophic forgetting (French, 1999). これらの資源豊富な翻訳作業では、2段階のアプローチは効果が低く、さらに悪いことに、不適切な利用(Zhu et al , 2020)によってパフォーマンスを損なうことがある(フランス語、1999)。 0.71
More recently, several mitigation techniques have been proposed for the two-stage approach (Edunov et al , 2019; Yang et al , 2019; Zhu et al , 2020), such as freezing the pre-trained representations during finetuning. 最近では、2段階のアプローチ(Edunov et al , 2019; Yang et al , 2019; Zhu et al , 2020)のために、微調整中に事前訓練された表現を凍結するなど、いくつかの緩和技術が提案されている。 0.67
However, these strategies hinder uncovering the full potential of self-supervised learning since the learned representations are either held fixed or slightly tuned in the supervised learning. しかし、これらの戦略は、教師あり学習において、学習された表現が固定的あるいは微調整されるため、自己教師あり学習の潜在可能性を明らかにするのを妨げている。 0.42
In this paper, we study resource-rich machine translation through a different perspective of joint training where, in contrast to the conventional two-stage approaches, we train NMT models in a single stage using the self-supervised objective (on monolingual sentences) in addition to the supervised objective (on parallel sentences). 本稿では,従来の2段階のアプローチとは対照的に,教師付き目的語(並列文)に加えて,自己教師型目的語(単言語文)を用いて一段階のNMTモデルを訓練する。
訳抜け防止モード: 本稿では,共同学習の異なる視点から資源・リッチ機械翻訳について検討する。 従来の2段階のアプローチとは対照的に、自己監督目標を用いて単一段階のNMTモデルを訓練する。 (単言語文) 命令対象(並列文上)に加えて。
0.78
The challenge for this single-stage training paradigm is that self-supervised learning is less useful in joint training because it provides a much weaker learning signal that can be easily dominated by the supervised learning signal in joint training. この単段階学習パラダイムの課題は、共同訓練において教師付き学習信号に容易に支配されるような、より弱い学習信号を提供するので、自己教師付き学習が共同訓練において役に立たないことである。 0.59
As a result, conventional approaches such as combining self-supervised and supervised learning objectives perform not much better than the supervised learning objective by itself. その結果,自己指導型学習目標と教師型学習目標を併用する従来の手法は,教師型学習目標自体よりも優れていた。 0.69
This paper aims at exploiting the complementary signals in self-supervised learning to facilitate supervised learning. 本稿では,自己教師付き学習における補完的信号の活用と教師付き学習の促進を目的とした。 0.48
Inspired by chromosomal crossovers (Rieger et al , 2012), we propose an essential new task called crossover encoderdecoder (or XEnDec) which takes two training examples as inputs (called parents), shuffles their source sentences, 染色体クロスオーバー(Rieger et al , 2012)にインスパイアされたクロスオーバーエンコーダデコーダ(XEnDec)は,入力(親と呼ばれる)として2つのトレーニング例を取り,元の文をシャッフルする。 0.72
英語(論文から抽出)日本語訳スコア
Self-supervised and Supervised Joint Training for Resource-rich Machine Translation 資源豊富な機械翻訳のための自己指導型共同訓練 0.65
and produces a sentence by a mixture decoder model. 混合デコーダモデルによって文を生成する。 0.66
Our method applies XEnDec to “deeply” fuse the monolingual (unlabeled) and parallel (labeled) sentences, thereby producing their first and second filial generation (or F1 and F2 generation). xendec は単言語(ラベルなし)と平行(ラベルなし)の文を「深く」融合させ、第1世代と第2世代(またはf1、f2世代)を生成する。 0.58
As we find that the F2 generation exhibits combinations of traits that differ from those found in the monolingual or the parallel sentence, we train NMT models on the F2 offspring and name our method F2-XEnDec. F2 世代は単言語や並列文とは異なる特徴の組み合わせを示すので、F2 の子孫に NMT モデルを訓練し、F2-XEnDec というメソッドを命名する。 0.74
To the best of our knowledge, the proposed method is among the first NMT models on joint self-supervised and supervised learning, and moreover, the first to demonstrate such joint learning substantially benefits resource-rich machine translation. 我々の知る限り、提案手法は、共同学習における最初のNMTモデルであり、さらに、このような共同学習が資源に富む機械翻訳に大きく貢献することを示す最初の方法である。 0.74
Compared to recent two-stage finetuning approaches (Zhu et al , 2020) and (Yang et al , 2019), our method only needs a single training stage to utilize the complementary signals in self-supervised learning. 近年の2段階ファインタニング手法 (Zhu et al , 2020) や (Yang et al , 2019) と比較して,本手法は自己指導学習において補完的な信号を利用するための訓練段階のみを必要とする。 0.76
Empirically, our results show the proposed single-stage approach achieves comparable or better results than previous methods. 実験により,提案手法は従来手法と同等あるいは良好な結果が得られることを示した。 0.68
In addition, our method improves the robustness of NMT models which is known as a critical deficiency in contemporary NMT systems (cf. さらに, 現代のNMTシステムにおいて, 臨界欠陥として知られるNMTモデルのロバスト性を向上させること (cf。 0.82
Section 4.3). It is noteworthy that none of the two-stage training approaches have ever reported this behavior. 背番号4.3。 注目すべきなのは、2段階のトレーニングアプローチがこの行動を報告したことがないことだ。 0.49
We empirically validate our approach on the WMT’14 English-German and WMT’14 English-French translation benchmarks which yields an improvement of 2.13 and 1.78 BLEU points over the vanilla Transformer model (Ott et al , 2018), respectively. 我々は,バニラ変圧器モデル(ott et al, 2018)よりも2.13点,1.78点向上したwmt’14英語-ドイツ語とwmt’14英語-フランス語翻訳ベンチマークのアプローチを実証的に検証した。 0.66
It achieves a new state-of-the-art of 46.19 BLEU on the WMT’14 English-French translation task with the back translation technique. 46.19 BLEUの新たな最先端技術は、WMT'14の英語とフランス語の翻訳タスクで実現されている。 0.67
In summary, our contributions are as follows: まとめると、我々の貢献は以下の通りである。 0.64
1. We propose a crossover encoder-decoder (XEnDec) which, with appropriate inputs, can reproduce several existing self-supervised and supervised learning objectives. 1. 本稿では,クロスオーバー・エンコーダ・デコーダ (XEnDec) を提案する。
訳抜け防止モード: 1. クロスオーバーエンコーダ-デコーダ(XEnDec )を提案する。 適切な入力で、教師付き学習目標と教師付き学習目標を再現することができる。
0.69
2. We jointly train self-supervised and supervised objectives in a single stage, and show that our method is able to exploit the complementary signals in self-supervised learning to facilitate supervised learning. 2. 我々は,1つの段階において,自己指導・指導対象を共同で訓練し,自己指導学習における補完的信号を利用して教師付き学習を促進できることを示す。 0.73
3. Our approach achieves significant improvements on resource-rich translation tasks and exhibits higher robustness against input perturbations such as codeswitching noise. 3. 提案手法は,リソース豊富な翻訳タスクにおいて大幅な改善を達成し,コードスイッチングノイズなどの入力摂動に対して高い頑健性を示す。 0.70
2. Background 2.1. 2. 背番号2.1。 0.61
Neural Machine Translation ニューラルマシン翻訳 0.64
Under the encoder-decoder paradigm (Bahdanau et al , 2015; Gehring et al , 2017; Vaswani et al , 2017), the conditional probability P (y|x; θ) of a target-language sen- エンコーダ・デコーダパラダイム(Bahdanau et al , 2015; Gehring et al , 2017; Vaswani et al , 2017)の下では、ターゲット言語センの条件付き確率 P (y|x; θ) がある。 0.83
tence y = y1,··· , yJ given a source-language sentence x = x1,··· , xI is modeled as follows: The encoder maps the source sentence x onto a sequence of I word embeddings e(x) = e(x1), ..., e(xI ). テンス y = y1,···· , yj ソース言語文 x = x1,····· が与えられると、xi は次のようにモデル化される: エンコーダはソース文 x を i ワード埋め込みの列 e(x) = e(x1), ..., e(xi ) にマップする。 0.79
Then the word embeddings are encoded into their corresponding continuous hidden representations. その後、単語埋め込みは対応する連続した隠れ表現にエンコードされる。 0.68
The decoder acts as a conditional language model that reads embeddings e(y) for a shifted copy of y along with the aggregated contextual representations c. For clarity, we denote the input and output in the decoder as z and y, i.e., z = (cid:104)s(cid:105), y1,··· , yJ−1, where (cid:104)s(cid:105) is a start symbol. 明確性については、デコーダの入力と出力を z と y 、すなわち z = (cid:104)s (cid:105), y1,·· , yJ−1, ここで (cid:104)s (cid:105) は開始記号である。
訳抜け防止モード: デコーダは条件言語モデルとして機能し、y のシフトしたコピーに対して埋め込み e(y ) を読み込む。 我々はデコーダの入力と出力を z と y と表現します すなわち、z = ( cid:104)s (cid:105 ), y1, · · · である。 yJ−1, where (cid:104)s (cid:105 ) は開始記号である。
0.82
Conditioned on an aggregated contextual representation cj and its partial target input z≤j, the decoder generates y as: 集約された文脈表現 cj とその部分的ターゲット入力 z≤j に基づいて、デコーダは y を次のように生成する。
訳抜け防止モード: 集合的文脈表現 cj とその部分的ターゲット入力 z≤j に条件付けする。 デコーダは y を
0.76
J(cid:89) P (y|x; θ) = j(cid:89) P(y|x; θ) = 0.84
P (yj|z≤j, c; θ). P (yj|z≤j, c; θ)。 0.79
(1) j=1 The aggregated contextual representation c is often calculated by summarizing the sentence x with an attention mechanism (Bahdanau et al , 2015). (1) j=1 集約された文脈表現 c は、文 x を注意機構で要約することによってしばしば計算される(Bahdanau et al , 2015)。 0.71
A byproduct of the attention computation is a noisy alignment matrix A ∈ RJ×I which roughly captures the translation correspondence between target and source words (Garg et al , 2019). 注意計算の副産物はノイズアライメント行列 A ∈ RJ×I であり、ターゲット語とソース語の翻訳対応を大まかに捉えている(Garg et al , 2019)。 0.73
Generally, NMT optimizes the model parameters θ by minimizing the empirical risk over a parallel training set (x, y) ∈ S: 一般に、NMTは平行トレーニングセット (x, y) ∈ S 上の経験的リスクを最小化することでモデルパラメータ θ を最適化する。 0.76
LS (θ) = E (x,y)∈S LS(θ) = E (x,y)ftps 0.67
[(cid:96)(f (x, y; θ), h(y))], [(cid:96)(f (x, y; θ), h(y))] 0.75
(2) where (cid:96) is the cross entropy loss between the model prediction f (x, y; θ) and h(y), and h(y) denotes the sequence of one-hot label vectors with label smoothing in the Transformer (Vaswani et al , 2017). (2) ここで (cid:96) はモデル予測 f (x, y; θ) と h(y) の間のクロスエントロピー損失であり、h(y) は変圧器内のラベル平滑化を伴う 1 つのホットラベルベクトルの列を表す (vaswani et al , 2017)。 0.84
2.2. Pre-training for Neural Machine Translation 2.2. ニューラルマシン翻訳のための事前学習 0.65
Pre-training sequence-to-sequence models for language generation has been shown to be effective for machine translation (Song et al , 2019; Lewis et al , 2019). 言語生成のための事前学習シーケンス・ツー・シーケンスモデルは機械翻訳に有効であることが示されている(Song et al , 2019; Lewis et al , 2019)。 0.70
These methods generally comprise two stages: pre-training and finetuning. これらの方法は通常、事前訓練と微調整の2段階からなる。 0.55
The pre-training takes advantage of an abundant monolingual corpus U = {y} to learn representations through a self-supervised objective called denoising autoencoder (Vincent et al , 2008) which aims at reconstructing the original sentence y from one of its corrupted counterparts. 事前学習は、豊富な単言語コーパス u = {y} を利用して、denoising autoencoder (vincent et al, 2008) と呼ばれる自己教師ありの目的を通して表現を学習する。
訳抜け防止モード: 事前訓練は豊富な単言語コーパス U = { y } を利用して自己指導型オートエンコーダ(Vincent et al, 2008 )による表現学習を行う。 原文のyを 復元することを目的としてる 腐敗した相手から
0.66
Let n(y) be a corrupted copy of y where the function n(·) adds noise and/or masks words. n(y) を y の破損したコピーとし、関数 n(·) は雑音やマスクの単語を加える。 0.80
(n(y), y) constitutes the pseudo parallel data and is fed into the NMT model to compute the reconstruction loss. (n(y), y)は擬似並列データを構成し、NMTモデルに入力されて再構成損失を算出する。 0.77
The self-supervised reconstruction loss over the corpus U is defined as: y∈U[(cid:96)(f (n(y), y; θ), h(y))], コーパスU上の自己監督的再構成損失は、次のように定義される: y⋅U[(cid:96)(f(n(y), y; θ), h(y))] 0.74
LU (θ) = E (3) LU(θ) = E (3) 0.85
The optimal model parameters θ(cid:63) are learned via the selfsupervised loss LU (θ) and used to initialize downstream 最適モデルパラメータθ(cid:63)は自己監督損失LU(θ)を介して学習され、下流を初期化する。 0.71
英語(論文から抽出)日本語訳スコア
Self-supervised and Supervised Joint Training for Resource-rich Machine Translation 資源豊富な機械翻訳のための自己指導型共同訓練 0.65
Figure 1. (a) Illustration of crossover encoder-decoder (XEnDec). 図1。 (a)クロスオーバーエンコーダデコーダ(xendec)のイラスト。 0.75
It takes two training examples (x, y) and (x(cid:48), y(cid:48)) as inputs, and outputs a sentence pair (˜x, ˜y). 入力として2つのトレーニング例 (x, y) と (x(cid:48), y(cid:48)) を取り、文対 (x, y) を出力する。 0.85
(b) Our method applies XEnDec to fuse the monolingual (blue) and parallel sentences (red). b) 本手法では, モノリンガル (青) と並列文 (赤) を融合するために XEnDec を適用する。 0.63
In the first generation, F1-XEnDec generates (n(yu), yu) incurring a self-supervised loss LF1, where (n(yu) is the function discussed in Section 2.2 that corrupts the monolingual sentence yu. 第1世代では、F1-XEnDecは(n(yu,yu)を生成し、(n(yu))は単言語文uを破損させる第2節2で議論される関数である。 0.69
F2-XEnDec applies another round of XEnDec to incorporate parallel data (xp, yp) to get the F2 output (˜x, ˜y). F2-XEnDecはXEnDecの別のラウンドを適用し、並列データ(xp, yp)を組み込んでF2出力(x, y)を得る。 0.76
yu: a monolingual sentence. yu mask: a sentence of length |yu| containing only “(cid:104)mask(cid:10 5)” tokens. yu: 一言一句。 yu mask: "(cid:104)mask (cid:105)"トークンのみを含む長さ |yu| の文。 0.68
noise: a sentence generated by adding non-masking noise to yu. 騒音:ユに非マスキング音を加えることによって生じる文。 0.66
yu models during the finetuning on the parallel training set S. ゆー 並列トレーニングセットSの微調整中のモデル。 0.62
a new source sentence ˜x, calculated from: から計算された新しい原文「x」 0.61
3. Cross-breeding: F2-XEnDec For resource-rich translation tasks in which a large parallel corpus and (virtually) unlimited monolingual corpora are available, our goal is to improve translation performance by exploiting self-supervised signals to complement the supervised learning. 3. クロスブレッディング: F2-XEnDec 大きな並列コーパスと(事実上)無制限なモノリンガルコーパスを備えたリソース豊富な翻訳タスクでは、教師付き学習を補完するために自己教師付き信号を活用することで、翻訳性能を向上させることが目的である。 0.70
In the proposed method, we train NMT models jointly with supervised and self-supervised learning objectives in a single stage. 提案手法では,NMTモデルと教師付きおよび自己教師型学習目標を1段階に分けて学習する。 0.77
This is based on an essential task called XEnDec. これはXEnDecと呼ばれる重要なタスクに基づいている。 0.57
In the remainder of this section, we first detail the XEnDec and then introduce our approach and present the overall algorithm. このセクションの残りで、まずXEnDecの詳細を説明し、次に我々のアプローチを紹介し、全体的なアルゴリズムを示す。 0.67
Finally, we discuss its relationship to some of the previous works. 最後に,その先行研究との関係について述べる。 0.63
3.1. Crossover Encoder-Decoder 3.1. Crossover Encoder-Decoder 0.71
This section introduces the crossover encoder-decoder (XEnDec). 本項ではクロスオーバーエンコーダデコーダ(xendec)を紹介する。 0.70
Different from a conventional encoder-decoder, XEnDec takes two training examples as inputs (called parents), shuffles the parents’ source sentences and produces a virtual example (called offspring) through a mixture decoder model. 従来のエンコーダ-デコーダとは異なり、xendecは2つのトレーニングサンプル(親と呼ばれる)を入力として取り、親のソース文をシャッフルし、混合デコーダモデルを通じて仮想サンプル(子孫と呼ばれる)を生成する。 0.66
Fig. 1(a) illustrates this process. フィギュア。 1(a)はこの過程を説明する。 0.56
Formally, let (x, y) denote a training example where x = x1,··· , xI represents a source sentence of I words and y = y1,··· , yJ is the corresponding target sentence of J words. 形式的には、x, y) は、x = x1,··· , xI が I 語の原文を表し、y = y1,··· , yJ が J 語の対応する対象文である訓練例を表す。 0.76
In supervised training, x and y are parallel sentences. 教師付き訓練では、x と y は平行文である。 0.53
As we will see in Section 3.2, XEnDec can be carried out with and without supervision. 第3.2節で見られるように、XEnDecは監督なしで実行することができる。 0.52
We do not distinguish these cases for now and use generic notations to illustrate the idea. 現時点ではこれらのケースを区別せず、一般的な表記法を使ってアイデアを説明しています。 0.51
Given a pair of examples (x, y) and (x(cid:48), y(cid:48)) called parents, the crossover encoder shuffles the two source sequences into 例 (x, y) と (x(cid:48), y(cid:48)) を親と呼ぶと、クロスオーバーエンコーダは2つのソースシーケンスをシャッフルする。 0.79
˜xi = mixi + (1 − mi)x(cid:48) i, xi = mixi + (1 − mi)x(cid:48) i, 0.86
(4) where m = m1,··· , mI ∈ {0, 1}I stands for a series of Bernoulli random variables with each taking the value 1 with probability p called shuffling ratio. (4) ここで m = m1,··· , mI ∈ {0, 1}I はベルヌーイ確率変数の列を表し、それぞれがシャッフル比と呼ばれる確率 p を持つ値 1 を取る。 0.80
If mi = 0, then the i-th word in x will be substituted with the word in x(cid:48) at the same position. mi = 0 であれば、x の i 番目の単語は同じ位置の x(cid:48) の単語に置き換えられる。 0.72
For convenience, the lengths of the two sequences are aligned by appending padding tokens to the end of the shorter sentence. 利便性のため、2つのシーケンスの長さは、短い文の末尾にパディングトークンを付加することで整列される。 0.73
The crossover decoder employs a mixture model to generate the virtual target sentence. クロスオーバーデコーダは、混合モデルを用いて仮想目標文を生成する。 0.74
The embedding of the decoder’s input ˜z is computed as: デコーダの入力 sz の埋め込みは次のように計算される。 0.79
I(cid:88) (cid:2)e(yj−1) I(cid:88) I(cid:88) (cid:2)e(yj−1) I(cid:88) 0.78
i=1 + e(y(cid:48) i=1 + e(y(cid:48) 0.76
j−1) e(˜zj) = j−1) e( szj) = 0.74
1 Z A(j−1)imi 1Z A(j−1)imi 0.81
(j−1)i(1 − mi)(cid:3), (j−1)i(1 − mi)(cid:3) 0.92
A(cid:48) (5) A(第48回) (5) 0.70
is i=1 where e(·) は i=1 e(·) の場合 0.67
(cid:80)I i=1 A(j−1)imi + A(cid:48) (cid:80)I i=1 A(j−1)imi + A(cid:48) 0.78
the embedding function. Z = (j−1)i(1 − mi) is the normalization term where A and A(cid:48) are the alignment matrices for the source sequences x and x(cid:48), respectively. 埋め込み関数。 z = (j−1)i(1 − mi) は正規化項であり、a と a(cid:48) はそれぞれソース列 x と x(cid:48) のアライメント行列である。 0.66
Eq (5) averages embeddings of y and y(cid:48) through the latent weights computed by m, A, and A(cid:48). Eq (5) 平均 y と y(cid:48) の埋め込みは m, A, A(cid:48) によって計算される潜在重みによって行われる。
訳抜け防止モード: Eq ( 5 ) averages embeddeds of y and y(cid:48 ) through the latent weights computeed by m, A, およびA(cid:48)。
0.89
The alignment matrix measures the contribution of the source words for generating a specific target word (Och & Ney, 2004; Bahdanau et al , 2015). アライメント行列は特定のターゲット語を生成するためのソース語の寄与を測定する(Och & Ney, 2004; Bahdanau et al , 2015)。 0.81
For example, Aji represents the contribution score of the i-th word in the source sentence for the j-th word in the target sentence. 例えば、Ajiは、ターゲット文中のj番目の単語の原文中のi番目の単語の寄与スコアを表す。 0.70
For simplicity, this paper uses the attention matrix learned in the NMT model as a noisy alignment matrix (Garg et al , 2019). 本稿では,NMTモデルで学習した注目行列をノイズアライメント行列として用いる(Garg et al , 2019)。 0.61
crossover<mask> tokentokens in parallel sentencestokens in monolingual sentences(b) F2-XEnDec(a) XEnDec F1-XEnDectokens 単言語文(b)F2-XEnDec(a)XEnDe c F1-XEnDectokensにおける並列文のクロスオーバートークン 0.77
英語(論文から抽出)日本語訳スコア
Self-supervised and Supervised Joint Training for Resource-rich Machine Translation 資源豊富な機械翻訳のための自己指導型共同訓練 0.65
Likewise, the label vector for the crossover decoder is calculated from: 同様に、クロスオーバーデコーダのラベルベクトルを次のように計算する。 0.74
h(˜yj) = 1 Z h( syj) = 1Z 0.67
I(cid:88) (cid:2)h(yj) I(cid:88) I(cid:88) (cid:2)h(yj) I(cid:88) 0.86
i=1 + h(y(cid:48) j) i=1 + h(y(cid:48) j) 0.78
i=1 Ajimi ji(1 − mi)(cid:3), i=1 アジミ ji(1 − mi)(cid:3) 0.64
A(cid:48) The h(·) function projects a word onto its label vector, e g , a one-hot vector. A(第48回) h(·) 関数は単語をラベルベクトル、例えば 1-ホットベクトルに投影する。
訳抜け防止モード: A(第48回) h ( · ) 関数はそのラベルベクトルに単語を投影する。 e g , a 1 - ホットベクトル。
0.69
The loss of XEnDec is computed over its output (˜x, ˜y) using the negative log-likelihood: XEnDecの損失は、負の対数類似度を用いて出力(x、y)上で計算される。
訳抜け防止モード: XEnDecの損失はその出力で計算される(x, y )。 負のログを使う - 可能性:
0.78
(cid:88) (cid:96)(f (˜x, ˜y; θ), h(˜y)) = − log P (˜y|˜x; θ) = (cid:88) (cid:96)(f ( tx, ty; θ), h( ty)) = − log P ( ty| tx; θ) = 0.85
KL(h(˜yj)(cid:107)P (y|˜z≤j, cj; θ)), KL(h( syj)(cid:107)P(y| sz≤j, cj; θ)) 0.87
(7) j where ˜z is a shifted copy of ˜y as discussed in Section 2.1. (7) j z は、第2.1節で述べられているように、y のシフトコピーである。 0.73
Notice that even though we do not directly observe the “virtual sentences” ˜z and ˜y, we are still able to compute the loss using their embeddings and labels. 仮想文”と“z”と“y”を直接観察することはできませんが、埋め込みとラベルを使って損失を計算することが可能であることに注意してください。
訳抜け防止モード: 例え 仮想文(virtual sentences )は、zとyを直接観察するものではない。 我々はまだ 埋め込みとラベルを使って損失を計算する。
0.61
In practice, the length of ˜x is set to max(|x|,|x(cid:48)|) whereas ˜y and ˜z share the same length of max(|y|,|y(cid:48)|). 実際には、x の長さは max(|x|,|x(cid:48)|) に設定され、y と sz は max(|y|,|y(cid:48)|) と同じ長さを持つ。 0.83
3.2. Training The proposed method applies XEnDec to deeply fuse the parallel data S with nonparallel, monolingual data U. 3.2. 研修 提案手法はXEnDecを用いて並列データSを非並列単言語データUと深く融合させる。 0.66
As illustrated in Fig 1(b), the first generation (F1-XEnDec in the figure) uses XEnDec to combine monolingual sentences of different views, thereby incurring a self-supervised loss LF1. 図1(b)に示すように、第1世代(図中のF1-XEnDec)は、XEnDecを使用して、異なるビューの単言語文を組み合わせて、自己教師付きロスLF1を生成する。 0.61
We compute the loss LF1 using Eq (3). Eq (3) を用いて損失LF1を算出する。 0.79
Afterward, the second generation (F2-XEnDec in the figure) applies XEnDec to the offspring of the first generation (n(yu), yu) and a sampled parallel sentence (xp, yp), yielding a new loss term LF2. その後、第2世代(図中のF2−XEnDec)は、第1世代(n(yu,yu)とサンプル並列文(xp,yp)の子孫にXEnDecを適用し、新たな損失項LF2を生成する。 0.73
The loss LF2 is computed over the output of the F2-XEnDec by: LF2(θ) = E yu∈U 損失 lf2 は f2-xendec の出力上で計算される: lf2(θ) = e yuبu 0.68
[(cid:96)(f (˜x, ˜y; θ), h(˜y))], [[[(cid:96)(f) ,[((cid:96)(f) ,[(y, θ) , h(y))] ] 0.79
(xp,yp)∈S (xp,yp)ftps 0.60
(8) E where (˜x, ˜y) is the output of the F2-XEnDec in Fig 1(b). (8) E ここで f2-xendec は fig 1(b) の出力である。 0.76
The final NMT models are optimized jointly on the original translation loss and the above two auxiliary losses. 最終NMTモデルは、元の翻訳損失と上記の2つの補助損失に共同最適化される。 0.80
L(θ) = LS (θ) + LF1(θ) + LF2(θ), L(θ) = LS(θ) + LF1(θ) + LF2(θ) 0.88
(9) LF2 in Eq (9) is used to deeply fuse monolingual and parallel sentences at instance level rather than combine them mechanically. (9)LF2 in Eq (9)は、機械的に組み合わせるのではなく、インスタンスレベルで単言語と並列文を深く融合するために用いられる。
訳抜け防止モード: (9)Eq(9)LF2を用いる 機械的に組み合わせるのではなく、インスタンスレベルで単言語と並列文を深く融合させる。
0.71
Section 4.4 empirically verifies the contributions of the LF1 and LF2 loss terms. 第4節4は、lf1とlf2の損失項の寄与を実証的に検証する。 0.46
Algorithm 1 delineates the procedure to compute the final loss L(θ). アルゴリズム1は、最終損失L(θ)を計算する手順を規定する。 0.82
Specifically, each time, we sample a monolingual sentence for each parallel sentence to circumvent the expensive enumeration in Eq (8). 具体的には,Eq(8)の高価な列挙を回避すべく,並列文毎に単言語文をサンプリングする。 0.66
To speed up the training, トレーニングをスピードアップする。 0.55
Algorithm 1 Proposed F2-XEnDec function. アルゴリズム1 F2-XEnDec関数の提案 0.70
Input: Parallel corpus S, Monolingual corpus U, and Shuffling Output: Batch Loss L(θ). 入力: Parallel corpus S, Monolingual corpus U, Shuffling Output: Batch Loss L(θ)。 0.73
ratios p1 and p2 1 Function F2-XEnDec(S,U, p1, p2): 2 3 比 p1 と p2 1 関数 F2-XEnDec(S,U,p1,p2) :2 3 0.79
foreach (xp, yp) ∈ S do foreach (xp, yp) ∈ S do 0.85
(6) offline. Sample a yu ∈ U with similar length as xp; // done noise ← add non-masking noise to yu; yu (n(yu), yu) ← XEnDec over the inputs (yu noise, yu) and mask, yu), with the shuffling ratio p1 and arbitrary (yu alignment matrices; LS ← compute (cid:96) in Eq (2) using (xp, yp) and obtain its attention matrix A; LF1 ← compute (cid:96) in Eq (3) using (n(yu), yu) and obtain A(cid:48); (˜x, ˜y) ← XEnDec over (n(yu), yu), with the shuffling ratio p2, A and A(cid:48); LF2 ← compute (cid:96) in Eq (8); (6) オフライン a yu ∈ U を xp に類似した長さのサンプルとし、u に非マスキングノイズを加える。u は入力(ユノイズ、ユ)とマスク、u はシャッフル比 p1 と任意の(ユアライメント行列)、LS は Eq (2) の計算(cid:96)と注意行列 A の計算(cid:96)を、Eq (3) の計算(cid:96)は (n(yu) を、A(cid:48) の計算(cid:48)を、u はシャッフル比 p2 と A(cid:48) の XEnDec over (n(yu) はシャッフル比 A2 と A(cid:48) と A(cid:8) の計算(cid:8) を得る。
訳抜け防止モード: (6) オフライン xp と同じ長さの a yu ∈ u をサンプリングする; // done noise ; add non- masking noise to yu ; yu ( n(yu ), yu ) , xendec over the inputs (yu noise, yu ) (xp, yp ) を用いて eq (2 ) において、シャッフル比 p1 と任意の (yu アライメント行列 ; ls:96 ) を計算する(cid:96 )。 そして、(n(yu ) ) を用いて eq (3 ) において、その注意行列 a ; lf1 の計算 (cid:96 ) を得る。 a(cid:48 ) ; ( sx, sy ) ] xendec over ( n(yu ) を得る。 yu ) , シャッフル比 p2 , a および a(cid:48 ) で; lf2 は eq (8) で計算する(cid:96 )。
0.76
the inputs (xp, yp) and 入力 (xp, yp) と 0.69
end return L(θ) = LS (θ)+LF1 (θ)+LF2 (θ); // Eq (9). end return L(θ) = LS (θ)+LF1 (θ)+LF2 (θ); // Eq (9)。 0.97
4 5 6 7 8 9 10 11 4 5 6 7 8 9 10 11 0.85
we group sentences offline by length in Step 3 (cf. ステップ3(cf)で文をオフラインでグループ化する。 0.64
batching data in the supplementary document). 補足文書内のデータのバッチ化)。 0.65
For adding noise in Step 4, we can follow (Lample et al , 2017) to locally shuffle words while keeping the distance between the original and new position not larger than 3 or set it as a null operation. ステップ4でノイズを追加するには(Lample et al , 2017)、元の位置と新しい位置の距離を3よりも長く保ったり、null操作として設定したりしながら、局所的なシャッフル語に追従することができる。
訳抜け防止モード: ステップ4でノイズを追加するには (Laple et al, 2017) 元の位置と新しい位置との距離を3より大きく保ちながら、言葉を局所的にシャッフルする あるいは null 操作として設定します。
0.78
There are two techniques to boost the final performance. 最終的なパフォーマンスを高める方法は2つあります。 0.70
Computing A: The alignment matrix A is obtained by averaging the cross-attention weights across all decoder layers and heads. 計算a:アライメント行列aは、すべてのデコーダ層とヘッドにまたがるクロスアライメント重みを平均することで得られる。 0.69
We also add a temperature to control the sharpness of the attention distribution, the reciprocal of which was linearly increased from 0 to 2 during the first 20K steps. また, 注意分布の鋭さを制御するための温度も加え, 最初の20kステップで直線的に0から2に上昇した。 0.67
To avoid overfitting when computing e(˜z) and h(˜y), we apply dropout to A and stop back-propagating gradients through A when calculating the loss LF2 (θ). 損失LF2 (θ) を計算するとき、e(n) と h(n) のオーバーフィッティングを避けるために、A にドロップアウトを施し、A を通して逆伝播勾配を阻止する。 0.66
Computing h(˜y): Instead of interpolating one-hot labels in Eq. 計算h( sy): Eqで1ホットラベルを補間する代わりに。 0.74
(6), we use the prediction vector f (x, y; ˆθ) on the sentence pair (x, y) estimated by the model where ˆθ indicates no gradients are back-propagated through it. (6) では、このモデルによって推定される文対 (x, y) 上で予測ベクトル f (x, y; >θ) を用いる。
訳抜け防止モード: (6) 文対 (x, y) 上の予測ベクトル f (x, y ; ...θ ) を用いる。 y ) は、勾配が戻らないことを示すモデルによって推定される。
0.81
However, the predictions made at early stages are usually unreliable. しかし、初期の予測は通常信頼できない。 0.57
We propose to linearly combine the ground-truth one-hot label with the model prediction using a parameter v, which is computed as vfj(x, y; ˆθ) + (1 − v)h(yj) where v is gradually annealed from 0 to 1 during the first 20K steps 1. パラメータ v を vfj(x, y; yθ) + (1 − v)h(yj) と計算し、最初の20K ステップ 1 で v を 0 から 1 に徐々に熱処理する。
訳抜け防止モード: 地盤を直線的に結合し -真理一 モデル予測を伴うホットラベル パラメータ v の使用。 これは vfj(x, y) + (1 − v)h(yj ) と計算され、最初の 20 k ステップ 1 で v は徐々に 0 から 1 にアニールされる。
0.80
Notice that the prediction vectors are not used in computing the decoder input e(˜z) which can be clearly distinguished from schedule sampling (Bengio et al , 2015). 予測ベクトルは、スケジュールサンプリングと明確に区別できるデコーダ入力 e(z) を計算するのに使われないことに注意する(bengio et al , 2015)。 0.83
3.3. Relation to Other Works 3.3. 他の作品との関係 0.70
This subsection shows that XEnDec, when fed with appropriate inputs, yields learning objectives identical to この節は、xendecが適切な入力を与えられた場合、学習目標が同一であることを示す。 0.55
1These two annealing hyperparameters in computing both A and h(˜y) are the same for all the models and not elaborately tuned. 1 これら2つのアニーリングハイパーパラメータは、A と h( sy) のどちらも同じであり、精巧に調整されていない。 0.66
英語(論文から抽出)日本語訳スコア
Self-supervised and Supervised Joint Training for Resource-rich Machine Translation 資源豊富な機械翻訳のための自己指導型共同訓練 0.65
Table 1. Comparison with different objectives produced by XEnDec. 表1。 XEnDecの異なる目的との比較 0.67
Each row shows a set of inputs to XEnDec and the corresponding objectives in existing work (the last column). 各行はxendecへの一連の入力と、既存の作業(最後の列)の対応する目的を示している。 0.66
yu mask is a sentence of length |yu| containing only “(cid:104)mask(cid:10 5)” tokens. yu mask は "(cid:104)mask(cid:10 5)" トークンのみを含む長さ |yu| の文である。 0.81
yu noise is a sentence obtained by corrupting all the words in yu with nonmasking noises. ユノイズ(yu noise)は、ユのすべての単語を非マスクノイズで破って得られる文である。 0.47
xp adv are adversarial sentences in which all the words are substituted with adversarial words. xp adv (xp adv) は、すべての単語が逆語に置き換えられる逆文である。 0.62
adv and yp (x yu yu xp advとypは (x Yu Yu xp) 0.81
noise y) yu yu yp (x(cid:48) yu yu xp 騒音 y)ユユユ (x(cid:48)yu yu xp 0.70
adv mask mask y(cid:48)) yu yu yp adv 仮面 仮面 y(cid:48)yu yu yp 0.74
adv Objectives MASS (Song et al , 2019) BART (Lewis et al , 2019) Adv. adv 対象はMASS (Song et al , 2019) BART (Lewis et al , 2019) Adv。 0.80
(Cheng et al , 2019) (Cheng et al , 2019) 0.85
two recently proposed self-supervised learning approaches: MASS (Song et al , 2019) and BART (Lewis et al , 2019), as well as a supervised learning approach called Doubly Adversarial (Cheng et al , 2019). 最近提案された2つの自己教師あり学習アプローチ: mass (song et al , 2019)とbart (lewis et al , 2019)、そしてdoubly adversarial (cheng et al , 2019)と呼ばれる教師あり学習アプローチ。 0.73
Table 1 summarizes the inputs of XEnDec to recover these approaches. 表1はxendecの入力を要約し、これらのアプローチを回復します。 0.54
XEnDec can be used for self-supervised learning. XEnDecは自己教師型学習に利用できる。 0.70
As shown in Table 1, the inputs to XEnDec are two pairs of sentences (x, y) and (x(cid:48), y(cid:48)). 表1に示すように、xendecの入力は2つの文 (x, y) と (x(cid:48), y(cid:48)) からなる。 0.75
Given arbitrary alignment matrices, if we set x(cid:48) = yu, y(cid:48) = yu, and x to be a corrupted copy of yu, then XEnDec is equivalent to the denoising autoencoder which is commonly used to pre-train sequence-tosequence models such as in MASS (Song et al , 2019) and BART (Lewis et al , 2019). 任意のアライメント行列が与えられた場合、x(cid:48) = yu, y(cid:48) = yu, x を Yu の破損したコピーとすると、XEnDec は MASS (Song et al , 2019) や BART (Lewis et al , 2019) などの列列列列列列列列モデルによく使用される復調オートエンコーダと同値である。 0.72
In particular, if we allow x(cid:48) to be a dummy sentence of length |yu| containing only “(cid:104)mask(cid:10 5)” tokens (yu mask in the table), Eq (7) yields the learning objective defined in the MASS model (Song et al , 2019) except that losses over unmasked words are not counted in the training loss. 特に、x(cid:48) が "(cid:104)mask(cid:10 5)" トークン (yu mask in the table) のみを含む長さ |yu| のダミー文であることを許すと、Eq (7) が MASS モデル(Song et al , 2019) で定義された学習目標を与える。
訳抜け防止モード: 特に、x(cid:48 ) を " (cid:104)mask(cid:10 5 ) ” トークンのみを含む長さ |yu| のダミー文とする(テーブル 内のyu マスク)。 eq (7 ) は質量モデル (song et al, 2019) で定義された学習目標を与える。 未熟な単語に対する損失は、トレーニングの損失にはカウントされない。
0.78
Likewise, as shown in Table 1, we can recover BART’s objective by setting x = yu noise is obtained by shuffling tokens or dropping them in yu. 同様に、表1に示すように、x = yuのノイズをトークンをシャッフルしたり、yにドロップすることでBARTの目的を回復することができる。 0.77
In both cases, XEnDec is trained with a self-supervised objective to reconstruct the original sentence from one of its corrupted sentences. どちらの場合も、XEnDecは、オリジナルの文をその破損した文から再構築するために、自己教師対象で訓練される。 0.47
Conceptually, denoising autoencoder can be regarded as a degenerated XEnDec in which the inputs are two views of its source correspondence for a monolingual sentence, e g , n(y) and ymask for y. XEnDec can also be used in supervised learning. 概念的には、デノナイジングオートエンコーダは、入力がモノリンガル文のソース対応の2つのビュー、eg、n(y)、ymask for y.XEnDec の2つのビューであるデジェクトXEnDecとみなすことができる。
訳抜け防止モード: 概念的には、Denoising autoencoder XEnDecは、入力がモノリンガル文に対する元の対応の2つのビューであるデジェクト XEnDec とみなすことができる。 eg, n(y ) と ymask for y.XEnDec は教師あり学習にも使える。
0.75
The translation loss proposed in (Cheng et al , 2019) is achieved by letting x(cid:48) and y(cid:48) be two “adversarial inputs”, xp adv and yp adv, both of which consist of adversarial words at each position. (cheng et al , 2019) で提案された翻訳損失は、x(cid:48) と y(cid:48) を xp adv と yp adv の2つの逆入力にすることで達成される。
訳抜け防止モード: Cheng et al, 2019 で提案された翻訳損失は x(cid:48 ) で達成される。 and y(cid:48 ) be two “ adversarial inputs ”, xp adv, yp adv, どちらもそれぞれの位置にある 敵の言葉から成り立っています
0.82
For the construction of xp adv, we refer to Algorithm 1 in (Cheng et al , 2019). xp adv の構成については Algorithm 1 in (Cheng et al , 2019) を参照。 0.68
In this case, the crossover encoder-decoder is trained with a supervised objective over parallel sentences. この場合、クロスオーバーエンコーダ-デコーダは、並列文に対する教師付き目標で訓練される。 0.73
The above connections to existing works illustrate the power of XEnDec when it is fed with different kinds of inputs. 上記の既存の作品との接続は、xendecが異なる種類の入力を供給した場合のパワーを示している。 0.70
The results in Section 4.4 show that XEnDec is still able to improve the baseline with alternative inputs. セクション44の結果は、XEnDecが代替入力でベースラインを改善することができることを示している。 0.59
However, our experiments show the best configuration found so far しかし これまでの実験で 最良の構成が分かりました 0.84
noise where yu is to use the F2-XEnDec in Algorithm 1 to deeply fuse the monolingual and parallel sentences. どこの騒音? アルゴリズム1では f2-xendec を使い、単言語と並列文を深く融合させる。 0.56
4. Experiments 4.1. Settings Datasets. 4. 実験4.1。 データセットの設定。 0.74
We evaluate our approach on two representative, resource-rich translation datasets, WMT’14 English-German and WMT’14 English-French across four translation directions, English→German (En→De), German→English (De→En), English→French (En→Fr), and French→English (Fr→En). wmt’14英語-ドイツ語とwmt’14英語-フランス語の4つの翻訳方向、 english→german (en→de)、 german→english (de→en)、 english→ french (en→fr)、 french→english (fr→en)の2つの代表的な翻訳データセットに対するアプローチを評価した。 0.55
To fairly compare with previous state-of-the-art results on these two tasks, we report case-sensitive tokenized BLEU scores calculated by the multi-bleu.perl script. これら2つのタスクにおける先行技術結果と同等に比較するために,マルチブルー・パールスクリプトによって計算されたケースセンシティブなトークン化BLEUスコアを報告する。 0.49
The English-German and EnglishFrench datasets consist of 4.5M and 36M sentence pairs, respectively. 英仏のデータセットはそれぞれ4.5Mと36Mの文対で構成されている。 0.57
The English, German and French monolingual corpora in our experiments come from the WMT’14 translation tasks. 我々の実験における英語、ドイツ語、フランス語の単言語コーパスは、WMT'14翻訳タスクに由来する。 0.64
We concatenate all the newscrawl07-13 data for English and German, and newscrawl07-14 for French which results in 90M English sentences, 89M German sentences, and 42M French sentences. 英語とドイツ語のnewscrawl07-13,フランス語のnewscrawl07-14,英語の90万文,ドイツ語の89万文,フランス語の42万文を収録した。 0.61
We use a word piece model (Schuster & Nakajima, 2012) to split tokenized words into sub-word units. トークン化された単語をサブワード単位に分割するために、ワードピースモデル(Schuster & Nakajima, 2012)を用いる。 0.69
For English-German, we build a shared vocabulary of 32K sub-words units. 英語とドイツ語では、32Kサブワード単位の共通語彙を構築します。 0.63
The validation set is newstest2013 and the test set is newstest2014. 検証セットはNewstest2013で、テストセットはNewstest2014です。 0.75
The vocabulary for the English-French dataset is also jointly split into 44K sub-word units. 英仏データセットの語彙も44Kのサブワード単位に分割されている。 0.74
The concatenation of newstest2012 and newstest2013 is used as the validation set while newstest2014 is the test set. Newstest2012とNewstest2013の結合は検証セットとして使用され、Newstest2014はテストセットである。 0.75
Refer to the supplementary document for more detailed data pre-processing. 詳細なデータの事前処理については、補足ドキュメントを参照してください。 0.53
Model and Hyperparameters. モデルとハイパーパラメータ。 0.80
We implement our approach on top of the Transformer model (Vaswani et al , 2017) using the Lingvo toolkit (Shen et al , 2019). lingvo toolkit (shen et al , 2019) を使用して,トランスフォーマモデル(vaswani et al , 2017) 上で当社のアプローチを実装した。 0.76
The Transformer models follow the original network settings (Vaswani et al , 2017). Transformerモデルはオリジナルのネットワーク設定に従っている(Vaswani et al , 2017)。 0.89
In particular, the layer normalization is applied after each residual connection rather than before each sub-layer. 特に、層正規化は各部分層よりもむしろ各残留接続の後に適用される。 0.78
The dropout ratios are set to 0.1 for all Transformer models except for the Transformer-big model on English-German where 0.3 is used. ドロップアウト比は、0.3が使用される英語-ドイツ語のトランスフォーマー-ビッグモデルを除いて、すべてのトランスフォーマーモデルで0.1に設定される。 0.49
We search the hyperparameters using the Transformer-base model on English-German. トランスフォーマーベースモデルを用いたハイパーパラメータの探索を行った。 0.61
In our method, the shuffling ratio p1 is set to 0.50 while 0.25 is used for English-French in Table 6. p2 is sampled from a Beta distribution Beta(2, 6). 本発明の方法では、シャッフル比p1を0.50とし、表6では英仏で0.25とし、ベータ分布(Beta(2,6)からp2をサンプリングする。 0.65
The dropout ratio of A is 0.2 for all the models. Aのドロップアウト比は全てのモデルに対して0.2である。 0.70
For decoding, we use a beam size of 4 and a length penalty of 0.6 for English-German, and a beam size of 5 and a length penalty of 1.0 for English-French. 復号化には、ビームサイズは4、長さペナルティは0.6、ビームサイズは5、長さペナルティは1.0を用いる。
訳抜け防止モード: 復号には、ビームサイズ4、長さペナルティ0.6を用いる。 ビームサイズは5で長さは1.0で、英語はフランス語である。
0.66
We carry out our experiments on a cluster of 128 P100 GPUs and update gradients synchronously. 128のP100 GPUのクラスタ上で実験を行い、同期的に勾配を更新する。 0.70
The model is optimized with Adam (Kingma & Ba, 2014) following the same learning rate schedule used in (Vaswani et al , 2017) except for warmup steps which is set to 4000 for both Transform-base and Transformer-big このモデルは、Transform-baseとTransformer-bigの両方で4000に設定されたウォームアップステップを除いて、(Vaswani et al , 2017)と同じ学習率スケジュールに従ってAdam (Kingma & Ba, 2014)で最適化されている。
訳抜け防止モード: モデルは、ウォームアップステップを除く(Vaswani et al, 2017)と同じ学習率スケジュールに従って、Adam (Kingma & Ba, 2014 )で最適化されている。 is set to 4000 for both Transform - base and Transformer - big
0.77
英語(論文から抽出)日本語訳スコア
Self-supervised and Supervised Joint Training for Resource-rich Machine Translation 資源豊富な機械翻訳のための自己指導型共同訓練 0.65
Table 2. Experiments on WMT’14 English-German and WMT’14 English-French translation. 表2。 WMT'14英語-ドイツ語とWMT'14英語-フランス語翻訳の実験 0.75
Models Methods Base Big モデル手法 基地 ビッグ 0.72
Reproduced Transformer F2-XEnDec Reproduced Transformer (Ott et al , 2018) (Cheng et al , 2019) (Yang et al , 2019) (Nguyen et al , 2019) (Zhu et al , 2020) Joint Training with MASS Joint Training with BART F2-XEnDec Reproduced Transformer F2-XEnDec Reproduced Transformer (Ott et al , 2018) (Cheng et al , 2019) (Yang et al , 2019) (Nguyen et al , 2019) (Zhu et al , 2020) MASS Joint Training with BART F2-XEnDec Joint Training with BART F2-XEnDec 0.93
En→De De→En 28.70 30.46 En→De→En 28.70 30.46 0.49
32.23 34.06 32.23 34.06 0.50
En→Fr- Fr→En- En→Fr- Fr→En 0.51
29.47 29.30 30.01 30.10 30.70 30.75 30.63 30.88 31.60 29.47 29.30 30.01 30.10 30.70 30.75 30.63 30.88 31.60 0.42
33.1234.94 33.1234.94 0.39
43.37 43.2042.30 43.70 43.78 43.00 44.18 45.15 43.37 43.2042.30 43.70 43.78 43.00 44.18 45.15 0.39
39.82- 41.60 39.82- 41.60 0.53
Table 3. Comparison with the best baseline method in Table 2 in terms of BLEU, BLEURT and YiSi. 表3。 BLEU, BLEURT, YiSi の表 2 における最良ベースライン法との比較 0.72
Methods Joint Training with BART F2-XEnDec 方法 BART F2-XEnDecとの共同訓練 0.69
En→De En→Fr 円→De En→Fr 0.49
BLEU BLEURT YiSi 0.837 30.88 31.60 0.842 BLEU BLEURT YiSi 0.837 30.88 31.60 0.842 0.59
0.225 0.261 0.225 0.261 0.50
BLEU BLEURT YiSi 0.864 44.18 45.15 0.869 BLEU BLEURT YiSi 0.864 44.18 45.15 0.869 0.59
0.488 0.513 0.488 0.513 0.50
models. Training Efficiency. モデル。 訓練効率。 0.72
When training the vanilla Transformer model, each batch contains 4096 × 128 tokens of parallel sentences on a 128 P100 GPUs cluster. バニラトランスフォーマーモデルをトレーニングする場合、各バッチは128のP100 GPUクラスタ上に4096×128の並列文のトークンを含む。 0.75
As there are three losses included in our training objective (Eq. トレーニング目標(Eq)には3つの損失が含まれている。 0.68
(9)) and the inputs for each of them are different, we evenly spread the GPU memory budget into these three types of data by letting each batch include 2048 × 128 tokens. そして、各バッチに2048×128トークンを含むようにすることで、gpuメモリ予算をこれら3種類のデータに均等に分散させました。
訳抜け防止モード: (9)及び それぞれの入力は異なる。 バッチ毎に2048×128トークンを含むようにすることで、gpuメモリ予算をこれら3種類のデータに均等に分散します。
0.75
Thus the total batch size is 2048 × 128 × 3. したがって、総バッチサイズは2048 × 128 × 3である。 0.80
The training speed is on average about 60% of the standard training speed. 訓練速度は標準訓練速度の約60%である。 0.64
The additional computation cost is partially due to the implementation of the noise function to corrupt the monolingual sentence yu and can be reduced by caching noisy data in the data input pipeline. 追加の計算コストは、単言語文ユを破損させる雑音関数の実装によるものであり、データ入力パイプライン内のノイズデータをキャッシュすることで低減することができる。 0.83
Then the training speed can accelerate to about 80% of the standard training speed. そして、トレーニング速度を標準トレーニング速度の約80%に加速することができる。 0.83
4.2. Main Results Table 2 shows the main results on the English-German and English-French datasets. 4.2. 主な成果 表2は、英仏仏データセットの主な結果を示している。 0.72
Our method is compared with the following strong baseline methods. 本手法は下記の強力なベースライン法と比較する。 0.81
(Ott et al , 2018) is the scalable Transformer model. (Ott et al , 2018)はスケーラブルトランスフォーマーモデルである。 0.70
Our reproduced Transformer model performs comparably with their reported results. 再現された変圧器モデルは、報告された結果と相性が良い。 0.50
(Cheng et al , 2019) is a NMT model with adversarial augmentation mechanisms in supervised learning. (Cheng et al , 2019) は, 教師あり学習における対向的増強機構を持つNMTモデルである。 0.76
(Nguyen et al , 2019) boosts NMT performance by adopting multiple rounds of back-translated sentences. (Nguyen et al , 2019)は、複数ラウンドの裏書き文を採用することにより、NMTのパフォーマンスを高める。 0.57
Both (Zhu et al , 2020) and (Yang et al , 2019) incorporate the knowledge of pre-trained models into NMT models by treating them as frozen input representations for NMT. Zhu et al , 2020) と (Yang et al , 2019) は、NMTモデルの凍結入力表現として、事前訓練されたモデルの知識をNMTモデルに取り入れている。 0.75
We also compare our approach with MASS (Song et al , 2019) and BART (Lewis et al , 2019). 比較も行います MASS (Song et al , 2019) と BART (Lewis et al , 2019) とのアプローチ。 0.70
As their goals are to learn generic pre-trained representations from massive monolingual corpora, for fair comparisons, we re-implement their methods using the same backbone model as ours, and jointly optimize their selfsupervised objectives together with the supervised objective on the same corpora. 本研究の目的は,大規模単言語コーパスから事前学習した汎用的な表現を公正な比較のために学習することであり,我々は同じバックボーンモデルを用いて手法を再実装し,同じコーパス上で教師付き目的とともに自己監督対象を協調的に最適化することである。
訳抜け防止モード: 彼らの目標は、巨大な単言語コーパスから一般的な事前訓練された表現を学ぶことである。 公正な比較のために、我々は再実装します。 同じコーパス上で 自己監督対象を 同時に最適化する。
0.62
For English-German, our approach achieves significant improvements in both translation directions over the standard Transformer model. 英語とドイツ語では,標準トランスフォーマーモデルよりも翻訳方向が大幅に改善されている。 0.63
Even compared with the strongest baseline on English→German, our approach obtains a +0.72 BLEU gain. 英語→ドイツ語の最も強いベースラインと比較しても、このアプローチは+0.72 bleuゲインを得る。 0.46
More importantly, when we apply our approach to a significantly larger dataset, English-French with 36M sentence pairs (vs. English-German with 4.5M sentence pairs), it still yields consistent and notable improvements over the standard Transformer model. さらに重要なことに、我々のアプローチをはるかに大きなデータセット、36mの文ペア(4.5mの文ペアを持つ英語とドイツ語)に適用すると、標準のトランスフォーマーモデルに対して一貫性があり、注目すべき改善が得られます。 0.61
The single-stage approaches (Joint Training with MASS & BART) perform slightly better than the two-stage approaches (Zhu et al , 2020; Yang et al , 2019), which substantiates the benefit of jointly training supervised and selfsupervised objectives for resource-rich translation tasks. 単一段階のアプローチ(MASSとBARTとのジョイントトレーニング)は、2段階のアプローチ(Zhu et al , 2020; Yang et al , 2019)よりも若干優れている。
訳抜け防止モード: シングルステージアプローチ(MASSとBARTとの合同トレーニング)は、ツーステージアプローチ(Zhu et al)よりも若干優れています。 2020 ; Yang et al, 2019 )。 リソース - 豊富な翻訳タスクのための教師付きと自己監督型の目的を共同でトレーニングするメリットを実証する。
0.53
Among them, BART performs better with stable improvements on English-German and English-French and faster convergence. このうち、BARTは英語・ドイツ語・英語・フランス語を安定的に改良し、より高速な収束を実現している。 0.49
However, they still lag behind our approach. しかし、彼らはまだ我々のアプローチに遅れを取っている。 0.49
This is mainly because the LF2 term in our approach can deeply fuse the supervised and self-supervised objectives instead of simply summing up their training losses. これは主に、私たちのアプローチにおけるlf2用語が、単にトレーニング損失をまとめるのではなく、監視対象と自己監視対象を深く融合できるためです。 0.56
See Section 4.4 for more details. 詳細は4.4節を参照。 0.71
Furthermore, we evaluate our approach and the best baseline さらに、我々のアプローチと最良のベースラインを評価する。 0.72
英語(論文から抽出)日本語訳スコア
Self-supervised and Supervised Joint Training for Resource-rich Machine Translation 資源豊富な機械翻訳のための自己指導型共同訓練 0.65
Table 4. Effect of monolingual corpora sizes. 表4。 単言語コーパスサイズの影響 0.65
Mono. Size En→De Methods ×0 ×1 ×3 ×5 ×10 Mono。 サイズ En→De メソッド ×0 ×1 ×3 ×5 ×10 0.73
28.70 29.84 30.36 30.46 30.22 28.70 29.84 30.36 30.46 30.22 0.44
F2-XEnDec Table 6. F2-XEnDec 表6。 0.60
Results on F2-XEnDec + Back Translation. F2-XEnDec + Back Translationの結果。 0.80
Experiments on English-German and English-French are based on the Transformer-big model. 英語-ドイツ語と英語-フランス語の実験はトランスフォーマー-ビッグモデルに基づいている。 0.54
Methods Transformer Back Translation (Edunov et al , 2018) F2-XEnDec + Back Translation Methods Transformer Back Translation (Edunov et al , 2018) F2-XEnDec + Back Translation 0.99
En→De En→Fr 43.37 28.70 35.90 32.09 35.002 45.60 En→De En→Fr 43.37 28.70 35.90 32.09 35.002 45.60 0.42
31.60 33.70 31.60 33.70 0.50
45.15 46.19 45.15 46.19 0.50
Table 5. Finetuning vs. Joint Training. テーブル5。 微調整対合同訓練。 0.66
En→De 28.70 28.77 En→De 28.70 28.77 0.47
Methods Transformer + Pretrain + Finetune F2-XEnDec (Joint Training) + Pretrain + Finetune 方法 Transformer + Pretrain + Finetune F2-XEnDec (Joint Training) + Pretrain + Finetune 0.98
30.46 29.70 30.46 29.70 0.50
method (Joint Training with BART) in Table 3 in terms of two additional evaluation metric, BLEURT (Sellam et al , 2020) and YiSi (Lo, 2019), which claim better correlation with human judgement. BLEURT (Sellam et al , 2020) と YiSi (Lo, 2019) の2つの追加評価指標による表3における方法(BARTとの連携訓練)は, 人間の判断との相関性の向上を主張する。 0.85
Results in Table 3 corroborate the superior performance of our approach compared to the best baseline method on both English→German and English→French. 表3の結果は、英語→ドイツ語と英語→フランス語の両方のベースライン法と比較して、我々のアプローチの優れたパフォーマンスを裏付けるものである。 0.55
4.3. Analyses Effect of Monolingual Corpora Sizes. 4.3. 単言語コーパスサイズの影響の解析 0.65
Table 4 shows the impact of monolingual corpora sizes on the performance for our approach. 表4は、単言語コーパスサイズが我々のアプローチのパフォーマンスに与える影響を示しています。 0.69
We find that our approach already yields improvements over the baselines when using no monolingual corpora (x0) as well as when using a monolingual corpus with size comparable to the bilingual corpus (1x). 両言語コーパス (1x) に匹敵する大きさのモノリンガルコーパスを使用する場合と同様に, モノリンガルコーパス (x0) を使用せずとも, ベースラインよりも改善されている。 0.67
As we increase the size of the monolingual corpus to 5x, we obtain the best performance with 30.46 BLEU. 単言語コーパスのサイズを5倍に増やすと、30.46 bleuで最高のパフォーマンスが得られる。 0.66
However, continuing to increase the data size fails to improve the performance any further. しかし、データサイズを増加させ続けることは、さらにパフォーマンスを向上させることに失敗します。 0.63
A recent study (Liu et al , 2020a) shows that increasing the model capacity has great potential to exploit extremely large training sets for the Transformer model. 最近の研究 (Liu et al , 2020a) では、モデル容量の増加はトランスフォーマーモデルの非常に大きなトレーニングセットを活用する大きな可能性を持っている。 0.77
We leave this line of exploration as future work. 我々は将来の仕事としてこの一連の探検を任せる。 0.57
Finetuning vs. Joint Training. To further study the effect of pre-trained models on the Transformer model and our approach, we use Eq (3) to pre-train an NMT model on the entire English and German monolingual corpora. 微調整対合同訓練。 トランスフォーマーモデルと我々のアプローチに対する事前学習モデルの効果をさらに研究するために、Eq (3)を用いて、英語とドイツ語の単言語コーパス全体のNMTモデルを事前学習する。 0.68
Then we finetune the pre-trained model on the parallel EnglishGerman corpus. 次に、前訓練されたモデルを並列ドイツ語コーパス上で微調整する。 0.53
Models finetuned on pre-trained models usually perform better than models trained from scratch at トレーニング済みモデルに微調整されたモデルは通常、スクラッチでトレーニングされたモデルよりもパフォーマンスがよい。 0.53
2Our results cannot directly be compared to the numbers in (Edunov et al , 2018) because they use WMT’18 as bilingual data (5.18M) and 10x more monolingual data (226M vs. ours 23M). Edunov et al , 2018)では、WMT’18をバイリンガルデータ (5.18M) として使用し、10倍のモノリンガルデータ (226M 対我々の 23M) で比較することはできない。 0.80
the early stage of training. However, this advantage gradually vanishes as training progresses (cf. 訓練の初期段階です しかし、トレーニングが進むにつれ、この利点は徐々に失われていく(cf。 0.55
Figure 1 in the supplementary document). As shown in Table 5, Transformer with finetuning achieves virtually identical results as a Transformer trained from scratch. 補足資料の図1)。 表5に示すように、微調整のトランスフォーマーは、スクラッチからトレーニングされたトランスフォーマーとほぼ同じ結果が得られる。 0.55
Using the pre-trained model over our approach impairs performance. 我々のアプローチで事前訓練されたモデルを使うことは性能を損なう。 0.55
We believe this may be caused by a discrepancy between the pre-trained loss and our joint training loss. これは、トレーニング済みの損失と共同トレーニングの損失の差が原因だと考えています。 0.63
Back Translation as Noise. ノイズとしての逆翻訳。 0.58
One widely applicable method to leverage monolingual data in NMT is back translation (Sennrich et al , 2016b). nmt における単言語データを活用する方法は、バック翻訳 (sennrich et al , 2016b) である。 0.70
A straightforward way to incorporate back translation into our approach is to treat back-translated corpora as parallel corpora. 我々のアプローチにバック翻訳を組み込む簡単な方法は、バック翻訳コーパスを並列コーパスとして扱うことである。
訳抜け防止モード: 私たちのアプローチに逆翻訳を組み込む簡単な方法は to treat back―translate corpora as parallel corpora
0.85
However, back translation can also be regarded as a type of noise used for noise in F2-XEnDec (shown in Fig 1(b) and constructing yu Step 4 in Algorithm 1), which can increase the noise diversity. しかし、逆変換はf2-xendec(図1(b)で示され、アルゴリズム1でyu step 4を構築する)でノイズに使用されるノイズの一種と見なすことができ、ノイズの多様性を高めることができる。 0.74
As shown in Table 6, for English→German trained on the Transformer-big model, our approach yields an additional +1.9 BLEU gain when using back translation to noise yu and also outperforms the back-translation baseline. 表6に示すように、Transformer-Bigモデルで訓練された英語→ドイツ語では、ノイズユへの逆変換を用いた場合、さらに+1.9BLEUゲインが得られる。 0.62
When applied to the English-French dataset, we achieve a new state-of-the-art result over the best baseline (Edunov et al , 2018). 英語とフランス語のデータセットに適用すると、最高のベースライン(edunov et al , 2018)よりも新しい最先端の結果が得られる。 0.67
In contrast, the standard back translation for English-French hurts the performance of Transformer, which is consistent with what was found in previous works, e g (Caswell et al , 2019). 対照的に、英語とフランス語の標準逆変換はトランスフォーマーの性能を損なうが、これは以前の作品(caswell et al , 2019)に見られるものと一致している。 0.74
These results show that our approach is complementary to the back-translation method and performs more robustly when back-translated corpora are less informative although our approach is conceptually different from works related to back translation (Sennrich et al , 2016b; Cheng et al , 2016; Edunov et al , 2018). これらの結果から,本手法は後方翻訳法と相補的であり,後方翻訳法と概念的に異なるが,後方翻訳法ではより堅牢に機能することが示唆された(Sennrich et al , 2016b; Cheng et al , 2016; Edunov et al , 2018)。 0.76
Robustness to Noisy Inputs. ノイズ入力に対するロバスト性。 0.59
Contemporary NMT systems often suffer from dramatic performance drops when they are exposed to input perturbations (Belinkov & Bisk, 2018; Cheng et al , 2019), even though these perturbations may not be strong enough to alter the meaning of the input sentence. 現代のNTTシステムは、入力文の意味を変えるのに十分な強度がないにもかかわらず、入力文の摂動に曝されると、劇的なパフォーマンス低下に悩まされることが多い(Belinkov & Bisk, 2018; Cheng et al , 2019)。 0.66
In this experiment, we verify the robustness of the NMT models learned by our approach. 本研究では,提案手法により得られたNMTモデルのロバスト性を検証する。 0.69
Following (Cheng et al , 2019), we evaluate the model performance against word perturbations which specifically includes two types of 続いて(cheng et al, 2019)、特に2種類のタイプを含む単語摂動に対するモデル性能を評価する。 0.71
英語(論文から抽出)日本語訳スコア
Self-supervised and Supervised Joint Training for Resource-rich Machine Translation 資源豊富な機械翻訳のための自己指導型共同訓練 0.65
extract complementary signals to facilitate the joint training. 共同訓練を促進するために補完的な信号を抽出する。 0.54
We believe this is because of the deep fusion of monolingual and parallel sentences at instance level. これは単言語と並列文のインスタンスレベルでの深い融合によるものだと考えています。 0.67
Inputs to XEnDec. XEnDecへの入力。 0.81
To validate the proposed task, XEnDec, we apply it over different types of inputs. 提案するタスクであるXEnDecを検証するために,異なるタイプの入力に適用する。 0.68
The first one directly combines the parallel and monolingual sentences without using noisy monolingual sentences, which is equivalent to removing LF1 (Row 4 in Table 7). 第1の文は、LF1 (Row 4 in Table 7) と等価なノイズの多い単言語文を使わずに、並列文と単言語文を直接結合する。 0.66
We achieve this by setting n(yu) = yu in Algorithm 1. アルゴリズム 1 で n(yu) = yu を設定することでこれを実現できる。 0.75
However, we cannot obtain A(cid:48) required by the algorithm (Line 7 in Algorithm 1) which leads to the failure of calculating the loss. しかし、アルゴリズム(アルゴリズム1の行7)に必要な(cid:48)は得られず、損失を計算するのに失敗する。 0.66
Thus we design a prior alignment matrix to handle this issue (cf. したがって、この問題に対処する事前アライメント行列を設計する(cf。 0.72
Section 2 in the supplementary document). The second experiment utilizes XEnDec only over parallel sentences (Row 5 in Table 7). 補足書類第2節) 第2の実験では、xendecは並列文のみを使用する(表7の行5)。 0.56
We can find these two cases can both achieve better performance compared to the standard Transformer model (Row 1 in the table). これら2つのケースは、標準のトランスフォーマーモデル(テーブルの1列目)よりも優れたパフォーマンスを実現することができる。 0.74
These results show the efficacy of the proposed XEnDec on different types of inputs. これらの結果は,様々な入力に対して提案したXEnDecの有効性を示した。 0.62
Their gap to our final method shows the rationale of using both parallel and monolingual sentences as inputs. 最後の方法とのギャップは、パラレル文と単言語文の両方を入力として使うという理論的根拠を示しています。 0.48
We hypothesize this is because XEnDec implicitly regularizes the model by shuffling and reconstructing words in parallel and monolingual sentences. これは、xendecが並列文と単言語文で単語をシャッフルし再構成することで、暗黙的にモデルを規則化するからだと仮定する。 0.47
Comparison to Mixup. Mixupとの比較。 0.86
We use Mixup (Zhang et al , 2018) to replace our second XEnDec to compute LF2 while keeping the first XEnDec untouched. 私たちはMixup(Zhang et al , 2018)を使って、2番目のXEnDecを置き換えてLF2を計算します。 0.78
When applying Mixup on a pair of training data (x, y) and (x(cid:48), y(cid:48)), Eq (4), Eq (5) and Eq (6) are replaced by e(˜xi) = λe(xi) + (1 − λ)e(x(cid:48) i), e(˜zj) = λe(yj−1) + (1− λ)e(y(cid:48) j−1) and h( ˜yj) = λh(yj) + (1 − λ)h(y(cid:48) j), respectively, where λ is sampled from a Beta distribution. 訓練データ(x, y)と(x(cid:48))、(x(cid:48))、(y(cid:48))、Eq (4)、Eq (5)、Eq (6) のペアにミックスアップを適用すると、e( sxi) = λe(xi) + (1 − λ)e(x(cid:48) i)、e( szj) = λe(yj−1) + (1 − λ)e(y(cid:48) j−1) とh( syj) = λh(yj) + (1 − λ)h(y(cid:48) j) に置換される。 0.92
The comparison between Row 6 and Row 2 in Table 7 shows that Mixup leads to a worse result. 表7のRow 6とRow 2の比較は、Mixupがより悪い結果をもたらすことを示している。 0.72
Different from Mixup which encourages the model to behave linearly to the linear interpolation of training examples, our task combines training examples in a non-linear way in the source end, and forces the model to decouple the non-linear integration in the target end while predicting the entire target sentence based on its partial source sentence. 学習例の線形補間に線形に振る舞うことを奨励するMixupとは違い,本タスクでは,訓練例をソース端の非線形な方法で組み合わせ,対象端の非線形な積分を,その部分的なソース文に基づいて予測しながら,モデルに対象端の非線形な積分を分離させる。 0.81
Computation of A and h(˜y). A と h( y) の計算。 0.65
The last two rows in Table 7 verify the impact of two training techniques discussed in Section 3.2. 表7の最後の2行は、セクション3.2で議論された2つのトレーニング技術の影響を検証します。 0.61
Removing these components would lower the performance. これらのコンポーネントを削除すればパフォーマンスが低下する。 0.59
5. Related Work The recent past has witnessed an increasing interest in the research community on leveraging pre-training models to boost NMT model performance (Ramachandran et al , 2016; Lample & Conneau, 2019; Song et al , 2019; Lewis et al , 2019; Edunov et al , 2018; Zhu et al , 2020; Yang et al , 2019; Liu et al , 2020b). 5. 関連作業 最近の研究コミュニティでは、NMTモデルのパフォーマンス向上に事前トレーニングモデルを活用することへの関心が高まっている(Ramachandran et al , 2016; Lample & Conneau, 2019; Song et al , 2019; Lewis et al , 2019; Edunov et al , 2018; Zhu et al , 2020; Yang et al , 2019; Liu et al , 2020b)。 0.86
Most successes come from lowresource and zero-resource translation tasks. ほとんどの成功は、低リソースとゼロリソースの翻訳タスクによる。 0.59
(Zhu et al , (Zhu et al) 0.68
Figure 2. Results on artificial noisy inputs. 図2。 人工雑音入力結果について 0.70
“CS”: code-switching noise. CS”: コードスイッチングノイズ。 0.67
“DW”: drop-words noise. DW: ドロップワードのノイズ。 0.61
We compare our approach to the standard Transformer on different noise types and fractions. 我々は、異なるノイズタイプと分数で標準変換器と比較する。 0.68
Table 7. Ablation study on English-German. 表7。 英語・ドイツ語におけるアブレーション研究 0.61
ID Different Settings 1 2 3 4 5 6 7 8 IDの異なる設定 1 2 3 6 6 7 8 0.80
Transformer F2-XEnDec without LF2 without LF1 (a prior alignment is used) LS with XEnDec over parallel data XEnDec is replaced by Mixup without dropout A and model predictions without model predictions LF1のないLF2のないトランスフォーマーF2-XEnDecとXEnDecの並列データ上のLSは、ドロップアウトAのないMixupとモデル予測のないモデル予測に置き換えられる。 0.81
BLEU 28.70 BLEU 28.70 0.72
30.46 29.21 29.55 29.23 29.67 29.87 30.24 30.46 29.21 29.55 29.23 29.67 29.87 30.24 0.43
noise to perturb the dataset. データセットを混乱させるノイズ。 0.71
The first type of noise is codeswitching noise (CS) which randomly replaces words in the source sentences with their corresponding target-language words. 最初のタイプのノイズは、ソース文中の単語を対応するターゲット言語単語にランダムに置き換えるcodeswitching noise (cs)である。 0.86
Alignment matrices are employed to find the targetlanguage words in the target sentences. アライメント行列は、ターゲット文中の対象語語を見つけるために使用される。 0.73
The other one is drop-words noise (DW) which randomly discards some words in the source sentences. もう1つはドロップワードノイズ(DW)で、ソース文中のいくつかの単語をランダムに破棄する。 0.63
Figure 2 shows that our approach exhibits higher robustness than the standard Transformer model across all noise types and noise fractions. 図2は、すべてのノイズタイプとノイズ分画に対して、標準トランスフォーマーモデルよりも高いロバスト性を示すことを示す。 0.69
In particular, our approach performs much more stable for the code-switching noise. 特に、コードスイッチングノイズに対して、我々のアプローチはずっと安定しています。 0.58
4.4. Ablation Study 4.4. アブレーション研究 0.70
Table 7 studies the contributions of the key components and verifies the design choices in our approach. 表7は、主要なコンポーネントの貢献を研究し、我々のアプローチにおける設計選択を検証する。 0.73
Contribution of LF2. We first verify the importance of our core loss term LF2. LF2の貢献。 まず、コア損失項LF2の重要性を検証する。 0.71
When LF2 is removed in Eq (9), the training objective is equivalent to summing up supervised (LS) and self-supervised (LF1) losses. LF2 を Eq (9) で除去すると、訓練対象は、教師付き (LS) と自己監督型 (LF1) の損失を和らげることと等価である。 0.60
By comparing Row 2 and 3 in Table 7, we observe a sharp drop (-1.25 BLEU points) caused by the absence of LF2. 表7のRow 2 と 3 を比較することで、LF2 の欠如に起因する急降下(-1.25 BLEU 点)を観測する。 0.79
This result demonstrates the crucial role of the proposed F2-XEnDec that can この結果は、提案されているF2-XEnDecの重要な役割を示す。 0.58
英語(論文から抽出)日本語訳スコア
Self-supervised and Supervised Joint Training for Resource-rich Machine Translation 資源豊富な機械翻訳のための自己指導型共同訓練 0.65
2020) and (Yang et al , 2019) achieve some promising results on resource-rich translations. 2020年) と (Yang et al , 2019) はリソース豊富な翻訳に関する有望な結果を得た。 0.66
They propose to combine NMT model representations and frozen pre-trained representations under the common two-stage framework. NMTモデル表現と凍結事前学習表現を共通2段階フレームワークで組み合わせることを提案する。 0.69
The bottleneck of these methods is that these two stages are decoupled and separately learned, which exacerbates the difficulty of finetuning self-supervised representations on resource-rich language pairs. これらの手法のボトルネックは、これらの2つの段階が分離され、別々に学習されることであり、資源豊富な言語対における自己教師付き表現の微調整が困難になる。 0.50
Our method, on the other hand, jointly trains self-supervised and supervised NMT models to close the gap between representations learned from either of them with an essential new subtask, XEnDec. 一方,本手法では,それぞれが学習した表現間のギャップを,新たなサブタスクであるXEnDecで埋めるために,自己教師と教師のNMTモデルを共同で訓練する。 0.66
In addition, our new subtask can be applied to combine different types of inputs. さらに、我々の新しいサブタスクは、異なるタイプの入力を組み合わせるために適用することができる。 0.65
Experimental results show that our method consistently outperforms previous approaches across several translation benchmarks and establishes a new state-of-the-art result on WMT’14 English-French when applying XEnDec to back-translated corpora. 実験結果から,本手法は複数の翻訳ベンチマークにおいて,先行手法を一貫して上回っており,逆翻訳コーパスにxendecを適用する際に,wmt’14英語フランス語における新たな最先端結果を確立していることがわかった。 0.51
Another line of research related to ours originates in computer vision by interpolating images and their labels (Zhang et al , 2018; Yun et al , 2019) which have been shown effective in improving generalization (Arazo et al , 2019; Jiang et al , 2020; Xu et al , 2021; Northcutt et al , 2021) and robustness of convolutional neural network (Hendrycks et al , 2020). 我々の研究は、画像とそのラベルを補間することによってコンピュータビジョン(Zhang et al , 2018; Yun et al , 2019)を起源とし、一般化の改善に有効であることが示されている(Arazo et al , 2019; Jiang et al , 2020; Xu et al , 2021; Northcutt et al , 2021)。 0.71
Recently, some research efforts have been devoted to introducing this idea to NLP applications (Cheng et al , 2020; Guo et al , 2020; Chen et al , 2020). 近年、このアイデアをNLPアプリケーションに導入するための研究努力がなされている(Cheng et al , 2020; Guo et al , 2020; Chen et al , 2020)。 0.85
Our XEnDec shares the commonality of combining example pairs. 私たちのxendecは、サンプルペアを組み合わせることの共通性を共有します。 0.46
However, XEnDec’s focus is on sequence-to-sequence learning for NLP with the aim of using self-supervised learning to complement supervised learning in joint training. しかし、xendecの焦点はnlpのシーケンスからシーケンスへの学習であり、共同トレーニングで教師付き学習を補完するために自己教師付き学習を使用することを目的としている。
訳抜け防止モード: しかし、xendecの焦点はnlpのシーケンス-to-シーケンス学習である。 自己-教師付き学習を用いて教師付き学習を補う。
0.62
6. Conclusion This paper has presented a joint training approach, F2XEnDec, to combine self-supervised and supervised learning in a single stage. 6. 結論 本稿では,F2XEnDecという共同学習手法を用いて,自己指導と教師付き学習を1段階で組み合わせた。 0.73
The key part is a novel cross encoderdecoder which can be used to “interbreed” monolingual and parallel sentences, which can also be fed with different types of inputs and recover some popular self-supervised and supervised training objectives. キーとなるのはクロスエンコーダで、モノリンガルとパラレルの文を"解釈"するために使用でき、様々な入力を入力し、一般的な自己管理および教師付きトレーニングの目的を回復することができる。 0.67
Experiments on two resource-rich translation tasks, WMT’14 English-German and WMT’14 English-French, show that joint training performs favorably against twostage training approaches when an enormous amount of labeled and unlabeled data is available. WMT'14英語-ドイツ語とWMT'14英語-フランス語の2つのリソース豊富な翻訳タスクの実験は、膨大なラベル付きおよびラベルなしデータが利用可能である場合、共同トレーニングが2段階のトレーニングアプローチに対して好適に機能することを示している。 0.61
When applying XEnDec to deeply fuse monolingual and parallel sentences resulting in F2-XEnDec, the joint training paradigm can better exploit the complementary signal from unlabeled data with significantly stronger performance. XEnDecを単言語文と並列文とを深く融合させてF2-XEnDecを生成する場合、共同トレーニングパラダイムは、ラベルのないデータからの補完的な信号をはるかに高い性能で利用することができる。 0.51
Finally, F2-XEnDec is capable of improving the NMT robustness against input perturbations such as code-switching noise widely found in social media. 最後に、F2-XEnDecは、ソーシャルメディアで広く見られるコードスイッチングノイズなどの入力摂動に対するNMTの堅牢性を改善することができる。 0.60
In the future, we plan to further examine the effectiveness of our approach on larger-scale corpora with high-capacity models. 将来的には,大容量モデルを用いた大規模コーパスへのアプローチの有効性をさらに検証する予定である。 0.66
We also plan to design more expressive noise functions for our approach. また,より表現力のある雑音関数の設計も計画している。 0.67
Acknowledgements The authors would like to thank anonymous reviewers for insightful comments, Isaac Caswell for providing backtranslated corpora, and helpful feedback for the early version of this paper. 著者たちは、匿名のレビュワーによる洞察に富んだコメント、逆翻訳されたコーパスを提供してくれたisaac caswell氏に感謝する。 0.54
References Arazo, E., Ortego, D., Albert, P., O’Connor, N., and McGuinness, K. Unsupervised label noise modeling and loss correction. Arazo, E., Ortego, D., Albert, P., O’Connor, N., and McGuinness, K. Unsupervised label noise modeling and loss correct。 0.78
In International Conference on Machine Learning (ICML), 2019. International Conference on Machine Learning (ICML) 2019に参加。 0.80
Bahdanau, D., Cho, K., and Bengio, Y. Neural machine translation by jointly learning to align and translate. Bahdanau, D., Cho, K., and Bengio, Y. Neural Machine Translation by jointly learning toaligned and translation。 0.80
In International Conference on Learning Representations (ICLR), 2015. 2015年、ICLR(International Conference on Learning Representations)に参加。 0.87
Belinkov, Y. and Bisk, Y. Belinkov, Y. and Bisk, Y. 0.94
Synthetic and natural noise both break neural machine translation. 合成と自然ノイズはどちらもニューラルマシン翻訳を破る。 0.69
In International Conference on Learning Representations (ICLR), 2018. International Conference on Learning Representations (ICLR) 2018に参加。 0.76
Bengio, S., Vinyals, O., Jaitly, N., and Shazeer, N. Scheduled sampling for sequence prediction with recurrent neural networks. bengio, s., vinyals, o., jaitly, n. and shazeer, n. scheduled sampling for sequence prediction with recurrent neural networks (英語) 0.80
arXiv preprint arXiv:1506.03099, 2015. arXiv preprint arXiv:1506.03099, 2015 0.80
Caswell, I., Chelba, C., and Grangier, D. Tagged back- Caswell, I., Chelba, C. and Grangier, D. Tagged Back 0.87
translation. arXiv preprint arXiv:1906.06442, 2019. 翻訳。 arXiv preprint arXiv:1906.06442, 2019 0.78
Chen, J., Yang, Z., and Yang, D. Mixtext: Linguisticallyinform ed interpolation of hidden space for semisupervised text classification. Chen, J., Yang, Z. and Yang, D. Mixtext: 半教師付きテキスト分類のための隠れ空間の言語的にインフォームド補間。 0.75
In Annual Meeting of the Association for Computational Linguistics (ACL), 2020. 計算言語学会(ACL)年次総会(2020年) 0.54
Cheng, Y., Xu, W., He, Z., He, W., Wu, H., Sun, M., and Liu, Y. Semi-supervised learning for neural machine In Annual Meeting of the Association for translation. Cheng, Y., Xu, W., He, W., Wu, Wu, H., Sun, M., Liu, Y. Semi-supervised Learning for Neural Machine In Annual Meeting of the Association for Translation。 0.79
Computational Linguistics (ACL), 2016. ACL (Computational Linguistics) 2016年。 0.79
Cheng, Y., Jiang, L., and Macherey, W. Robust neural machine translation with doubly adversarial inputs. Cheng, Y., Jiang, L. and Macherey, W. Robust Neural Machine translation with double-versarial inputs。 0.83
In Annual Meeting of the Association for Computational Linguistics (ACL), 2019. 計算言語学会(ACL)年次総会, 2019 0.43
Cheng, Y., Jiang, L., Macherey, W., and Eisenstein, J. Advaug: Robust adversarial augmentation for neural machine translation. Cheng, Y., Jiang, L., Macherey, W. and Eisenstein, J. Advaug: Robust adversarial augmentation for Neural Machine translation 0.81
In Annual Meeting of the Association for Computational Linguistics (ACL), 2020. 計算言語学会(ACL)年次総会(2020年) 0.54
Devlin, J., Chang, M.-W., Lee, K., and Toutanova, K. Bert: Pre-training of deep bidirectional transformers for lanIn North American Chapter of guage understanding. Devlin, J., Chang, M.-W., Lee, K., Toutanova, K. Bert: lanIn North American Chapter of guage understandingの深層双方向トランスフォーマーの事前トレーニング。 0.87
英語(論文から抽出)日本語訳スコア
Self-supervised and Supervised Joint Training for Resource-rich Machine Translation 資源豊富な機械翻訳のための自己指導型共同訓練 0.65
the Association for Computational Linguistics (NAACL), 2019. 計算言語学協会(NAACL)、2019年。 0.59
Edunov, S., Ott, M., Auli, M., and Grangier, D. Understanding back-translation at scale. Edunov, S., Ott, M., Auli, M. and Grangier, D. Understanding back-translation at scale。 0.94
In Empirical Methods in Natural Language Processing (EMNLP), 2018. In Empirical Methods in Natural Language Processing (EMNLP) 2018。 0.72
Edunov, S., Baevski, A., and Auli, M. Pre-trained language model representations for language generation. Edunov, S., Baevski, A., and Auli, M. 言語生成のための事前学習型言語モデル表現 0.92
arXiv preprint arXiv:1903.09722, 2019. arXiv preprint arXiv:1903.09722, 2019 0.81
French, R. M. Catastrophic forgetting in connectionist net- フランス・R・M・カタストロフィスト、ネット接続を忘れる- 0.57
works. Trends in cognitive sciences, 1999. 作品。 1999年、認知科学を専攻。 0.58
Garg, S., Peitz, S., Nallasamy, U., and Paulik, M. Jointly learning to align and translate with transformer models. garg, s., peitz, s., nallasamy, u., paulik, m. 共同でトランスフォーマーモデルとの整合と翻訳を学んでいる。
訳抜け防止モード: Garg, S., Peitz, S., Nallasamy, U. Paulik, M. 共同学習 トランスフォーマーモデルと 一致させ 翻訳します
0.79
arXiv preprint arXiv:1909.02074, 2019. arXiv preprint arXiv:1909.02074, 2019 0.81
Gehring, J., Auli, M., Grangier, D., Yarats, D., and Dauphin, Y. N. Convolutional sequence to sequence learning. Gehring, J., Auli, M., Grangier, D., Yarats, D., and Dauphin, Y. N. Convolutional sequence to sequence learning。 0.89
In International Conference on Machine Learning (ICML), 2017. 2017年、国際機械学習会議(ICML)に参加。 0.75
Liu, Y., Gu, J., Goyal, N., Li, X., Edunov, S., Ghazvininejad, M., Lewis, M., and Zettlemoyer, L. Multilingual denoising pre-training for neural machine translation. Liu, Y., Gu, J., Goyal, N., Li, X., Edunov, S., Ghazvininejad, M., Lewis, M., Zettlemoyer, L. Multilingual denoising pre-training for neural machine translation。 0.87
Transactions of the Association for Computational Linguistics, 2020b. アソシエーション・フォー・コンピュテーション・ランゲージズ(the association for computational linguistics, 2020b)の略。 0.37
Lo, C.-k. Yisi-a unified semantic mt quality evaluation and estimation metric for languages with different levels In Proceedings of the Fourth of available resources. lo, c.-k. yisi-a unified semantic mt quality evaluation and estimation metric for different level with languages in proceedings of the fourth of available resources (英語) 0.85
Conference on Machine Translation, 2019. 機械翻訳学会、2019年。 0.54
Nguyen, X.-P., Joty, S., Kui, W., and Aw, A. T. Data diversification: An elegant strategy for neural machine translation. Nguyen, X.-P., Joty, S., Kui, W., and Aw, A. T. Data diversification: ニューラルネットワーク翻訳のエレガントな戦略。 0.84
arXiv preprint arXiv:1911.01986, 2019. arXiv preprint arXiv:1911.0 1986, 2019 0.73
Northcutt, C. G., Jiang, L., and Chuang, I. L. Confident learning: Estimating uncertainty in dataset labels. Northcutt, C. G., Jiang, L., Chuang, I. L. Confident Learning: データセットラベルの不確実性を推定する。 0.79
Journal of Artificial Intelligence Research, 2021. 人工知能研究所、2021年。 0.53
Och, F. J. and Ney, H. The alignment template approach to statistical machine translation. Och, F. J. and Ney, H. 統計機械翻訳におけるアライメントテンプレートアプローチ 0.88
Computational linguistics, 2004. 計算言語学、2004年。 0.67
Guo, D., Kim, Y., and Rush, A. Sequence-level mixed sample data augmentation. Guo, D., Kim, Y. and Rush, A. Sequence-level mixed sample data augmentation 0.92
In Empirical Methods in Natural Language Processing (EMNLP), 2020. In Empirical Methods in Natural Language Processing (EMNLP)、2020年。 0.81
Ott, M., Edunov, S., Grangier, D., and Auli, M. Scaling neural machine translation. Ott, M., Edunov, S., Grangier, D. and Auli, M. Scaling Neural Machine Translation 0.80
arXiv preprint arXiv:1806.00187, 2018. arXiv preprint arXiv:1806.00187, 2018 0.80
Hendrycks, D., Mu, N., Cubuk, E. D., Zoph, B., Gilmer, J., and Lakshminarayanan, B. Augmix: A simple data processing method to improve robustness and uncertainty. Hendrycks, D., Mu, N., Cubuk, E. D., Zoph, B., Gilmer, J., Lakshminarayanan, B. Augmix: 堅牢性と不確実性を改善するシンプルなデータ処理方法。 0.86
In International Conference on Learning Representations (ICLR), 2020. iclr(international conference on learning representations)、2020年。 0.67
Peters, M., Neumann, M., Iyyer, M., Gardner, M., Clark, C., Lee, K., and Zettlemoyer, L. Deep contextualized In North American Chapter of word representations. Peters, M., Neumann, M., Iyyer, M., Gardner, M., Clark, C., Lee, K., and Zettlemoyer, L. Deep 北米における単語表現の文脈化 0.83
the Association for Computational Linguistics (NAACL), 2018. 計算言語学協会(NAACL)、2018年。 0.58
Jiang, L., Huang, D., Liu, M., and Yang, W. Beyond synthetic noise: Deep learning on controlled noisy labels. Jiang, L., Huang, D., Liu, M. and Yang, W. Beyond synthetic noise: Deep Learning on Control Noisy labels 0.81
In International Conference on Machine Learning (ICML), 2020. 2020年、国際機械学習会議(ICML)に参加。 0.75
Kingma, D. P. and Ba, J. Adam: A method for stochastic Kingma, D. P. and Ba, J. Adam:確率的方法 0.81
optimization. arXiv preprint arXiv:1412.6980, 2014. 最適化。 arXiv preprint arXiv:1412.6980, 2014 0.75
Lample, G. and Conneau, A. Cross-lingual language model Lample, G. and Conneau, A. 言語間言語モデル 0.86
pretraining. arXiv, pp. 事前訓練 arXiv, pp。 0.69
arXiv–1901, 2019. 2019年、1901年。 0.55
Lample, G., Conneau, A., Denoyer, L., and Ranzato, M. Unsupervised machine translation using monolingual corpora only. Lample, G., Conneau, A., Denoyer, L. and Ranzato, M. Unsupervised machine translation using monolingual corpora only。 0.87
arXiv preprint arXiv:1711.00043, 2017. arXiv preprint arXiv:1711.00043, 2017 0.80
Lewis, M., Liu, Y., Goyal, N., Ghazvininejad, M., Mohamed, A., Levy, O., Stoyanov, V., and Zettlemoyer, L. Bart: Denoising sequence-to-sequence pre-training for natural language generation, translation, and comprehension. Lewis, M., Liu, Y., Goyal, N., Ghazvininejad, M., Mohamed, A., Levy, O., Stoyanov, V., and Zettlemoyer, L. Bart: 自然言語生成、翻訳、理解のためのシーケンス・ツー・シーケンスの事前学習のデモ。 0.87
arXiv preprint arXiv:1910.13461, 2019. arXiv preprint arXiv:1910.13461, 2019 0.81
Liu, X., Duh, K., Liu, L., and Gao, J. Liu, X., Duh, K., Liu, L., Gao, J。 0.77
Very deep transformers for neural machine translation. ニューラルマシン翻訳のための非常に深い変換器 0.70
arXiv preprint arXiv:2008.07772, 2020a. arXiv preprint arXiv:2008.07772, 2020a 0.73
Radford, A., Narasimhan, K., Salimans, T., and Sutskever, I. Radford, A., Narasimhan, K., Salimans, T., Sutskever, I。 0.76
Improving language understanding by generative pretraining, 2018. 生成前学習による言語理解の改善、2018年。 0.67
Ramachandran, P., Liu, P. J., and Le, Q. V. Unsupervised pretraining for sequence to sequence learning. Ramachandran, P., Liu, P. J. and Le, Q. V. Unsupervised pretraining for sequence to sequence learning。 0.91
arXiv preprint arXiv:1611.02683, 2016. arXiv preprint arXiv:1611.02683, 2016 0.80
Rieger, R., Michaelis, A., and Green, M. M. Glossary of genetics and cytogenetics: classical and molecular. Rieger, R., Michaelis, A. and Green, M. M. Glossary of genetics and cytogenetics: classical and molecular 0.88
Springer Science & Business Media, 2012. Springer Science & Business Media、2012年。 0.85
Schuster, M. and Nakajima, K. Japanese and korean voice search. Schuster, M. and Nakajima, K. Japanese and korean voice search 0.87
In International Conference on Acoustics, Speech and Signal Processing (ICASSP), 2012. 2012年、ICASSP(International Conference on Acoustics, Speech and Signal Processing)に参加。 0.87
Sellam, T., Das, D., and Parikh, A. Bleurt: Learning robust metrics for text generation. Sellam, T., Das, D., Parikh, A. Bleurt: テキスト生成のための堅牢なメトリクスを学ぶ。 0.84
In Annual Meeting of the Association for Computational Linguistics (ACL), 2020. 計算言語学会(ACL)年次総会(2020年) 0.54
Sennrich, R., Haddow, B., and Birch, A. Neural machine translation of rare words with subword units. Sennrich, R., Haddow, B. and Birch, A. Neural Machine translation of rare words with subword units 0.83
In Annual Meeting of the Association for Computational Linguistics (ACL), 2016a. 計算言語学会(acl)2016年度大会を開催。 0.50
英語(論文から抽出)日本語訳スコア
Self-supervised and Supervised Joint Training for Resource-rich Machine Translation 資源豊富な機械翻訳のための自己指導型共同訓練 0.65
Sennrich, R., Haddow, B., and Birch, A. Sennrich, R., Haddow, B., Birch, A。 0.75
Improving nerual machine translation models with monolingual data. 単言語データを用いた機械翻訳モデルの改良 0.82
In Annual Meeting of the Association for Computational Linguistics (ACL), 2016b. 計算言語学会(ACL)2016年大会報告 0.42
Shen, J., Nguyen, P., Wu, Y., Chen, Z., Chen, M. X., Jia, Y., Kannan, A., Sainath, T., Cao, Y., Chiu, C.-C., et al Lingvo: a modular and scalable framework for sequenceto-sequence modeling. Shen, J., Nguyen, P., Wu, Y., Chen, Z., Chen, M. X., Jia, Y., Kannan, A., Sainath, T., Cao, Y., Chiu, C.-C., et al Lingvo: シーケンスモデリングのためのモジュールでスケーラブルなフレームワーク。 0.85
arXiv preprint arXiv:1902.08295, 2019. arXiv preprint arXiv:1902.08295, 2019 0.81
Song, K., Tan, X., Qin, T., Lu, J., and Liu, T.-Y. Song, K., Tan, X., Qin, T., Lu, J., Liu, T.-Y 0.82
Mass: Masked sequence to sequence pre-training for language In International Conference on Machine generation. Mass: Masked sequence to sequence pre-training for Language In International Conference on Machine Generation (英語) 0.87
Learning (ICML), 2019. 学習(icml)、2019年。 0.65
Vaswani, A., Shazeer, N., Parmar, N., Uszkoreit, J., Jones, L., Gomez, A. N., Kaiser, Ł., and Polosukhin, I. Vaswani, A., Shazeer, N., Parmar, N., Uszkoreit, J., Jones, L., Gomez, A. N., Kaiser, s., Polosukhin, I。 0.83
Attention is all you need. 注意はあなたが必要とするすべてです。 0.63
In Advances in Neural Information Processing Systems (NeurIPS), 2017. ニューラル情報処理システム(neural information processing systems:neurips)2017 年。 0.69
Vincent, P., Larochelle, H., Bengio, Y., and Manzagol, P.-A. Vincent, P., Larochelle, H., Bengio, Y., Manzagol, P.-A。 0.85
Extracting and composing robust features with denoising autoencoders. 自動エンコーダによる堅牢な機能の抽出と構成。 0.57
In International Conference on Machine Learning (ICML), 2008. 2008年、ICML(International Conference on Machine Learning)に参加。 0.88
Xu, Y., Zhu, L., Jiang, L., and Yang, Y. Xu, Y., Zhu, L., Jiang, L., Yang, Y。 0.77
Faster meta update strategy for noise-robust deep learning. ノイズロスト深層学習のための高速なメタ更新戦略 0.74
In Conference on Computer Vision and Pattern Recognition (CVPR), 2021. コンピュータビジョン・パターン認識会議(CVPR)2021年。 0.59
Yang, J., Wang, M., Zhou, H., Zhao, C., Yu, Y., Zhang, W., and Li, L. Towards making the most of bert in neural machine translation. yang, j., wang, m., zhou, h., zhao, c., yu, y., zhang, w., li, l. 神経機械翻訳におけるbertの最大化に向けて。
訳抜け防止モード: Yang, J., Wang, M., Zhou, H. Zhao, C., Yu, Y., Zhang, W. and Li, L. towardss 神経機械翻訳において バートを最大限に活用しています
0.89
arXiv preprint arXiv:1908.05672, 2019. arXiv preprint arXiv:1908.05672, 2019 0.81
Yun, S., Han, D., Oh, S. J., Chun, S., Choe, J., and Yoo, Y. Cutmix: Regularization strategy to train strong classifiers with localizable features. Yun, S., Han, D., Oh, S. J., Chun, S., Choe, J. and Yoo, Y. Cutmix: ローカライズ可能な特徴を持つ強力な分類器をトレーニングするための正規化戦略。 0.83
In International Conference on Computer Vision (ICCV), 2019. 2019年、ICCV(International Conference on Computer Vision)に参加。 0.86
Zhang, H., Cisse, M., Dauphin, Y. N., and Lopez-Paz, D. mixup: Beyond empirical risk minimization. Zhang, H., Cisse, M., Dauphin, Y. N., Lopez-Paz, D. mixup: 経験的リスク最小化を超えて。 0.81
In International Conference on Learning Representations (ICLR), 2018. International Conference on Learning Representations (ICLR) 2018に参加。 0.76
Zhu, J., Xia, Y., Wu, L., He, D., Qin, T., Zhou, W., Li, H., and Liu, T.-Y. Zhu, J., Xia, Y., Wu, L., He, D., Qin, T., Zhou, W., Li, H., Liu, T.-Y 0.84
Incorporating bert into neural machine translation. bertを神経機械翻訳に組み込む。 0.72
arXiv preprint arXiv:2002.06823, 2020. arXiv preprint arXiv:2002.06823, 2020 0.81
Appendix Figure 3. Comparison of finetuning and training from scratch using Transformer and F2-XEnDec. 付録 図3。 Transformer と F2-XEnDec を用いたスクラッチからの微調整と訓練の比較 0.64
In both methods, pre-training leads to faster convergence but fails to improve the final performance after the convergence. どちらの方法においても、事前トレーニングはより高速な収束につながるが、収束後の最終的なパフォーマンスは改善されない。
訳抜け防止モード: どちらの方法でも、プレ-トレーニングはより速く収束する しかし コンバージェンス後に 最終性能は向上しない。
0.62
The comparison between the figures shows our joint training approach on the left (the blue curve) significantly outperforms against the two-stage training on the right. 比較の結果,左側の合同トレーニングアプローチ(青い曲線)は,右側の2段階トレーニングよりも有意に優れていた。 0.69
Final BLEU numbers are reported in Table 5 in the main paper. BLEUの最終数値は表5に記載されている。 0.69
A. Training Details Data Pre-processing We mainly follows the pre-processing pipeline 3 which is also adopted by (Ott et al , 2018), (Edunov et al , 2018) and (Zhu et al , 2020), except for the sub-word tool. A。 トレーニングの詳細 データ前処理 私たちは主に、サブワードツールを除く(Ott et al , 2018)、(Edunov et al , 2018)、(Zhu et al , 2020)にも採用されている前処理パイプライン3に従います。 0.79
To verify the consistency between the word piece model (Schuster & Nakajima, 2012) and the BPE model (Sennrich et al , 2016a), we conduct a comparison experiment to train two standard Transformer models using the same data set processed by the word piece model and the BPE model respectively. ワードピースモデル(Schuster & Nakajima, 2012)とBPEモデル(Sennrich et al , 2016a)の整合性を検証するため、ワードピースモデルとBPEモデルで処理された同じデータセットを用いて、2つの標準トランスフォーマーモデルをそれぞれ訓練する比較実験を行った。 0.85
The BLEU difference between them is about ±0.2, which suggests there is no significant difference between them. BLEUの差は約±0.2であり、両者の間に有意な差はないことを示している。 0.73
Batching Data Transformer groups training examples of similar lengths together with a varying batch size for training efficiency (Vaswani et al , 2017). Batching Data Transformer Groupは、トレーニング効率の異なるバッチサイズとともに、同様の長さのトレーニング例をトレーニングする(Vaswani et al , 2017)。 0.75
In our approach, when 私たちのアプローチでは 0.68
3https://github.com/ pytorch/fairseq/tree / 3https://github.com/ pytorch/fairseq/tree / 0.29
master/examples/tran slation master/examples/tran slation 0.39
0.0x1040.5x1041.0x10 41.5x1042.0x1042.5x1 043.0x104Iterations2 223242526272829BLEUT ransformerTransforme r+Finetune0.0x1041.0x1 042.0x1043.0x1044.0x 1045.0x104Iterations 2224262830BLEUF2-XEn DecF2-XEnDec+Finetune 0.0x1040.5x1041.0x10 41.5x1042.0x1042.5x1 043.0x104Iterations2 22324252626262629BLE UTransformerTransfor mer+Finetune0.0x1041.0x1 042.0x1043.0x1044.0x 1045.0x104Iterations 2224262830BLEUF2-XEn DecF2-XEnDec+Finetune 0.03
英語(論文から抽出)日本語訳スコア
Self-supervised and Supervised Joint Training for Resource-rich Machine Translation 資源豊富な機械翻訳のための自己指導型共同訓練 0.65
interpolating two source sentences, xp and y(cid:5), it is better if the lengths of xp and y(cid:5) are similar, which can reduce the chance of wasting positions over padding tokens. xpとy(cid:5)の2つのソース文を補間すると、xpとy(cid:5)の長さが似ている方が良い。
訳抜け防止モード: xp と y の2つの元文を補間する(cid:5 ) よかったら xp と y (cid:5 ) の長さは似ている。 パディングトークンよりも 位置を無駄にする確率を下げることができます
0.72
To this end, in the first round, we search for monolingual sentences with exactly the same length of the source sentence in a parallel sentence pair. この目的のために、第1ラウンドにおいて、ソース文と全く同じ長さの単言語文を並列文対で検索する。 0.59
After the first traversal of the entire parallel data set, we relax the length difference to 1. 並列データセット全体の最初のトラバースの後、長さ差を1に緩和する。 0.71
This process is repeated by relaxing the constraint until all the parallel data are paired with their own monolingual data. このプロセスは、すべての並列データが独自の単言語データとペアリングされるまで、制約を緩和することで繰り返される。
訳抜け防止モード: この過程を繰り返すと すべての並列データが独自の単言語データとペアになるまで、制約を緩和する。
0.80
B. A Prior Alignment Matrix When LF1 is removed, we can not obtain A(cid:48) according to Algorithm 1 in the main paper which leads to the failure of calculating LF2. B。 lf1を除去した場合の事前アライメント行列は、lf2の計算に失敗する主論文のアルゴリズム1に従って(cid:48)を得ることができない。 0.75
Thus we propose a prior alignment そこで我々は事前アライメントを提案する。 0.57
to tackle this issue. この問題に対処するためです 0.57
For simplicity, we set n(·) to be a copy function when doing the first XEnDec, which means that we just randomly mask some words in the first round of XEnDec. 単純性のため、n(·) を最初の xendec を行う際にコピー関数とすると、これは xendec の最初のラウンドでいくつかの単語をランダムにマスクすることを意味する。 0.63
In the second XEnDec, we want to combine (xp, yp) and (y(cid:5), y). 第2のxendecでは、(xp, yp) と (y(cid:5), y) を組み合わせたい。 0.69
The alignment matrix A(cid:48) for (y(cid:5), y) is constructed as follows. y(cid:5, y) に対するアライメント行列 a(cid:48) を次のように構成する。 0.78
If a word yj in the target sentence y is picked in the source side which indicates y(cid:5) j is picked and mj = 0, its attention value A(cid:48) , otherwise it is assigned to 1−p if mi = 1. 目的文 y の単語 yj が y(cid:5) j のソース側で選択され、mj = 0 の注意値 A(cid:48) が選択された場合、そうでなければ mi = 1 であれば 1−p に割り当てられる。 0.85
Conversely, If a word yj is (cid:107)m(cid:107)1 not picked which indicates mj = 1, its attention value A(cid:48) ji is assigned to if (cid:107)1−m(cid:107)1 mi = 1. 逆に、mj = 1 を示す単語 yj が (cid:107)m(cid:107)1 でない場合、その注意値 a(cid:48) ji が (cid:107)1−m(cid:107)1 mi = 1 に割り当てられる。 0.86
ji if mi = 0 is assigned to mi = 0 が割り当てられた場合、ji 0.80
if mi = 0, otherwise it is mi = 0 であれば、そうでなければ 0.77
p (cid:107)1−m(cid:107)1 p (cid:107)1−m(cid:107)1 0.78
p(cid:107)m(cid:107) 1 p(cid:107)m(cid:107) 1 0.84
1−p 1-p 0.42
                         ページの最初に戻る

翻訳にはFugu-Machine Translatorを利用しています。