論文の概要、ライセンス

# (参考訳) augvic:低リソースnmtでバイテキストを活用 [全文訳有]

AUGVIC: Exploiting BiText Vicinity for Low-Resource NMT ( http://arxiv.org/abs/2106.05141v1 )

ライセンス: CC BY 4.0
Tasnim Mohiuddin, M Saiful Bari, Shafiq Joty(参考訳) Neural Machine Translation (NMT)の成功は、大きなbitextトレーニングコーパスの可用性に大きく依存している。 低リソース言語対にそのような大きなコーパスがないため、NMTシステムは性能が劣ることが多い。 特有な単言語データはしばしば役立つが、それを取得することは、特に低リソース言語にとって非常に高価である。 さらに、bitext(train/test)とモノリンガルデータのドメインミスマッチはパフォーマンスを低下させる可能性がある。 このような問題を緩和するために、我々は低リソースNMTのための新しいデータ拡張フレームワークであるAUGVICを提案し、このフレームワークは、余分なモノリンガルデータを明示的に使用することなく、与えられたbitextのビジナルサンプルを利用する。 ドメイン内のbitextデータをより細かいレベル制御で多様化することができる。 異なるドメインからのデータからなる4つの低リソース言語ペアに関する広範な実験を通して、我々の手法は、余分なドメイン内モノリンガルデータを使用する従来のバックトランスレーションに匹敵することを示した。 AUGVICから生成された合成並列データと余分な単言語データとを組み合わせると、さらなる改善が達成される。 AUGVICは、従来のバックトランスレーションにおいて、関連ドメインと遠隔ドメインのモノリンガルデータの相違を緩和する。 AUGVICの様々なコンポーネントのコントリビューションを理解するために、我々は詳細なフレームワーク分析を行う。

The success of Neural Machine Translation (NMT) largely depends on the availability of large bitext training corpora. Due to the lack of such large corpora in low-resource language pairs, NMT systems often exhibit poor performance. Extra relevant monolingual data often helps, but acquiring it could be quite expensive, especially for low-resource languages. Moreover, domain mismatch between bitext (train/test) and monolingual data might degrade the performance. To alleviate such issues, we propose AUGVIC, a novel data augmentation framework for low-resource NMT which exploits the vicinal samples of the given bitext without using any extra monolingual data explicitly. It can diversify the in-domain bitext data with finer level control. Through extensive experiments on four low-resource language pairs comprising data from different domains, we have shown that our method is comparable to the traditional back-translation that uses extra in-domain monolingual data. When we combine the synthetic parallel data generated from AUGVIC with the ones from the extra monolingual data, we achieve further improvements. We show that AUGVIC helps to attenuate the discrepancies between relevant and distant-domain monolingual data in traditional back-translation. To understand the contributions of different components of AUGVIC, we perform an in-depth framework analysis.
公開日: Wed, 9 Jun 2021 15:29:18 GMT

※ 翻訳結果を表に示しています。PDFがオリジナルの論文です。翻訳結果のライセンスはCC BY-SA 4.0です。詳細はトップページをご参照ください。

翻訳結果

    Page: /      
英語(論文から抽出)日本語訳スコア
AUGVIC: Exploiting BiText Vicinity for Low-Resource NMT augvic:低リソースnmtでバイテキストを活用 0.66
Tasnim Mohiuddin∗ ¶, M Saiful Bari ∗¶, and Shafiq Joty¶† tasnim mohiuddin ∗ , m saiful bari ∗ , shafiq joty など。 0.62
{mohi0004, bari0001, srjoty}@ntu.edu.sg mohi0004, bari0001, srjoty}@ntu.edu.sg 0.76
¶Nanyang Technological University, Singapore シンガポール・寧安工業大学 0.74
†Salesforce Research Asia, Singapore salesforce research asia, singapore(英語) 0.60
1 2 0 2 n u J 1 2 0 2 n u J 0.85
9 ] L C . s c [ 9 ]LC。 sc [ 0.60
1 v 1 4 1 5 0 1 v 1 4 1 5 0 0.85
. 6 0 1 2 : v i X r a . 6 0 1 2 : v i X r a 0.85
Abstract The success of Neural Machine Translation (NMT) largely depends on the availability of large bitext training corpora. 概要 Neural Machine Translation (NMT)の成功は、大きなbitextトレーニングコーパスの可用性に大きく依存している。 0.62
Due to the lack of such large corpora in low-resource language pairs, NMT systems often exhibit poor performance. 低リソース言語対にそのような大きなコーパスがないため、NMTシステムは性能が劣ることが多い。 0.71
Extra relevant monolingual data often helps, but acquiring it could be quite expensive, especially for low-resource languages. 特有な単言語データはしばしば役立つが、それを取得することは、特に低リソース言語にとって非常に高価である。 0.62
Moreover, domain mismatch between bitext (train/test) and monolingual data might degrade the performance. さらに、bitext(train/test)とモノリンガルデータのドメインミスマッチはパフォーマンスを低下させる可能性がある。 0.53
To alleviate such issues, we propose AUGVIC, a novel data augmentation framework for low-resource NMT which exploits the vicinal samples of the given bitext without using any extra monolingual data explicitly. このような問題を緩和するために、我々は低リソースNMTのための新しいデータ拡張フレームワークであるAUGVICを提案し、このフレームワークは、余分なモノリンガルデータを明示的に使用することなく、与えられたbitextのビジナルサンプルを利用する。 0.51
It can diversify the in-domain bitext data with finer level control. ドメイン内のbitextデータをより細かいレベル制御で多様化することができる。 0.64
Through extensive experiments on four low-resource language pairs comprising data from different domains, we have shown that our method is comparable to the traditional back-translation that uses extra in-domain monolingual data. 異なるドメインからのデータからなる4つの低リソース言語ペアに関する広範な実験を通して、我々の手法は、余分なドメイン内モノリンガルデータを使用する従来のバックトランスレーションに匹敵することを示した。 0.70
When we combine the synthetic parallel data generated from AUGVIC with the ones from the extra monolingual data, we achieve further improvements. AUGVICから生成された合成並列データと余分な単言語データとを組み合わせると、さらなる改善が達成される。 0.76
We show that AUGVIC helps to attenuate the discrepancies between relevant and distant-domain monolingual data in traditional back-translation. AUGVICは、従来のバックトランスレーションにおいて、関連ドメインと遠隔ドメインのモノリンガルデータの相違を緩和する。 0.53
To understand the contributions of different components of AUGVIC, we perform an in-depth framework analysis. AUGVICの様々なコンポーネントのコントリビューションを理解するために、我々は詳細なフレームワーク分析を行う。 0.73
Introduction 1 Neural Machine Transaltion (NMT) has shown impressive performance in high-resource settings, even claiming to achieve parity with human professional translators (Hassan et al , 2018; Popel et al , 2020). はじめに 1.1 Neural Machine Transaltion (NMT)は、人間のプロフェッショナルトランスレーター(Hassan et al , 2018; Popel et al , 2020)と同等であると主張して、高リソース環境での優れたパフォーマンスを示している。 0.60
Most successful NMT systems have billions of parameters (Lepikhin et al , 2021). 最も成功したNTT系は数十億のパラメータを持つ(Lepikhin et al , 2021)。 0.71
They generally work well only when a good amount of parallel training data is available and perform poorly 通常は、大量の並列トレーニングデータが利用可能で、パフォーマンスが良くない場合にのみ、うまく機能する。 0.66
in low-resource conditions (Koehn and Knowles, 2017; Guzm´an et al , 2019). 低リソース環境では(Koehn and Knowles, 2017; Guzm ́an et al , 2019)。 0.82
However, majority of the languages are low-resourced despite being used by large portion of world population. しかし、ほとんどの言語は世界の人口の大部分で使われているにもかかわらず、低資源である。 0.66
Hence, improving low-resource MT quality has been of great interests to the MT researchers. そのため,低リソースMTの品質向上はMT研究者にとって大きな関心事となっている。 0.62
There have been several attempts to extend the success of NMT in high-resource settings to lowresource language pairs that have a relatively small amount of available parallel data. 比較的少量の並列データを持つ低リソース言語ペアに、高リソース設定におけるNMTの成功を拡大する試みがいくつかある。 0.78
Most of these methods mainly focus on leveraging extra monolingual data through back-translation (Sennrich et al , 2016) and self-training (He et al , 2020), or translation knowledge transfer through parallel data involving other assisting language pairs (Firat et al , 2016a,b; Johnson et al , 2017; Neubig and Hu, 2018).1 Large scale pre-training is another recent trend to utilize large monolingual data for NMT (Liu et al , 2020). これらの手法のほとんどは、バックトランスレーション(sennrich et al , 2016)と自己学習(he et al , 2020)、または他の補助言語ペア(firat et al , 2016a,b; johnson et al , 2017; neubig and hu, 2018)を含む並列データによる翻訳知識の伝達による余分な単言語データの利用に重点を置いている。
訳抜け防止モード: これらの手法の大部分は、バック(Sennrich et al, 2016)とセルフ-トレーニング(He et al, 2020)を通じて、余分なモノリンガルデータを活用することに焦点を当てている。 あるいは、他の補助言語ペア(Firat et al, 2016a, b ; Johnson et al, 2017 ; Neubig と Hu )を含む並列データによる翻訳知識の伝達。 2018年)1 大規模プレ-トレーニングが新しいトレンド NMT(Liu et al, 2020)の大きなモノリンガルデータを利用する。
0.74
However, very few work has considered low-resource NMT without using auxiliary data or other pivot languages. しかし、補助データや他のピボット言語を使わずに低リソースnmtを考える研究はほとんどない。 0.64
In the presence of a sufficient amount of indomain monolingual data, back-translation (BT) has proved to be quite successful (Edunov et al , 2018). 十分な量の単言語データが存在するため、バックトランスレーション(BT)は非常に成功した(Edunov et al , 2018)。
訳抜け防止モード: 十分な量のドメイン単言語データが存在する場合。 back - translation (BT ) が証明された 非常に成功した(Edunov et al, 2018)。
0.74
In this approach, a reverse intermediate model is trained on the original parallel data, which is later used to generate synthetic parallel data by translating sentences from target-side monolingual data into the source language. このアプローチでは、元の並列データに基づいて逆中間モデルを訓練し、後にターゲット側モノリンガルデータからの文をソース言語に翻訳することで合成並列データを生成する。 0.81
However, when there are scarcity of in-domain data which indeed a common situation in many low-resource settings, the success of BT may be limited (Chen et al , 2019). しかし、多くの低リソース環境において、実際に共通の状況にあるドメイン内データが少ない場合、btの成功は限られる可能性がある(chen et al , 2019)。 0.66
Another understudied problem with BT is the issue with domain mismatch (Edunov et al , 2020). BTのもう一つの未調査の問題はドメインミスマッチの問題である(Edunov et al , 2020)。 0.72
To elaborate, let us consider two scenarios: (i) the training and testing data come from the same or relevant domains (e g , News), and (ii) the test domain (News) is different from the training domain (e g , 詳しくは、2つのシナリオを考えてみよう: (i) トレーニングとテストデータは、同じまたは関連するドメイン(ニュースなど)から来ており、(ii) テストドメイン(ニュース)は、トレーニングドメインとは異なる(例えば)。 0.81
∗Equal contribution 1See (Dabre et al , 2020) for a survey of the later. ∗平等貢献 1 see (dabre et al , 2020)を参照。 0.60
英語(論文から抽出)日本語訳スコア
Subtitles). In the former case, we can foresee two problems. 字幕)。 前者の場合、2つの問題を予見できる。 0.62
First, if we use out-of-domain monolingual data which is abundant, it might misguide the model and move it far away from the actual test distribution. 第一に、豊富なドメイン外単言語データを使用する場合、モデルを誤解させ、実際のテスト分布から遠ざける可能性がある。 0.78
Second, even if the monolingual data is from a domain similar to that of the training/testing data, there might be differences in topics, modality, style, etc., which might induce noise. 第二に、単言語データがトレーニング/テストデータと類似したドメインであるとしても、トピック、モダリティ、スタイルなどに違いがあり、ノイズを引き起こす可能性がある。 0.79
For the latter scenario, even if the monolingual data comes from the similar domain as the test data (News), the corresponding (reverse) translations will be noisy as the intermediate model would be trained on a different domain (Subtitles). 後者のシナリオでは、たとえモノリンガルデータがテストデータ(news)と同じドメインから来ているとしても、中間モデルは別のドメイン(サブタイトル)でトレーニングされるため、対応する(リバース)翻訳はノイズになる。 0.76
Consequently, these noisy pseudo-parallel data will induce noise during training and might cause the model to perform worse (Wang et al , 2018). その結果、これらのノイズの多い擬似並列データはトレーニング中にノイズを誘発し、モデルを悪化させる可能性がある(Wang et al , 2018)。 0.67
On the other hand, using in-domain (Subtitles) monolingual data in back-translation will not give enough diversity to cover the test domain (News). 一方で、バックトランスレーションにおけるin-domain(サブタイトル)単言語データを使用すると、テストドメイン(news)をカバーするのに十分な多様性が得られなくなる。
訳抜け防止モード: 一方では。 in - domain (subtitles ) monolingual data in back - translation 十分な多様性が得られず テストドメイン(ニュース)をカバーする。
0.83
In this work, inspired by the Vicinal Risk Minimization principle (Chapelle et al , 2001), we propose AUGVIC, a novel method to augment vicinal samples around the bitext distribution. 本研究では, ビシナルリスク最小化原理(Chapelle et al , 2001)に触発されて, ビシナルサンプルをbitext分布に拡張する新しい方法であるAUGVICを提案する。 0.76
Instead of using extra monolingual data, AUGVIC aims to leverage the vicinal samples of the original bitext, thereby enlarging the support of the training bitext distribution to improve model generalization. augvicは、余分な単言語データを使う代わりに、元のバイテキストのサンプルを活用し、モデルの一般化を改善するためにトレーニングバイテキスト分布のサポートを拡大することを目指している。 0.59
The main advantage is that the resulting distribution remains close to the original distribution and can be controlled at a finer level (Figure 1). 主な利点は、結果として得られる分布が元の分布に近く、より細かいレベルで制御できることである(図1)。 0.85
With the goal of training a source-to-target NMT system, AUGVIC augments vicinal samples in the target language. AUGVICは、ソース・ツー・ターゲットNMTシステムのトレーニングを目的として、ターゲット言語のビジナルサンプルを増強する。 0.66
The vicinal samples are generated by predicting the masked tokens of a target bitext sentence using a pretrained large-scale language model. 予め訓練された大規模言語モデルを用いて、対象のbitext文のマスキングトークンを予測することにより、ビジナルサンプルを生成する。 0.64
To generate synthetic bitext data from these augmented vicinal samples through a reverse intermediate (target-to-source) model, we propose two different methods: the first one is based on the traditional BT, while the second one leverages the original source sentence as a guide. 逆中間(ターゲット・ツー・ソース)モデルを用いて、これらの拡張されたサンプルから合成されたバイテキストデータを生成するために、まずは従来のbtに基づいて、2つ目は原文をガイドとして利用するという2つの方法を提案する。 0.66
Finally, we train the source-to-target model by combining the original parallel data with the synthetic bitext. 最後に、元の並列データと合成バイテキストを組み合わせることで、ソース・ツー・ターゲットモデルを訓練する。 0.59
In order to demonstrate the effectiveness and robustness of AUGVIC, we conduct extensive experiments on four low-resource language pairs comprising data from different domains. AUGVICの有効性とロバスト性を示すために、異なるドメインのデータからなる4つの低リソース言語対について広範な実験を行った。 0.66
Our results show significant improvements over the bitext baselines with 2.76 BLEU gains on an average on eight different translation tasks without using any extra monolingual data. 以上の結果から,8つの異なる翻訳タスクで平均2.76 bleu向上率でbitextベースラインを大きく改善した。 0.58
AUGVIC also com- AUGVICも参照。 0.67
plements traditional BT with additive gains when extra monolingual data is used. 余分なモノリンガルデータを使用すると、BTを付加的なゲインで埋め込む。 0.48
We also show AUGVIC’s efficacy in bridging the gap between in-domain and out-of-domain performance in traditional back-translation with monolingual data. また,従来のモノリンガルデータを用いたバックトランスレーションにおいて,ドメイン内とドメイン外のパフォーマンスのギャップを埋めるAUGVICの有効性を示す。 0.61
We carried out an ablation study to understand the contribution of the diversity factor in our proposed framework. 提案フレームワークにおける多様性因子の寄与を理解するためのアブレーション研究を行った。 0.77
We open-source our framework at https://ntunlpsg.git hub.io/project/augvi c/. 私たちはフレームワークをhttps://ntunlpsg.git hub.io/project/augvi c/でオープンソース化しました。 0.35
2 Related Work Two lines of studies are relevant to our work. 2 関連作業 私たちの研究には2行の研究が関係している。 0.67
Low-resource NMT Although the main focus of investigation and improvement in NMT has been in high-resource settings, there has been a recent surge of interest in low-resource MT. 低リソースNMT NMTの調査と改善の主な焦点は、高リソース環境にあるが、近年、低リソースMTへの関心が高まっている。 0.62
However, achieving satisfactory performance in low-resource settings turns out to be challenging for NMT systems (Koehn and Knowles, 2017). しかし、低リソース環境での良好な性能を達成することは、NTTシステムにとって困難であることが判明した(Koehn and Knowles, 2017)。
訳抜け防止モード: しかし、低リソース設定で満足な性能を達成する NMTシステムには難しいことが判明 (Koehn and Knowles, 2017)。
0.80
Recent research has mainly focused on creating and cleaning parallel (Ramasamy et al , 2014; Islam, 2018) and comparable data (Tiedemann, 2012), utilizing bilingual lexicon induction (Conneau et al , 2017; Artetxe et al , 2018; Mohiuddin and Joty, 2019, 2020; Mohiuddin et al , 2020), fine-grained hyperparameter tuning (Sennrich and Zhang, 2019), and using other language pairs as pivot (Cheng et al , 2017; Kim et al , 2019). 最近の研究は、並列処理の作成とクリーニング(Ramasamy et al , 2014; Islam, 2018; Tiedemann, 2012)、バイリンガル語彙誘導(Conneau et al , 2017; Artetxe et al , 2018; Mohiuddin and Joty, 2019, 2020; Mohiuddin et al , 2020)、微細なハイパーパラメータチューニング(Sennrich and Zhang, 2019)、その他の言語ペアをピボット(Cheng et al , 2017; Kim et al , 2019)などに焦点を当てている。 0.77
Another avenue of research follows multilingual translation, where translation knowledge from highresource language pairs are exploited by training a single NMT system on a mix of high-resource and low-resource language pairs (Firat et al , 2016a,b; Kocmi and Bojar, 2018; Gu et al , 2018; Neubig and Hu, 2018; Guzm´an et al , 2019). 別の研究方法は多言語翻訳であり、高リソース言語ペアからの翻訳知識は、高リソース言語ペアと低リソース言語ペア(firat et al , 2016a,b; kocmi and bojar, 2018; gu et al , 2018; neubig and hu, 2018; guzm ́an et al , 2019)の混合で単一のnmtシステムをトレーニングすることによって活用される。 0.76
Zoph et al (2016) proposed a variant where they pretrain NMT system on a high-resource language pair before finetuning on a target low-resource language pair. Zoph et al (2016)は、ターゲットの低リソース言語ペアを微調整する前に、高リソース言語ペアでNMTシステムを事前訓練する変種を提案した。 0.65
Data Augmentation for NMT Till now, one of the most successful data augmentation strategies in NMT is back-translation (BT) (Sennrich et al , 2016; Hoang et al , 2018), which exploits targetside monolingual data. NMT Tillのデータ拡張は現在、NMTで最も成功したデータ拡張戦略の1つは、ターゲット側のモノリンガルデータを利用するバックトランスレーション(BT)(Sennrich et al , 2016; Hoang et al , 2018)である。 0.79
Edunov et al (2018) investigated BT extensively and scaled the method to millions of target-side monolingual sentences. Edunov et al (2018) はBTを広範囲に調査し、この手法を何百万もの単言語文に拡張した。 0.54
Caswell et al (2019) explored the role of noise in noisedBT and proposed to use a tag for back-translated source sentences. Caswell et al (2019)は、ノイズdBTにおけるノイズの役割を探求し、後方翻訳されたソース文にタグを使用することを提案した。
訳抜け防止モード: Caswellら(2019)はノイズdBTにおけるノイズの役割を探求した ソース文のバックにタグを使うことを提案した。
0.62
Besides BT, self-training is another data augmentation strategy for NMT which leverages source-side monolingual data (He et al , BT以外にも、ソース側モノリンガルデータ(He et al )を利用する NMT のデータ強化戦略もある。 0.71
英語(論文から抽出)日本語訳スコア
Figure 1: Illustration of AUGVIC steps for Bengali-to-English translation system. 図1:ベンガル語から英語への翻訳システムのためのAUGVICステップの図示。 0.64
Here (xi, yi) is the original bitext pair, ˜yi is a vicinal sample of yi, and (˜xi, ˜yi) is a synthetic pair where ˜xi is generated by a reverse intermediate translation system Mt→s. ここで (xi, yi) は元のバイテキスト対であり、yi はyi のビビナルサンプルであり、 ( xi, )yi は合成ペアであり、xi は逆中間翻訳系 mt→s によって生成される。 0.80
Right side of the figure shows the successive steps of vicinal sample generation. 図の右側には、ビジナルサンプル生成の連続したステップが示されています。 0.65
2020). Large scale multilingual pre-training followed by bitext fine-tuning is a recent trend to utilize monolingual data for NMT, which is shown to be beneficial (Arivazhagan et al , 2019; Liu et al , 2020; Zhu et al , 2020; Lepikhin et al , 2021). 2020). 大規模多言語事前トレーニングとbitextファインチューニングは、NMTのモノリンガルデータを活用する最近のトレンドである(Arivazhagan et al , 2019; Liu et al , 2020; Zhu et al , 2020; Lepikhin et al , 2021)。 0.78
Apart from using extra monolingual data, Xie et al (2017) show that data noising is an effective regularization method for NMT, while Wu et al (2019) use noised training. 余分なモノリンガルデータの使用とは別に、Xie et al (2017) は、データノーミングがNMTの効果的な正規化方法であり、Wu et al (2019) はノイズトレーニングを使用していることを示した。
訳抜け防止モード: 余分なモノリンガルデータの使用とは別に、Xie et al (2017 )はそれを示している。 データノーミングはNMTの効果的な正規化手法である Wu et al (2019 )はノイズドトレーニングを使用している。
0.61
In low-resource settings, Fadaee et al (2017) augment bitext by replacing a common word with a low-frequency word in the target sentence, and change its corresponding word in the source sentence to improve the translation quality of rare words. 低リソース設定では、Fadaee et al (2017) は、ターゲット文で共通の単語を低頻度の単語に置き換え、ソース文で対応する単語を変更して、レアワードの翻訳品質を向上させることで、bitextを増強する。
訳抜け防止モード: 低リソース設定では、Fadaee et al (2017 ) augment bitext by 共通語を目標文の低頻度語に置き換えること 原文で対応する単語を変えて 希少な単語の翻訳の質を向上させるためです
0.75
Wang et al (2018) propose an unsupervised data augmentation method for NMT by replacing words in both source and target sentences based on hamming distance. wang et al (2018) はハミング距離に基づいてソース文とターゲット文の両方の単語を置き換えることでnmtの教師なしデータ拡張手法を提案する。 0.67
Gao et al (2019) propose a method that replaces words with a weighted combination of semantically similar words. Gao et al (2019) は、単語を意味的に類似した単語の重み付けの組み合わせに置き換える手法を提案する。 0.72
Recently, Nguyen et al (2020) propose an in-domain augmentation method by diversifying the available bitext data using multiple forward and backward models. 最近,Nguyen et al (2020) は,複数の前方および後方モデルを用いて利用可能なbitextデータを多様化することにより,ドメイン内の拡張手法を提案する。 0.62
In their follow-up work (Nguyen et al , 2021), they extend the idea to unsupervised MT (UMT) using a cross-model distillation method, where one UMT model’s synthetic output is used as input for another UMT model. 続く研究(Nguyen et al , 2021)では、あるUTTモデルの合成出力を別のUTTモデルの入力として使用するクロスモデル蒸留法を用いて、このアイデアを教師なしMT(UMT)に拡張している。 0.76
Summary Most of the previous work on improving BT involve either training iteratively or combining BT with self-training using monolingual data blindly without noticing the distributional differences between the monolingual and bitext data. 概要 BTの改善に関する以前の研究の多くは、反復的にトレーニングするか、モノリンガルデータとbitextデータとの分布差に気付かずに、モノリンガルデータを用いてBTと自己学習を組み合わせることを含んでいた。 0.55
In contrast, in AUGVIC we systematically parameterize the generation of new training samples from the original parallel data. 対照的に、AUGVICでは、元の並列データから新しいトレーニングサンプルの生成を体系的にパラメータ化する。 0.71
Moreover, the combination of our augmented vicinal samples with monolingual data makes the NMT models more robust and attenuates the prevailing distributional gap. さらに, 拡張ヴィジナルサンプルとモノリンガルデータを組み合わせることで, NMTモデルがより堅牢になり, 分布ギャップが減少する。 0.75
3 Method Let s and t denote the source and target languages respectively, and D = {(xi, yi)}N i=1 denote the bitext training corpus containing N sentence pairs with xi and yi coming from s and t languages, respectively. 3方法 s と t はそれぞれソース言語とターゲット言語を表し、d = {(xi, yi)}n i=1 は xi と yi はそれぞれ s と t の言語から来る n つの文ペアを含むバイテキスト学習コーパスを表す。 0.80
Also, let Ms→t is an NMT model that can translate sentences from s to t, and Dt mono = {yj}M j=1 denote the monolingual corpus in the target language t containing M sentences. また、Ms→t を s から t に翻訳できる NMT モデルとし、Dt mono = {yj}M j=1 は M 文を含む対象言語 t の単言語コーパスを表す。 0.75
3.1 Traditional Back-Translation Traditional back-translation (Sennrich et al , 2016) leverages the target-side monolingual corpus. 3.1 伝統的なバックトランスレーション 伝統的なバックトランスレーション (Sennrich et al , 2016) は、ターゲット側モノリンガルコーパスを利用する。 0.57
With the aim to train a source-to-target model Ms→t, it first trains a reverse intermediate model Mt→s using the given bitext D, and use it to translate the extra target-side monolingual data Dt mono into source language. ソース・ツー・ターゲット・モデル Ms→t を訓練するために、まず与えられたbitext D を用いて逆中間モデル Mt→s を訓練し、追加のターゲット側モノリンガルデータ Dt mono をソース言語に変換する。 0.79
This yields a synthetic bitext corpus Dsyn = {Mt→s(yj), yj)}M j=1. これにより合成ビットクストコーパス Dsyn = {Mt→s(yj), yj)}Mj=1 が得られる。 0.76
Then a final model Ms→t is trained on {D ∪ Dsyn} usually by upsampling D to keep the original and synthetic bitext pairs to a certain ratio (generally 1:1). すると、最終的なモデルms→tは、通常、dをアップサンプリングして、元のバイテキスト対と合成バイテキスト対を一定の比率(1:1)に保つように訓練される。 0.56
3.2 AUGVIC: Exploiting Bitext Vicinity For low-resource languages, the amount of available parallel data is limited, hindering training of a good MT system. 3.2 AUGVIC: Exploiting Bitext Vicinity 低リソース言語では、利用可能な並列データの量は限られており、優れたMTシステムのトレーニングを妨げている。 0.70
Moreover, the target language pairs can be quite different (e g , morphologically, topic distribution) from the high-resource ones, making the translation task more difficult (Chen et al , 2019). さらに、ターゲット言語対は、高リソースのものとはかなり異なる(例えば、形態的、トピックの分布)ため、翻訳作業がより困難になる(Chen et al , 2019)。 0.74
Also, acquiring large and relevant monolingual corpora in the target language is difficult in low-resource settings and can be quite expensive. また、ターゲット言語で大きく関連する単言語コーパスを取得することは、低リソース設定では困難であり、非常に高価である。 0.63
The domain mismatch between the monolingual and bitext data is another issue with the traditional back-translation as mentioned in §1. モノリンガルデータとbitextデータのドメインミスマッチは、従来のバックトランスレーションにおける別の問題である。 0.62
With the aim to improve model generalization, the core idea of AUGVIC is to leverage the vicinal モデル一般化の改善をめざして, AUGVICの中核となる考え方は, ビシナルの活用である。 0.68
英語(論文から抽出)日本語訳スコア
samples of the given bitext rather than using extra monolingual data. 余分なモノリンガルデータではなく、与えられたbitextのサンプル。 0.57
The addition of bitext vicinity also alleviates the domain mismatch issue since the augmented data distribution does not change much from the original bitext distribution. bitext近傍の追加により、拡張データ分布が元のbitext分布とあまり変わらないため、ドメインミスマッチの問題も軽減される。 0.78
Figure 1 shows an illustrative example of AUGVIC, which works in three basic steps to train a model: 図1は、モデルをトレーニングするための3つの基本的なステップで動作するAUGVICの例を示している。
訳抜け防止モード: 図1はAUGVICの例を示している。 3つの基本的なステップでモデルを訓練します
0.83
(i) Generate vicinal samples ˜yi of the target sen- (i)検体を生成する(標的senのyi) 0.69
tences (yi) in the bitext data D. bitext データDのteces(yi)。 0.66
(ii) Produce source-side translations ˜xi of the vicinal samples to generate synthetic bitext ˜D. (ii) ビキナルサンプルのソース側翻訳 xi を生成して合成バイテキスト sd を生成する。 0.74
(iii) Train the final source-to-target MT model (iii)最終目標mtモデルの訓練 0.67
Ms→t using {D ∪ ˜D}. Ms→t は {D > > D} を用いる。 0.65
AUGVIC, however, is not mutually exclusive to the traditional back-translation and can be used together when relevant monolingual data is available. しかしながら、AUGVICは従来のバックトランスレーションに相互に排他的ではなく、関連するモノリンガルデータが利用可能であれば、一緒に使うことができる。 0.57
In the following, we describe how each of these steps are operationalized with NMT models. 以下に NMT モデルを用いて各ステップを動作させる方法について述べる。 0.72
3.2.1 Generation of Vicinal Samples We first generate vicinal samples for each eligible target sentence yi in the bitext D = {(xi, yi)}N i=1. 3.2.1 Vicinal Samplesの生成 bitext D = {(xi, yi)}N i=1 のそれぞれの許容対象文 yi に対して vicinal sample を生成する。 0.82
Let V(˜yi|yi) denote the vicinity distribution around yi, we create a corpus of vicinal samples as: v(yi|yi) を yi の周りの近傍分布とすると、ビビナルサンプルのコーパスを次のように作成する。 0.62
˜yi ∼ V(˜yi|yi) v(yi|yi)の略。 0.59
(1) We generate vicinal samples for sentences having lengths between 3 and 100, and V can be modeled with existing syntactic and semantic alternation methods like language model (LM) augmentation (Kobayashi, 2018; Wu et al , 2018; Shi et al , 2020; Bari et al , 2021), paraphrase generation (Li et al , 2018), constrained summarization (Laban et al , 2020), and similar sentence retrieval (Du et al , 2020). (1) 3から100までの文のビクタナルサンプルを生成し、vは言語モデル(kobayashi, 2018; wu et al , 2018; shi et al , 2020; bari et al , 2021; bari et al , 2021; paraphrase generation (li et al , 2018)、制約付き要約(laban et al , 2020)、類似文検索(du et al , 2020)といった既存の構文的および意味的交替法でモデル化することができる。 0.82
Most of these methods are supervised requiring extra annotations. これらの手法の多くは追加のアノテーションを必要とする。 0.56
Instead, in AUGVIC, we adopt an unsupervised LM augmentation, which makes the framework more robust and flexible to use. 代わりに、augvicでは、教師なしのlm拡張を採用して、フレームワークをより堅牢で柔軟なものにしています。
訳抜け防止モード: 代わりに、AUGVICでは、教師なしのLM拡張を採用します。 フレームワークをより堅牢で柔軟に利用できます
0.56
Specifically, we use a pretrained XLM-R masked LM (Conneau et al , 2020a) parameterized by θxlmr as our vicinal model. 具体的には, θxlmrによりパラメータ化されたXLM-RマスクLM (Conneau et al , 2020a) を胸部モデルとして用いる。 0.60
Thus, the vicinity distribution is defined as V(˜yi|yi, θxlmr). したがって、近傍分布は V( yi|yi, θxlmr) と定義される。 0.77
Note that we treat the vicinal model as an external entity, which is not trained/fine-tuned. ビジナルモデルを外部エンティティとして扱い、トレーニングや微調整が行われていないことに注意してください。 0.45
This disjoint characteristic gives our framework the flexibility to replace θxlmr even with a better monolingual LM for a specific target language, which in turn makes AUGVIC extendable to utilize stronger LMs that may come in the future. この解離特性により、特定のターゲット言語に対してより優れたモノリンガルなLMでもθxlmrを置き換える柔軟性が得られ、AUGVICは将来の強力なLMを活用できるようになる。 0.74
In a masked LM, one can mask out a token at any position and ask the model to predict at that position. マスクされたLMでは、任意の位置でトークンをマスクアウトし、モデルにその位置を予測させることができる。 0.72
For a meaningful and informed augmentation, we mask out the tokens successively (one at a time) up to a required number determined by a diversity ratio, ρ ∈ (0, 1). 有意義でインフォームドな拡張のために、トークンを(一度に1つずつ)連続的に、多様性比 ρ ∈ (0, 1) で決定される必要数までマスクする。 0.64
For a sentence of length (cid:96), the successive augmentation can generate at most (2(cid:96)− 1)× k vicinal samples, where k is the number of output tokens chosen for each masked position. 長さ (cid:96) の文に対して、連続的な拡張は最大 (2(cid:96)− 1)× k のビビナルサンプルを生成することができ、k はマスク位置ごとに選択される出力トークンの数である。 0.74
We use k = 1, and pick the one with the highest probability ensuring that it does not match the original token at the masked position. k = 1 を用いて、マスクされた位置で元のトークンと一致しないことを保証する確率の高いものを選びます。 0.76
The diversity ratio (ρ) controls how much diverse the vicinal samples can be from the original sentence, and is selected using one of the following two ways: • Fixed diversity ratio Here we use a fixed value for ρ, and select t = (cid:96) × ρ tokens to mask out. 多様性比(ρ)は、元の文からどれだけの多様性があるかを制御し、以下の2つの方法の1つを用いて選択される: • 一定の多様性比 ここで、ρに対して固定値を使用し、t = (cid:96) × ρトークンを選択してマスクアウトする。 0.71
We then generate new vicinity samples by predicting new tokens in those masked positions. マスク位置の新たなトークンを予測して,新たな近傍サンプルを生成します。 0.71
• Dynamic diversity ratio Instead of using a fixed value, in this approach we set the diversity ratio dynamically taking the sentence length into consideration. •動的多様性比 本手法では,固定値を使用する代わりに,文長を考慮した多様性比を動的に設定する。 0.80
This allows finer-level control for diversification — the longer the sentence is, the smaller should its diversification ratio be. これにより、多様化のための細部レベルの制御が可能となり、文が長ければ長いほど、多様化比率が小さくなる。 0.46
The intuition is that for long sentences, a larger value of ρ will produce vicinal samples which will be far away from the original sample. 直観的には、長い文の場合、ρ の値が大きいと、元のサンプルから遠く離れたヴィクチンのサンプルが生成される。 0.66
Specifically, we use the following piece-wise function to find the number of tokens to mask out dynamically: 具体的には、以下の断片的な関数を使って、動的にマスクアウトするトークンの数を見つけます。 0.60
(cid:40) t = (cid:40) t = 0.82
max((cid:96) × a, tmin) h × b, tmax) min( (cid:96) max((cid:96) × a, tmin) h × b, tmax) min((cid:96) 0.99
; if (cid:96) ≤ 20 ; otherwise ; if (cid:96) ≤ 20 ; 0.82
(2) where tmin and tmax are hyperparameters and represent the minimum and maximum number of tokens to be replaced by the masked LM. (2) tmin と tmax はハイパーパラメータであり、マスクされた lm に置き換えられるトークンの最小および最大数を表す。 0.83
The other hyperparameters a, b, and h play the same role as the diversity ratio ρ. 他のハイパーパラメータ a, b, h は多様性比 ρ と同じ役割を果たす。 0.76
t (cid:96) is γ =(cid:0)(cid:96) t (cid:96)はγ =(cid:0)(cid:96) 0.82
(cid:1) × t!. (cid:1)×t! 0.70
We perform stochastic sampling 確率的なサンプリングを行い 0.56
Since we predict tokens for replacement one at a time, we can make the prediction in any of the permutation order of t. So, the maximum number of possible augmentation for a sentence of length from the distribution of γ to select N(cid:48) vicinal samples. したがって、γ の分布から N(cid:48) のヴィジナル標本までの長さの文に対する拡張可能な最大数の予測が可能である。
訳抜け防止モード: 置き換えるトークンを一度に予測するからです。 t の置換順序のどれでも予測できるので γ の分布から N (cid:48 ) の vicinal sample を選択するまでの長さの文に対する可能な限りの増大の最大値。
0.79
We have added an analysis on the effect of diversity ratio ρ in AUGVIC in §5.5. 5.5のAUGVICにおける多様性比ρの効果について分析を加えた。 0.75
3.2.2 Generation of Synthetic Bitext Data Our objective is to train a source-to-target MT model Ms→t. 3.2.2 合成バイテキストデータの生成 私たちの目的は、mtモデルms→tのトレーニングです。
訳抜け防止モード: 3.2.2 合成テキストデータの生成 to train a source - to - target MT model Ms→t
0.72
So far, we have the bitext D = これまでのところ、bitext d = です。 0.60
英語(論文から抽出)日本語訳スコア
the translation quality of ˜xi when generating the synthetic bitext ˜D. 合成ビットクストジDを生成する際のアクシの翻訳品質 0.63
Specifically, we use the original source xi as a guide for generating the synthetic translation ˜xi of the target-side vicinal sample ˜yi. 具体的には,オリジナルソースxiを,ターゲット側ビジナル標本の合成翻訳xiを生成するためのガイドとして用いる。 0.80
˜xi = Mt→s( ˜yi|xi) xi = mt→s(ジイ|xi) 0.64
(3) For this, we propose a model based on the Transformer architecture which has two encoders - one for the source sentence (E) and another for the guide sentence (E(cid:48)), and a decoder (D) (Figure 2). (3) そこで本研究では,2つのエンコーダ(ソース文(E)とガイド文(E(cid:48))とデコーダ(D)とを有するトランスフォーマーアーキテクチャに基づくモデルを提案する。 0.74
We use the same architecture with the exception that now we have two identical encoders (E and E(cid:48)). 例外として、同じアーキテクチャを2つの同一エンコーダ(EとE(cid:48))で使用しています。 0.74
Both the encoders have a stack of L layers, while the decoder has (L + 1) layers. 両エンコーダはL層のスタックを持ち、デコーダは(L + 1)層を持つ。 0.70
Training & Inference: We train this model with a dataset of triplets containing (y, ˜x, x), where (x, y) comes from the original bitext and ˜x is a vicinal sample of x to guide the decoder in generating x. トレーニングと推論: このモデルを (y, sx, x) を含む三重項のデータセットでトレーニングし、 (x, y) は元の bitext から来て、 sx は x のヴィジナル標本であり、デコーダを x の生成に導く。 0.75
Each of the first L layers of the decoder performs cross-attention on E(y) resulting in decoder states D(L)(x<t|y) at time step t, while the final decoder layer attends on E(cid:48)(˜x) resulting in a second set of decoder states D(L+1)(x<t|y, ˜x). デコーダの第1のl層はそれぞれe(y)上でクロスアテンションを行い、ステップtでデコーダ状態d(l)(x<t|y)となり、最終デコーダ層はe(cid:48)(x)に出席し、第2のデコーダ状態d(l+1)(x<t|y,x)となる。
訳抜け防止モード: デコーダの第1L層はそれぞれ、時間ステップtにおけるデコーダ状態D(L)(x < t|y )となるE(y )に対する横断的注意を行う。 最終デコーダ層は E(cid:48)( sx ) 結果として、2つ目のデコーダ状態 D(L+1)(x < t|y, yx ) となる。
0.83
The two sets of decoder states are then interpolated by taking a convex combination before passing it to a linear layer followed by the Softmax token prediction. 次に、2つのデコーダ状態の組は、線形層に渡す前に凸結合を取り、次にsoftmaxトークン予測によって補間される。 0.75
λD(L)(x<t|y) + (1 − λ)D(L+1)(x<t|y, ˜x) λD(L)(x<t|y) + (1 − λ)D(L+1)(x<t|y, x) 0.93
(4) where λ is a hyperparameter that controls the relative contributions from the two encoders, E(y) and E(cid:48)(˜x), in generating x by the decoder D. To generate the synthetic bitext ˜D, we need to translate ˜y, which will be guided by x. (4) λ が2つのエンコーダ (e(y) と e(cid:48)( ) からの相対的貢献を制御する超パラメータであるとき、デコーダ d によって x を生成するとき、合成バイテキスト (synthetic bitext ) d を生成するためには、x によって導かれる sy を翻訳する必要がある。 0.77
So during inference, we feed ˜y to E and x to E(cid:48) to autoregressively generate ˜x with beam search decoding. 推論中、e と x に e(cid:48) を供給し、ビーム探索デコードで x を自己回帰的に生成する。 0.66
3.2.3 Training of the Final Model We combine the original bitext D and the synthetic bitext ˜D generated from the previous step to train our final source-to-target model Ms→t. 3.2.3 最終モデルのトレーニング 元の bitext D と前段から生成された合成 bitext >D を組み合わせて、最終的なソース・ターゲットモデル Ms→t を訓練する。 0.67
We use the standard Transformer as our final model. 標準トランスフォーマーを最終モデルとして使用します。 0.73
4 Experimental Setup 4.1 Datasets and Evaluation Metrics We conduct experiments on four low-resource language pairs: English (En) to/from Bangla (Bn), Tamil (Ta), Nepalese (Ne), and Sinhala (Si). 4 実験的なセットアップ 4.1 データセットと評価メトリクスを4つの低リソース言語ペア(英語(en)からバングラ語(bn)、タミル語(ta)、ネパール語(ne)、シンハラ語(si))で実験した。
訳抜け防止モード: 4 実験セットアップ 4.1 データセットと評価メトリクス 4 つの低リソース言語対 : 英語 (En ) から Bangla (Bn ) までの実験を行う。 タミル(Ta )、ネパール(Ne )、シンハラ(Si )。
0.77
Table 1 presents the source of the collected datasets and their domains for each language pair. 表1は、言語ペア毎に収集したデータセットとそのドメインのソースを示す。 0.79
Figure 2: translation; (b) its training and inference method. 図2: 翻訳; (b) その訓練と推論方法。 0.66
(a) Our proposed model for guided back- (a)ガイドバックのための提案モデルについて- 0.70
{(xi, yi)}N i=1 and target-side monolingual data ˜Dt = {˜yj}N(cid:48) j=1 which are vicinal to the original target in D. We need a reverse intermediate targetto-source MT model Mt→s to translate ˜yj into ˜xj, which will give us the synthetic bitext data ˜D. D の元々のターゲットと直交するターゲット側モノリンガルデータ sDt = { syj}N(cid:48) j=1 とターゲット側モノリンガルデータ sDt = { syj}N(cid:48) j=1 である。
訳抜け防止モード: { ( xi, yi)}N i=1 とターゲット - 側モノリンガルデータ >Dt = { .yj}N(cid:48 ) j=1 は D の元のターゲットと直交する。 すると、合成されたbitextデータ...Dが得られます。
0.62
For this, we experiment with two different models. そのため、我々は2つの異なるモデルを試す。 0.76
(a) Pure Back-Translation (PBT) This is similar to back-translation (§3.1), where we first train the reverse MT model Mt→s using the given bitext D. We then use Mt→s to translate the target-side vicinal samples ˜yj ∼ ˜Dt into ˜xj. (a)pure back-translation (pbt) これは、最初に与えられたバイテキストdを使用して逆mtモデルmt→sを訓練するバックトランスレーション(3.1)に似ている。 0.55
This gives a synthetic bitext ˜D = {(˜xj, ˜yj)}N(cid:48) j=1. これにより合成のバイテキストは {(xj, syj)}n(cid:48) j=1 となる。 0.67
We use the Transformer architecture (Vaswani et al , 2017) as our reverse intermediate NMT model Mt→s. 我々はTransformer アーキテクチャ (Vaswani et al , 2017) を逆中間NMTモデル Mt→s として使っている。 0.74
(b) Guided Back-Translation (GBT) In the illustrative example (Figure 1), we can identify three kinds of pairs: (i) the bitext (xi, yi), (ii) the vicinal (yi, ˜yi), and (iii) the synthetic pair ( ˜xi, ˜yi). (b)ガイドバックトランスレーション(GBT)図1(図1)では、(i)ビットクスト(xi, yi)、(ii)ビシナル(yi, yi)、(iii)合成ペア(xi, yi)の3種類のペアを識別できる。
訳抜け防止モード: (b)ガイドバック-翻訳(GBT)図1の例(図1) 3種類のペアを識別できます。 (i) bitext (xi, yi ) (ii) ヴィジナル(yi, syi) と (iii) 合成対 (sxi, syi ) である。
0.69
Here, yi is the original translation of source sentence xi and ˜yi is the vicinal sample, which can be seen as a perturbation of yi. ここで、yi は原文xi の原文翻訳であり、yi は vicinal sample であり、yi の摂動と見なすことができる。
訳抜け防止モード: ここでは、yiは原文xiの原訳である そして yi は vicinal sample であり、yi の摂動と見なすことができる。
0.72
Hence, we can assume that ˜xi will also be similar to (perturbed) xi. したがって、'xi' は (摂動された)xi と類似していると仮定できる。 0.67
Our goal is to leverage this extra relational knowledge to improve 私たちの目標は、この余分な関係知識を活用して、改善することです。 0.49
英語(論文から抽出)日本語訳スコア
Data-Source Islam (2018) データソースイスラム(2018年) 0.57
Pair En-Bn En-Ta Ramasamy et al (2014) Guzm´an et al (2019) En-Ne Guzm´an et al (2019) En-Si Pair En-Bn En-Ta Ramasamy et al (2014) Guzm ́an et al (2019) En-Ne Guzm ́an et al (2019) En-Si 0.78
Train & Dev Mixed Test Mixed 列車と開発 混合 テスト混合 0.71
News, Bible, Cinema News, Bible, Cinema 0.85
News, Bible, Cinema News, Bible, Cinema 0.85
Bible, GV, PTB, Ubuntu Opens subtitles, Ubuntu Ubuntu, Bible, GV, PTB, Ubuntuがサブタイトルを公開 0.85
Wikipedia Wikipedia Wikipediaウィキペディア 0.82
Table 1: Sources and domains of the datasets. 表1:データセットのソースとドメイン。 0.70
Even though the En-Bn dataset size is relatively small (∼ 72K pairs), the quality of the bitext is rich, and it covers a diverse set of domains including literature, journalistic texts, instructive texts, administrative texts, and texts treating external communication. En-Bnデータセットのサイズは比較的小さい(72Kペア)が、bitextの品質は豊富であり、文学、ジャーナリストのテキスト、インストラクティブのテキスト、管理のテキスト、外部コミュニケーションを扱うテキストなど、さまざまな分野をカバーする。 0.72
Here the distributions in train and test splits are about the same. ここでは、列車とテストの分割の分布はほぼ同じです。 0.80
For En-Ta, the train and test domains are similar, mostly coming from the news (∼ 66.43%). En-Taでは、列車とテストドメインは類似しており、ほとんどがニュース(66.43%)から来ている。 0.68
For En-Ne and En-Si, we use the datasets from (Guzm´an et al , 2019), where the train and test domains are different. En-NeとEn-Siでは、列車とテストドメインが異なるデータセット(Guzm ́an et al , 2019)を使用します。 0.82
Although these two datasets are comparatively larger (∼ 600K pairs each), the quality of the bitext is poor, requiring further cleaning and deduplication. これら2つのデータセットは比較的大きい(それぞれ600万対)が、bitextの品質は低く、さらにクリーニングと重複が必要とされる。 0.74
Table 2 presents the dataset statistics after deduplication where the last column specifies the number of augmented data by our method AUGVIC (§3.2.1). 表2は、最終列がAUGVIC(3.2.1)により拡張データの数を指定した場合の重複後のデータセット統計を示す。 0.71
For a fair comparison with the traditional back-translation, we experiment with the same amount of target-side monolingual data from three domains: news, wiki, and gnome. 従来のバック翻訳と公正に比較するために、ニュース、wiki、gnomeという3つのドメインのターゲット側のモノリンガルデータと同じ量のデータを実験する。 0.70
We collected and cleaned News, Wiki, and Gnome datasets from News-crawl, Wiki-dumps, and Gnome localization guide, respectively. 我々はNews-crawlとWiki-dumpsとGnomeローカライゼーションガイドから,News,Wiki,Gnomeのデータセットをそれぞれ収集,整理した。 0.72
For some languages, the amount of specific domain monolingual data is limited, where we added additional monolingual data of that language from Common Crawl. いくつかの言語では、特定のドメインの単言語データ量は限られており、共通クローラから追加の単言語データを追加しました。 0.68
Following previous work (Guzm´an et al , 2019; Nguyen et al , 2020), we report the tokenized BLEU (Papineni et al , 2002) when translating from English to other languages, and detokenized SacreBLEU (Post, 2018) when translating from other languages to English for all our experiments,. これまでの研究(Guzm ́an et al , 2019; Nguyen et al , 2020)に続いて、英語から他言語への翻訳におけるBLEU(Papineni et al , 2002)と、他の言語からの翻訳におけるSacreBLEU(Post, 2018)について報告した。 0.79
Pair En-Bn En-Ta En-Ne En-Si Pair En-Bn En-Ta En-Ne En-Si 0.50
Train 70,854 166,851 234,514 571,213 70,854166,851234,514 571,213列車 0.56
Dev 500 1000 2559 2898 Dev 500 1000 2559 2898 0.85
Test Augmented (AUGVIC/Mono) 500 2000 2835 2766 テスト強化(AUGVIC/Mono) 500 2000 2835 2766 0.87
≈ 460K ≈ 1300K ≈ 1500K ≈ 1500K 460K・1300K・1500K・1500K 0.64
Table 2: Dataset statistics after deduplication. 表2:重複解消後のデータセット統計。 0.76
(i) Bitext baseline is the model trained with the bitext given with the dataset. i) バイテキストベースラインは、データセットで与えられたbitextでトレーニングされたモデルです。 0.71
(ii) Upsample baseline Here we upsample the bitext to the same amount of AUGVIC’s data. (ii)アップサンプルベースライン ここでは、ビットを同じ量のAUGVICのデータにアップサンプルします。 0.73
(iii) Diversification baseline Nguyen et al (2020) diversifies the original parallel data by using the predictions of multiple forward and backward NMT models. (iii)多元化ベースラインnguyen et al (2020)は、複数の前方および後方nmtモデルの予測を用いて、元の並列データを多様化する。 0.74
Then they merge the augmented data with the original bitext on which the final NMT model is trained. 次に、最終的なNMTモデルをトレーニングした元のbitextと、拡張データをマージする。 0.70
Their method is directly comparable to AUGVIC, as both methods diversify the original bitext, but in different ways. どちらの手法も元のbitextを多様化するが、異なる方法では異なるため、AUGVICと直接比較できる。 0.73
4.3 Model Settings We use the Transformer (Vaswani et al , 2017) implementation in Fairseq (Ott et al , 2019). 4.3 model settings we use the transformer (vaswani et al , 2017) implementation in fairseq (ott et al , 2019)。 0.83
We follow the basic architectural settings from (Guzm´an et al , 2019), which establishes some standards for low-resource MT. 我々は、低リソースMTのいくつかの標準を確立する基本的なアーキテクチャ設定(Guzm ́an et al , 2019)に従う。 0.67
For low-resource “Bitext baseline”, they use a smaller (5-layer) Transformer architecture as the dataset is small, while for larger datasets (e g , with additional synthetic data) they use a bigger (6-layer) model.2 To keep the architecture the same in the respective rows (Table 3), we use a 6-layer model for “Upsample baseline” and 5-layer for “Bitext baseline”. 低リソースの“バイオテキストベースライン”では、データセットが小さくなるにつれて、より小さな(5層)トランスフォーマーアーキテクチャを使用しますが、大きな(例えば、追加の合成データを含む)データセットでは、より大きな(6層)モデルを使用します。2 各行でアーキテクチャを同じに保つために(Table3)、"Upsampleベースライン"では6層モデル、"Bitextベースライン"では5層モデルを使用します。 0.74
More specifically, for datasets with less than a million bitext pairs, we use an architecture with 5 encoder and 5 decoder layers, where the number of attention heads, embedding dimension, and inner-layer dimension are respectively 8, 512, and 2048. 具体的には、百万のバイテキストペア以下のデータセットでは、5つのエンコーダ層と5つのデコーダ層を持つアーキテクチャを使用しています。
訳抜け防止モード: 具体的には、100万のbitextペア未満のデータセットに対して。 5つのエンコーダと5つのデコーダを持つアーキテクチャを使います 注意点数,埋め込み寸法,内層寸法はそれぞれ8,512,2048である。
0.68
Otherwise, we use a larger Transformer architecture with 6 encoder and 6 decoder layers with the number of attention heads, embedding dimension, and inner-layer dimension of 16, 1024, and 4096, respectively. それ以外の方法では、6つのエンコーダ層と6つのデコーダ層からなるより大きなトランスフォーマアーキテクチャを使用し、それぞれ注意ヘッド数、埋め込み寸法、内層寸法16,1024、4096をそれぞれ使用する。 0.71
After deduplication, we tokenize non-English data using the Indic NLP Library.3 We use the sentencepeiece library4 to learn the joint Byte-PairEncoding (BPE) of size 5000 symbols for each of Indic NLP Library.3を用いて非英語データをトークン化し、文集ライブラリ4を用いて、それぞれ5000個のシンボルの共用バイトペアエンコーディング(BPE)を学習する。 0.78
4.2 Baselines We compare AUGVIC with the following baselines: 4.2 ベースライン AUGVIC と以下のベースラインを比較します。 0.70
2https://github.com/ facebookresearch/flores/ 3https://github.com/ anoopkunchukuttan/in dic nlp library 4https://github.com/ google/sentencepiece 2https://github.com/ facebookresearch/flo res/ 3https://github.com/ anoopkunchukuttan/in dic nlp library 4https://github.com/ google/sentencepiece 0.35
英語(論文から抽出)日本語訳スコア
Setting Baseline Data 設定 ベースライン データ 0.72
Bitext En-Bn En-Ta 備考 En-Bn 遠多(えんた) 0.33
En-Si ← 7.45 6.93 8.2 9.27 11.75 11.86 11.89 12.09 Table 3: Detokenized Sacre-BLEU scores for {Bn, Ta, Ne, Si} → En and tokenized BLEU fro En → {Bn, Ta, Ne, Si}. En-Si = 7.45 6.93 8.2 9.27 11.75 11.86 11.89 12.09 Table 3: Detokenized Sacre-BLEU scores for {Bn, Ta, Ne, Si} → En and tokenized BLEU fro En → {Bn, Ta, Ne, Si} 0.80
“BT-Mono” stands for traditional back-translation with extra target-side monolingual data (§3.1). BT-Mono(BT-Mono)は、ターゲット側モノリンガルデータ(3.1)を付加した従来のバックトランスレーションを指す。 0.48
× Upsample + Nguyen et al (2020) + AUGVIC + BT-Mono (News) + BT-Mono (Wiki) + AUGVIC+ BT-Mono (News) + AUGVIC+ BT-Mono (Wiki) × Upsample + Nguyen et al (2020) + AUGVIC + BT-Mono (Wiki) + AUGVIC + BT-Mono (Wiki) + AUGVIC + BT-Mono (Wiki) 0.90
← 26.29 27.71 28.54 28.68 29.38 29.01 30.15 30.14 ← 26.29 27.71 28.54 28.68 29.38 29.01 30.15 30.14 0.45
→ 4.59 4.16 5.7 6.47 6.44 6.91 6.80 7.27 → 4.59 4.16 5.7 6.47 6.44 6.91 6.80 7.27 0.45
En-Ne ← 8.34 7.79 8.9 10.65 12.48 13.02 13.12 13.52 En-Ne ← 8.34 7.79 8.9 10.65 12.48 13.02 13.12 13.52 0.45
→ 13.21 16.59 17.54 18.03 18.81 18.52 19.98 20.39 → 13.21 16.59 17.54 18.03 18.81 18.52 19.98 20.39 0.45
← 21.18 25.51 26.11 26.96 27.11 26.33 28.14 28.48 ← 21.18 25.51 26.11 26.96 27.11 26.33 28.14 28.48 0.45
→ 11.58 12.15 12.74 12.93 13.51 13.23 13.87 13.89 → 11.58 12.15 12.74 12.93 13.51 13.23 13.87 13.89 0.45
Diversification Extra mono. 多様化 mono の追加。 0.72
data → 1.96 1.81 2.2 3.66 3.56 3.91 4.94 5.24 データ → 1.96 1.81 2.2 3.66 3.56 3.91 4.94 5.24 0.62
the language pair over the raw English and tokenized non-English bitext training data. 言語は、生の英語とトークン化された非英語のバイテキストトレーニングデータと対になる。 0.58
We tuned the hyper-parameters a, b, h, tmin, tmax in Eq 2 and λ in Eq 4 by small-scale experiments on the validation-sets. 検証セットに関する小規模な実験により,超パラメータ a, b, h, tmin, tmax in Eq 2 と λ in Eq 4 をチューニングした。 0.81
We found a = 0.5, b = 2.5, h = 10, tmin = 1, and tmax = 20 work better. a = 0.5, b = 2.5, h = 10, tmin = 1, tmax = 20 がよりよく働くことがわかった。 0.83
We tuned λ within the range of 0.5 to 0.9. 0.5から0.9の範囲でλをチューニングした。 0.71
In general, we observe that for smaller sentences (length <= 20), 50-60% successive-tokenrepl acement works better while for longer sentences (length > 20), 20-30% token-replacement performs better. 一般に,より少ない文(長さ<=20)では50~60%の逐次置換が有効であり,長い文(長さ<=20)では20~30%のトークン置換が良好である。 0.61
Following Guzm´an et al (2019), we train all the models upto a maximum epoch of 100 with early-stopping enabled based on the validation loss. Guzm ́an et al (2019)に続いて、検証損失に基づいて早期停止を有効にして、すべてのモデルを最大100のエポックまでトレーニングする。 0.67
We use the beam-search-decoding for inference. 推論にはビーム検索復号を用いる。 0.68
All the reported results for AUGVIC use dynamic diversity ratio for generating vicinal samples unless otherwise specified. augvicが報告したすべての結果は動的多様性比を用いてビクチナルサンプルを生成する。 0.62
5 Results and Analysis In this section, we present our results and the analysis of our proposed methods. 5 結果と分析 本稿では,本研究の結果と提案手法の分析について述べる。 0.77
5.1 Comparison with Bitext & Diversification Table 3 presents the BLEU scores on the eight translation tasks. 5.1 Bitext & Diversification Table 3との比較では、8つの翻訳タスクのBLEUスコアが提示される。 0.66
First, we compare our model AUGVIC with the model trained on the original parallel data (Bitext). まず,本モデルと元の並列データ(bitext)でトレーニングされたモデルを比較した。 0.75
AUGVIC consistently improves the performance over all the tested language pairs, gaining about +2.76 BLEU scores on average. AUGVICは、テストされた全ての言語ペアのパフォーマンスを一貫して改善し、平均で約2.76 BLEUスコアを得る。 0.60
Specifically, AUGVIC achieves the absolute improvements of 4.28, 5.78, 1.35, 2.39, 1.88, 2.31, 1.70, and 1.82 over the Bitext for En-Bn, Bn-En, En-Ta, Ta-En, En-Ne, Ne-En, En-Si, and Si-En, respectively. 具体的には、AUGVICは、En-Bn、Bn-En、En-Ta、Ta-En、En-Ne、Ne-En、En-Si、Si-EnのBitext上で、それぞれ4.28、 5.78、 1.35、 2.39、 1.88、 2.31、 1.70、 1.82の絶対的な改善を実現している。
訳抜け防止モード: 具体的には、AUGVICは4.28, 5.78の絶対的な改善を達成している。 1.35, 2.39, 1.88, 2.31, 1.70, 1.82 over the Bitext for En - Bn, Bn - En, En - Ta, Ta - En, En - Ne, Ne - En, En - Si, Si - En はそれぞれ。
0.54
For a fair comparison, in another experiment, we upsample the bitext data to make it similar to the amount of AUGVIC’s data. 公平な比較として、別の実験では、bitextデータをアップサンプルして、AUGVICのデータ量に類似させる。 0.76
From the Upsample re- Upsample re- 0.62
sults (with a 6-layer architecture) reported in Table 3, we see that even though it increases the BLEU scores for En to/from {Bn, Ta}, it has negative impacts on En to/from {Ne, Si} where it degrades the performance. sults (6層アーキテクチャ) は Table 3 で報告されており、En の BLEU スコアを {Bn, Ta} から {Bn, Ta} へ引き上げるが、En から {Ne, Si} へは負の影響を受け、パフォーマンスは低下する。 0.75
Overall, AUGVIC achieves 1.75 BLEU score improvements on an average over the Upsample baseline. 全体として、AUGVICはUpsampleベースラインよりも平均して1.75BLEUスコアの改善を達成した。 0.50
The comparison with the diversification strategy proposed by Nguyen et al (2020) reveals that AUGVIC outperforms their method by 0.84 BLEU scores on average. Nguyen et al (2020) によって提案された多様化戦略との比較により、AUGVIC は平均で 0.84 BLEU のスコアを上回っていることが明らかになった。
訳抜け防止モード: Nguyen et al (2020 ) による多様化戦略との比較から, そのことが分かる。 AUGVICは平均で0.84 BLEUスコアを上回ります。
0.67
To be specific, our method gets 0.49, 0.85, 0.19, 0.14, 0.77, 1.75, 1.46, and 1.07 absolute BLEU improvements over their approach for En-Bn, Bn-En, En-Ta, Ta-En, En-Ne, Ne-En, En-Si, and Si-En, respectively. 具体的には, En-Bn, Bn-En, En-Ta, Ta-En, En-Ne, Ne-En, En-Si, Si-Enに対するアプローチに対して, 0.49, 0.85, 0.19, 0.14, 0.77, 1.75, 1.46, 1.07 の絶対BLEU改善が得られた。 0.62
The data diversification method of Nguyen et al (2020) relies heavily on the performance of base models (Bitext). Nguyen et al (2020)のデータ多様化手法はベースモデル(Bitext)の性能に大きく依存している。 0.82
From Table 3, we see that the performance of base models are poor for En to/from {Ne, Si}, which impacts their augmented data generation process (diversification). 表3から、en to/from {ne, si} のベースモデルのパフォーマンスは貧弱であり、それは拡張データ生成プロセス(ダイバーシフィケーション)に影響を与える。 0.69
However, the better performance of AUGVIC in those languages indicates that vicinal samples generated in our method are more diverse with better quality and less prone to the noise in base models. しかし,これらの言語における augvic の性能向上は,本手法で生成したサンプルがより多様であり,品質が向上し,ベースモデルのノイズも少なくなることを示す。 0.76
5.2 Vicinal Samples with Extra Relevant 5.2 余剰のウイルスサンプル 0.73
Monolingual Data We further explore the performance of AUGVIC by experimenting with the traditional back-translation method (§3.1) using the same amount of monolingual data. 単言語データ さらに,同じ量のモノリンガルデータを用いて,従来のバックトランスレーション手法(3.1)を実験することにより,AUGVICの性能を検証した。 0.68
To perceive the variability, we choose to experiment with extra monolingual data from two relevant but different sources - newscrawl (BTMono (News)) and Wikipedia (BT-Mono (Wiki)). 多様性を理解するために、我々は、関連するが異なる2つのソース、ニュースクローリング(BTMono、News)とウィキペディア(BT-Mono、Wiki)の余分なモノリンガルデータを実験する。 0.71
From the results in Table 3, we see that standard back-translation improves the scores in both cases, proving that extra relevant monolingual data helps 表3の結果から, 標準のバックトランスレーションが両症例ともスコアを向上させ, 関連する単言語データが有用であることを証明した。 0.65
英語(論文から抽出)日本語訳スコア
Interm. BT system → 18.03 Pure BT 18.18 Guided BT 当面。 BTシステム → 18.03 Pure BT 18.18 Guided BT 0.58
← 26.96 27.35 ← 26.96 27.35 0.59
→ 12.93 13.17 → 12.93 13.17 0.59
← 28.68 29.05 ← 28.68 29.05 0.59
→ 6.47 4.81 → 6.47 4.81 0.59
En-Ne ← 10.65 8.62 En-Si → ← 9.27 3.66 2.16 7.71 10.65.62円 En-Si → ← 9.27 3.66 2.16 7.71 0.55
En-Bn En-Ta En-Bn 遠多(えんた) 0.36
Table 4: Comparison between two intermediate reverse back-translation (BT) systems in AUGVIC. 表4:AUGVICにおける2つの中間逆変換(BT)システムの比較。 0.86
for low-resource MT significantly. 低リソースのMTでは顕著です。 0.50
To understand the exclusivity of the vicinal samples of AUGVIC from the external related monolingual data, we perform another set of experiments where we added both the AUGVIC’s augmented data with the extra monolingual data and trained along with the Bitext data. 外部関連単言語データからアウグビックの勝利サンプルの排他性を理解するため、アウグヴィックの拡張データと余分な単言語データの両方を追加し、バイテキストデータと共に訓練する実験を行った。 0.64
From Table 3, we see that the combination of datasets improves the BLEU scores by 1.02 and 0.73 on average on the two relevant data sources (News and Wiki). 表3から、データセットの組み合わせにより、関連する2つのデータソース(NewsとWiki)で平均してBLEUスコアが1.02と0.73向上する。 0.68
From this, we can conclude that vicinal samples of AUGVIC make the NMT models more robust in the presence of the relevant monolingual data and can be used together when available. このことから, AUGVICのビジナルサンプルは, NMTモデルをモノリンガルデータの存在下でより堅牢にし, 利用可能であれば組み合わせることができると結論付けることができる。 0.83
5.3 Pure vs. 5.3 Pure vs. 0.84
Guided: Which One is Better? ガイド:どちらが優れているか? 0.76
For all the results of AUGVIC presented in Table 3, we use the pure back-translation (BT) method (§3.2.2(a)) as the reverse intermediate model. 表3で示された全てのAUGVICの結果に対して、逆中間モデルとして純粋なバックトランスレーション法(BT)を用いる。 0.70
We compare the performance of the guided BT (§3.2.2(b)) with the pure BT method as the reverse intermediate model in Table 4. 表4の逆中間モデルとして,誘導型bt(3.2.2(b))と純型bt法の性能を比較した。 0.66
From the results, we observe that the guided BT achieves better results in En↔ {Bn, Ta}, while the pure BT achieves better in En↔ {Ne, Si} translation tasks. 結果から、案内されたBTはEnn {Bn, Ta}でより良い結果が得られるのに対し、純粋なBTはEnn {Ne, Si}翻訳タスクでより良い結果が得られることがわかった。 0.58
We investigated why the guided BT performed poorly in En↔ {Ne, Si} tasks, and found that compared to the En-Bn and En-Ta bitexts, the original bitexts of En-Ne and En-Si languages are very noisy (e g , bad sentence segmentation, code-mix data), which propagates further noise while using the target translation as a guide for translating the vicinal samples. en-bnとen-taのバイテキストと比較して、en-neとen-si言語のオリジナルのバイテキストは非常にノイズが多く(例えば、悪い文のセグメンテーション、コードミックスデータ)、ターゲットの翻訳をビビナルサンプルを翻訳するためのガイドとして使用しながらさらにノイズを伝搬することが分かった。
訳抜け防止モード: The guided BT performed bad in En' { Ne, Si } task。 そして、En-BnとEn-Taビットと比較した。 En - Ne と En - Si 言語の元々のビットは、非常にうるさい(例えば、) bad sentence segmentation, code -mix data ) ウイルスサンプルを翻訳するためのガイドとしてターゲット翻訳を使用しながら、さらなるノイズを伝播する。
0.76
The diminishing results while upsampling in these two languages (Table 3) supports this claim. これら2つの言語(Table 3)におけるアップサンプリングの結果の減少は、この主張を支持している。 0.58
From these results, we can say that the better the original bitext quality is, the better the synthetic bitext will be for the guided BT. これらの結果から、元のバイテキストの品質が良くなればなるほど、合成バイテキストは誘導btよりも良いと言えます。 0.70
5.4 AUGVIC with Relevant and 5.4 AUGVIC 関連および対応 0.83
Distant-domain Monolingual Data 遠隔ドメイン単言語データ 0.56
To verify how traditional back-translation and AUGVIC perform with with monolingual data from related vs. distant domains, we perform another set of experiments on En to/from {Bn, Ta}. 従来のバックトランスレーションとAUGVICが、関連するドメインと遠方のドメインのモノリンガルデータでどのように機能するかを検証するために、En to/from {Bn, Ta} で別の実験を行う。 0.61
For both the language pairs (§4.1), News can (roughly) be 両方の言語対 (4.1) に対して、News は (大まかに) 0.78
BT-mono Data Domain BTモノデータドメイン 0.80
News (relevant) gnome (distant) News (複数形 Newss) 0.38
Bitext + BT + AUGVIC+ BT + BT + AUGVIC+ BT Bitext + BT + AUGVIC + BT + AUGVIC + BT 0.84
En-Bn En-Ta En-Bn 遠多(えんた) 0.36
→ 13.21 18.81 19.98 17.14 18.86 → 13.21 18.81 19.98 17.14 18.86 0.48
← 21.18 27.11 28.14 26.05 27.56 ← 21.18 27.11 28.14 26.05 27.56 0.48
→ 11.58 13.51 13.87 12.55 13.59 → 11.58 13.51 13.87 12.55 13.59 0.48
← 26.29 29.38 30.15 27.91 29.89 ← 26.29 29.38 30.15 27.91 29.89 0.48
Table 5: Effect of relevant and distant domain monolingual data in back-translation with AUGVIC. 表5:AUGVICとの後方翻訳における関連および遠隔ドメイン単言語データの影響 0.82
We use News as “relevant” and gnome as “distant” domain. Newsを“関連”として、gnomeを“関連”ドメインとして使用しています。 0.52
considered as relevant compared to gnome,5 which can be considered as distant domain. gnome,5と比較すると、遠くの領域と見なすことができる。 0.60
We use pure BT as the intermediate reverse back-translation system for generating synthetic data in AUGVIC in this set of experiments. 本稿では,AUGVICにおける合成データを生成するための中間逆変換系として,純粋なBTを用いる。 0.73
From Table 5, we see that traditional backtranslation (+ BT) improves the BLEU scores over the Bitext by 4.14 and 2.85 on average for relevantand distant-domain monolingual data, respectively, yielding higher gains for relevant domain, as expected. 表5から、従来のバックトランスレーション(+BT)は、関連するドメインのモノリンガルデータに対して平均4.14と2.85でBLEUスコアを改善し、予想通り、関連するドメインに対して高い利得を得る。 0.65
The addition of vicinal data by AUGVIC (+ AUGVIC+ BT) further improves the scores in both cases; interestingly, the relative improvements are higher in the distant-domain case. AUGVIC(+AUGVIC+BT)によるビジナルデータの追加により,両症例ともスコアが向上し,遠隔領域では相対的な改善が見られた。 0.75
Specifically, the average BLEU score improvements over Bitext for relevant- and distant-domain data with AUGVIC+BT are 4.97 and 4.41, respectively. 具体的には、AUGVIC+BTの関連ドメインデータに対するBitextの平均BLEUスコアは4.97と4.41である。 0.63
Comparing this with BT only, the BLEU score difference between relevant and distant domains has been reduced from 1.29 to 0.56. これをBTのみと比較すると、BLEUスコアは関連するドメインと離れたドメインの差が1.29から0.56に減少している。 0.59
This indicates that AUGVIC helps to bridge the domain gap between relevant and distant-domain distributions in traditional BT with monolingual data. このことは、AUGVICが単言語データによるBTの関連領域と遠領域の領域ギャップを埋めるのに役立つことを示している。
訳抜け防止モード: これはAUGVICが役に立つことを示している 従来のBTのドメイン分布をモノリンガルデータでブリッジする。
0.67
In principle, for vicinal samples, the syntheticpair generation capability of the reverse intermediate target-to-source MT model should be better than generating from an arbitrary monolingual data as it could be a distant distribution compared to the bitext. 原則として, ビジナルサンプルの場合, 逆中間ターゲット・ソースMTモデルの合成ペア生成能力は, 任意のモノリンガルデータから生成するよりも, ビットクストよりも遠い分布である可能性が示唆された。 0.79
Judging by the amount of diverse data used for training the language model, we can safely assume that it is a diverse knowledge source (Conneau et al , 2020b) compared to the training bitext samples. 言語モデルのトレーニングに使用される多種多様なデータ量から判断すると、トレーニングバイテキストサンプルと比較して、多種多様な知識ソース(conneau et al , 2020b)であると安全に仮定できる。 0.80
Data that performs well on the reverse 逆でうまく機能するデータ 0.62
5http://opus.nlpl.eu /GNOME.php 5http://opus.nlpl.eu /GNOME.php 0.31
英語(論文から抽出)日本語訳スコア
intermediate target-to-source MT system can be extrapolated from the knowledge-base as vicinaldistribution with the controlled diversity ratio function (Eq. 制御された多様性比関数 (Eq) によるビシナル分布として知識ベースから中間的ターゲット・ソースMT系を外挿することができる。 0.60
2). Moreover, to achieve more diversity, the use of multiple different language models is also compatible in AUGVIC. 2). さらに、より多くの多様性を達成するために、複数の異なる言語モデルの使用もAUGVICと互換性がある。 0.79
5.5 Effect of Diversity Ratio in AUGVIC 5.5 AUGVICにおける多様性率の影響 0.64
For monolingual data, it could be challenging to identify domain discrepancy with the training/testing bitext data, and there is no parameter in the traditional BT method to control this distributional mismatch. モノリンガルデータでは、トレーニング/テストのbitextデータとドメインの不一致を識別することは困難であり、この分散ミスマッチを制御するBTメソッドにはパラメータが存在しない。 0.76
However, in AUGVIC we can control the distributional drift of the generated vicinal samples from the original training distribution by varying the diversity ratio ρ. しかし、AUGVICでは、多様性比 ρ を変化させることで、元のトレーニング分布から生成されたビジナル標本の分布ドリフトを制御できる。 0.67
Theoretically, it is possible to sample the same distribution using dynamic and static diversity. 理論的には、動的および静的多様性を用いて同じ分布をサンプリングすることができる。 0.74
However, dynamic diversity is more flexible to perform hyperparameter-tunin g and to prevent potential outliers. しかし、動的多様性はハイパーパラメータチューニングの実行や潜在的な外れ値の防止により柔軟である。 0.67
The term l/h in Eq 2 represents pseudo-segmentation (h segments) of a large sentence of length l, and b represents the same intuition as ρ. eq 2 の l/h という用語は長さ l の大きな文の擬セグメンテーション(hセグメント)を表し、b は ρ と同じ直観を表す。 0.74
Apart from these, tmin and tmax prevents irregular-samples: (i) tmin ensures that there should be at least some changes in the augmented sample, (ii) tmax makes sure that the generatedsamples from LM do not diverge too much from the vicinity. tmin と tmax は不規則サンプルを阻止する: (i) tmin は、追加サンプルに少なくともいくつかの変化があることを保証する; (ii) tmax は、LM から生成されたサンプルが近傍からあまり分岐しないことを保証する。 0.76
To understand the effect of the diversity ratio in AUGVIC, we perform another set of experiments. AUGVICにおける多様性比の効果を理解するために、別の実験を行う。 0.78
We choose to use En to/from {Bn, Ne} for this experiments, where we selected at most two vicinal samples from each of the target sentence in original bitext. この実験にはEn to/from {Bn, Ne} を使い、ターゲット文のそれぞれから2つのビジナル標本を元の bitext で選択した。 0.64
We investigate the effect of both dynamic and fixed diversity ratio in AUGVIC’s vicinal sample generation (§3.2.1). augvicのvicinal sample generation(3.2.1)における動的および固定的多様性比の効果について検討した。 0.64
For fixed diversity ratio we use ρ values 0.1, 0.3, 0.5, and 0.8, while for dynamic diversity ratio we use a = 0.5, b = 2.5, and h = 10 for controlling the diversity. 固定多様性比では ρ 値 0.1, 0.3, 0.5, 0.8 を使用し、動的多様性比では a = 0.5, b = 2.5, h = 10 を用いる。 0.79
We present these experimental results in Table 6, from where we see that the dynamic diversity ratio performs better in three out of four tasks. これらの実験結果を表6に示し,4つのタスクのうち3つにおいて,動的多様性比が良好な結果を示す。 0.81
For the fixed diversity ratio, we see the variation in results for different values of ρ. 固定多様性比については、ρ の異なる値に対する結果の変動が見られる。 0.81
In all the four tasks, the diversity ratio ρ = 0.8 gives the least scores. 4つのタスクすべてにおいて、多様性比 ρ = 0.8 は最も低いスコアを与える。 0.67
On average, we get the better results with ρ = {0.3, 0.5}. 平均すると、ρ = {0.3, 0.5} でより良い結果が得られる。 0.77
These experiments suggest that higher diversity values may induce noise and lower diversity values may not diversify the data enough to benefit the final NMT model. これらの実験は、高次多様性値がノイズを誘発し、低次多様性値が最終NMTモデルに役立つほどデータを多様化できないことを示唆している。 0.66
AUGVIC diversity ratio → 17.69 Dynamic Fixed augvic diversity ratio → 17.69 dynamic fixed 0.83
En-Bn ← 26.61 En-Bn ← 26.61 0.65
→ 6.21 En-Ne ← 10.25 → 6.21 10.25円 0.62
ρ = 0.1 ρ = 0.3 ρ = 0.5 ρ = 0.8 ρ = 0.1 ρ = 0.3 ρ = 0.5 ρ = 0.8 0.73
17.34 17.52 17.48 17.19 17.34 17.52 17.48 17.19 0.45
25.98 26.19 26.49 25.01 25.98 26.19 26.49 25.01 0.45
5.98 6.19 6.05 5.82 5.98 6.19 6.05 5.82 0.45
10.03 10.36 10.38 9.89 10.03 10.36 10.38 9.89 0.45
Table 6: Effect of diversity ratio ρ while generating vicinal samples in AUGVIC (§3.2.1). 表6: AUGVIC(3.2.1)のビジナルサンプルの生成における多様性比ρの影響 0.78
6 Conclusion We have presented an in-domain data augmentation framework AUGVIC by exploiting the bitext vicinity for low-resource NMT. 6 結論 我々は低リソースNMTのビットクスト近傍を利用したドメイン内データ拡張フレームワークAUGVICを提案する。 0.70
Our method generates vicinal samples by diversifying sentences of the target language in the bitext in a novel way. 本手法は, 対象言語の文を, 新たな方法で多様化することで, ビジナルサンプルを生成する。 0.71
It is simple yet effective and can be quite useful when extra in-domain monolingual data is limited. これは単純だが有効であり、ドメイン内の単言語データが制限されている場合に非常に有用である。 0.54
Extensive experiments with four low-resource language pairs comprising data from different domains show the efficacy of AUGVIC. 異なるドメインのデータからなる4つの低リソース言語ペアによる大規模な実験は、AUGVICの有効性を示している。 0.62
Our method is not only comparable with traditional back-translation with in-domain monolingual data, it also makes the NMT models more robust in the presence of relevant monolingual data. 提案手法は,従来の逆翻訳とドメイン内モノリンガルデータに比較できるだけでなく,関連するモノリンガルデータの存在下でNMTモデルをより堅牢にする。 0.80
Moreover, it bridges the distributional gap for out-of-domain monolingual data when using together. さらに、一緒に使う場合、ドメイン外モノリンガルデータの分配ギャップを橋渡しする。 0.65
References Naveen Arivazhagan, Ankur Bapna, Orhan Firat, Dmitry Lepikhin, Melvin Johnson, Maxim Krikun, Mia Xu Chen, Yuan Cao, George F. Foster, Colin Cherry, Wolfgang Macherey, Zhifeng Chen, and Yonghui Wu. 参照: Naveen Arivazhagan, Ankur Bapna, Orhan Firat, Dmitry Lepikhin, Melvin Johnson, Maxim Krikun, Mia Xu Chen, Yuan Cao, George F. Foster, Colin Cherry, Wolfgang Macherey, Zhifeng Chen, Yonghui Wu。 0.82
2019. Massively multilingual neural machine translation in the wild: Findings and challenges. 2019. 野生における多言語ニューラルマシン翻訳:発見と課題 0.76
CoRR, abs/1907.05019. CoRR, abs/1907.05019。 0.60
Mikel Artetxe, Gorka Labaka, and Eneko Agirre. Mikel Artetxe、Gorka Labaka、Eneko Agirre。 0.60
2018. A robust self-learning method for fully unsupervised cross-lingual mappings of word embeddings. 2018. 単語埋め込みの完全教師なし言語間マッピングのための頑健な自己学習法 0.73
In Proceedings of the 56th Annual Meeting of the Association for Computational Linguistics (Volume 1: Long Papers), pages 789–798. 第56回計算言語学会年次総会(第1巻:長い論文)で、789-798頁。 0.52
M Saiful Bari, Tasnim Mohiuddin, and Shafiq Joty. M Saiful Bari、Tasnim Mohiuddin、Shafiq Joty。 0.64
2021. Uxla: A robust unsupervised data augmentation framework for cross-lingual nlp. 2021. Uxla: 言語間nlpのための堅牢な教師なしデータ拡張フレームワーク。 0.72
In Proceedings of The Joint Conference of the 59th Annual Meeting of the Association for Computational Linguistics and the 11th International Joint Conference on Natural Language Processing (ACLIJCNLP 2021), Online. 第59回計算言語学会合同会議と第11回自然言語処理国際共同会議(aclijcnlp 2021)をオンライン上で開催。 0.56
Association for Computational Linguistics. 計算言語学会会員。 0.52
英語(論文から抽出)日本語訳スコア
Isaac Caswell, Ciprian Chelba, and David Grangier. アイザック・キャズウェル、Ciprian Chelba、David Grangier。 0.53
In Proceedings of 2019. Tagged back-translation. 2019年現在。 タグ付き翻訳。 0.57
the Fourth Conference on Machine Translation (Volume 1: Research Papers), pages 53–63, Florence, Italy. 第4回機械翻訳会議(Volume 1: Research Papers)、53-63頁、イタリアのフィレンツェ。 0.70
Association for Computational Linguistics. Olivier Chapelle, Jason Weston, L´eon Bottou, and Vladimir Vapnik. 計算言語学会会員。 オリヴィエ・チャペル、ジェイソン・ウェストン、L'eon Bottou、ウラジーミル・ヴァプニク。 0.57
2001. Vicinal risk minimization. 2001. リスク最小化。 0.72
In T. K. Leen, T. G. Dietterich, and V. Tresp, editors, Advances in Neural Information Processing Systems 13, pages 416–422. T.K. Leen, T. G. Dietterich, V. Tresp, editors, Advances in Neural Information Processing Systems 13 page 416–422。 0.91
MIT Press. Peng-Jen Chen, Jiajun Shen, Matthew Le, Vishrav Chaudhary, Ahmed El-Kishky, Guillaume Wenzek, Myle Ott, and Marc’Aurelio Ranzato. MIT出版。 Peng-Jen Chen, Jiajun Shen, Matthew Le, Vishrav Chaudhary, Ahmed El-Kishky, Guillaume Wenzek, Myle Ott, Marc’Aurelio Ranzato。 0.75
2019. Facebook AI’s WAT19 Myanmar-English translation In Proceedings of the 6th Worktask submission. 2019. Facebook AIのWAT19 ミャンマー英語翻訳 第6回ワークタスク申請の証明。 0.79
shop on Asian Translation, pages 112–122, Hong Kong, China. shop on asian translation, pages 1112-122, hong kong, china. (英語) 0.71
Association for Computational Linguistics. Yong Cheng, Qian Yang, Yang Liu, Maosong Sun, and Wei Xu. 計算言語学会会員。 Yong Cheng, Qian Yang, Yang Liu, Maosong Sun, Wei Xu 0.59
2017. Joint training for pivot-based neural machine translation. 2017. ピボットベースニューラルマシン翻訳のための共同学習 0.77
In Proceedings of the TwentySixth International Joint Conference on Artificial Intelligence, IJCAI-17, pages 3974–3980. 第20回国際人工知能会議(IJCAI-17)において、3974-3980頁。 0.67
Alexis Conneau, Kartikay Khandelwal, Naman Goyal, Vishrav Chaudhary, Guillaume Wenzek, Francisco Guzm´an, Edouard Grave, Myle Ott, Luke Zettlemoyer, and Veselin Stoyanov. Alexis Conneau, Kartikay Khandelwal, Naman Goyal, Vishrav Chaudhary, Guillaume Wenzek, Francisco Guzm ́an, Edouard Grave, Myle Ott, Luke Zettlemoyer, Veselin Stoyanov 0.80
2020a. Unsupervised cross-lingual representation learning at scale. 2020a 教師なし言語間表現学習の大規模化 0.63
In Proceedings of the 58th Annual Meeting of the Association for Computational Linguistics, pages 8440– 8451, Online. The 58th Annual Meeting of the Association for Computational Linguistics, page 8440–8451, Online. 0.78
Association for Computational Linguistics. Alexis Conneau, Kartikay Khandelwal, Naman Goyal, Vishrav Chaudhary, Guillaume Wenzek, Francisco Guzm´an, Edouard Grave, Myle Ott, Luke Zettlemoyer, and Veselin Stoyanov. 計算言語学会会員。 Alexis Conneau, Kartikay Khandelwal, Naman Goyal, Vishrav Chaudhary, Guillaume Wenzek, Francisco Guzm ́an, Edouard Grave, Myle Ott, Luke Zettlemoyer, Veselin Stoyanov 0.66
2020b. Unsupervised cross-lingual representation learning at scale. 2020年。 教師なし言語間表現学習の大規模化 0.60
In Proceedings of the 58th Annual Meeting of the Association for Computational Linguistics, pages 8440– 8451, Online. The 58th Annual Meeting of the Association for Computational Linguistics, page 8440–8451, Online. 0.78
Association for Computational Linguistics. Alexis Conneau, Guillaume Lample, Marc’Aurelio Ranzato, Ludovic Denoyer, and Herv´e J´egou. 計算言語学会会員。 Alexis Conneau, Guillaume Lample, Marc’Aurelio Ranzato, Ludovic Denoyer, Herv ́e J ́egou 0.69
2017. CoRR, Word translation without parallel data. 2017. CoRR, 並列データなしのワード翻訳。 0.83
abs/1710.04087. abs/1710.04087。 0.45
Raj Dabre, Chenhui Chu, and Anoop Kunchukuttan. Raj Dabre、Chenhui Chu、Anoop Kunchukuttan。 0.66
2020. A survey of multilingual neural machine translation. 2020. 多言語ニューラルマシン翻訳に関する調査研究 0.80
ACM Comput. Surv., 53(5). ACM計算。 背番号53(5)。 0.57
Jingfei Du, Edouard Grave, Beliz Gunel, Vishrav Chaudhary, Onur Celebi, Michael Auli, Ves Stoyanov, and Alexis Conneau. Jingfei Du, Edouard Grave, Beliz Gunel, Vishrav Chaudhary, Onur Celebi, Michael Auli, Ves Stoyanov, Alexis Conneau 0.71
2020. Self-training improves pre-training for natural language understanding. 2020. 自己学習は自然言語理解のための事前学習を改善する。 0.65
Empirical Methods in Natural Language Processing, pages 489–500, Brussels, Belgium. Empirical Methods in Natural Language Processing, page 489–500, Brussels, Belgium 0.84
Association for Computational Linguistics. Sergey Edunov, Myle Ott, Marc’Aurelio Ranzato, and Michael Auli. 計算言語学会会員。 Sergey Edunov、Myle Ott、Marc’Aurelio Ranzato、Michael Auli。 0.60
2020. On the evaluation of machine translation systems trained with back-translation. 2020. バックトランスレーションにより学習した機械翻訳システムの評価について 0.79
In Proceedings of the 58th Annual Meeting of the Association for Computational Linguistics, pages 2836– 2846, Online. 58th Annual Meeting of the Association for Computational Linguistics, page 2836–2846, Online 0.64
Association for Computational Linguistics. Marzieh Fadaee, Arianna Bisazza, and Christof Monz. 計算言語学会会員。 Marzieh Fadaee、Arianna Bisazza、Christof Monz。 0.59
2017. Data augmentation for low-resource neural machine translation. 2017. 低リソースニューラルマシン翻訳のためのデータ拡張 0.80
In Proceedings of the 55th Annual Meeting of the Association for Computational Linguistics (Volume 2: Short Papers), pages 567– 573, Vancouver, Canada. 第55回計算言語学会年次大会(第2巻:短い論文)では、カナダのバンクーバーで第567-573頁が発行された。 0.64
Association for Computational Linguistics. Orhan Firat, Kyunghyun Cho, and Yoshua Bengio. 計算言語学会会員。 Orhan Firat、Yunghyun Cho、Yoshua Bengio。 0.58
2016a. Multi-way, multilingual neural machine translation with a shared attention mechanism. 2016年。 共有注意機構を用いた多言語多言語ニューラルマシン翻訳 0.75
In Proceedings of the 2016 Conference of the North American Chapter of the Association for Computational Linguistics: Human Language Technologies, pages 866–875, San Diego, California. 2016年、米国計算言語学会(association for computational linguistics: human language technologies, pp. 866-875, san diego, san diego, california)が開催。 0.75
Association for Computational Linguistics. Orhan Firat, Baskaran Sankaran, Yaser Al-onaizan, Fatos T. Yarman Vural, and Kyunghyun Cho. 計算言語学会会員。 Orhan Firat, Baskaran Sankaran, Yaser Al-onaizan, Fatos T. Yarman Vural,kyunghyun Cho 0.66
2016b. Zero-resource translation with multi-lingual neural In Proceedings of the 2016 machine translation. 2016年。 2016年機械翻訳における多言語ニューラルを用いたゼロリソース翻訳 0.75
Conference on Empirical Methods in Natural Language Processing, pages 268–277, Austin, Texas. テキサス州オースティン, 268-277頁, 自然言語処理における経験的方法に関する会議 0.72
Association for Computational Linguistics. Fei Gao, Jinhua Zhu, Lijun Wu, Yingce Xia, Tao Qin, Xueqi Cheng, Wengang Zhou, and Tie-Yan Liu. 計算言語学会会員。 Fei Gao, Jinhua Zhu, Lijun Wu, Yingce Xia, Tao Qin, Xueqi Cheng, Wengang Zhou, Tie-Yan Liu 0.64
2019. Soft contextual data augmentation for neural machine translation. 2019. ニューラルマシン翻訳のためのソフトコンテクストデータ拡張 0.77
In Proceedings of the 57th Annual Meeting of the Association for Computational Linguistics, pages 5539–5544, Florence, Italy. 57th Annual Meeting of the Association for Computational Linguistics, page 5539–5544, イタリア・フィレンツェ。 0.72
Association for Computational Linguistics. Jiatao Gu, Hany Hassan, Jacob Devlin, and Victor O. K. Li. 計算言語学会会員。 Jiatao Gu、Hany Hassan、Jacob Devlin、Victor O.K. Li。 0.66
2018. Universal neural machine translation for extremely low resource languages. 2018. 超低リソース言語のためのユニバーサルニューラルマシン翻訳。 0.83
CoRR, abs/1802.05368. CoRR, abs/1802.05368。 0.60
Francisco Guzm´an, Peng-Jen Chen, Myle Ott, Juan Pino, Guillaume Lample, Philipp Koehn, Vishrav Chaudhary, and Marc’Aurelio Ranzato. Francisco Guzm ́an, Peng-Jen Chen, Myle Ott, Juan Pino, Guillaume Lample, Philipp Koehn, Vishrav Chaudhary, Marc’Aurelio Ranzato 0.84
2019. The FLORES evaluation datasets for low-resource machine translation: Nepali–English and Sinhala– English. 2019. flores evaluation datasets for low-resource machine translation: nepali– english and sinhala– english。 0.79
In Proceedings of the 2019 Conference on Empirical Methods in Natural Language Processing and the 9th International Joint Conference on Natural Language Processing (EMNLP-IJCNLP), pages 6098–6111, Hong Kong, China. 第9回自然言語処理国際共同会議(emnlp-ijcnlp)は、2019年の自然言語処理における経験的手法に関する会議である。
訳抜け防止モード: 自然言語処理における経験的手法に関する2019年会議のまとめ 第9回国際自然言語処理国際会議(EMNLP - IJCNLP)に参加して 6098-6111頁、香港、中国。
0.79
Association for Computational Linguistics. Sergey Edunov, Myle Ott, Michael Auli, and David Grangier. 計算言語学会会員。 Sergey Edunov、Myle Ott、Michael Auli、David Grangier。 0.61
2018. Understanding back-translation at In Proceedings of the 2018 Conference on scale. 2018. In Proceedings of the 2018 Conference on Scaleでのバックトランスレーションの理解。 0.81
Hany Hassan, Anthony Aue, C. Chen, Vishal Chowdhary, J. Clark, C. Federmann, Xuedong Huang, Marcin Junczys-Dowmunt, W. Lewis, M. Li, Shujie Hany Hassan, Anthony Aue, C. Chen, Vishal Chowdhary, J. Clark, C. Federmann, Xuedong Huang, Marcin Junczys-Dowmunt, W. Lewis, M. Li, Shujie 0.97
英語(論文から抽出)日本語訳スコア
Liu, T. Liu, Renqian Luo, Arul Menezes, Tao Qin, F. Seide, Xu Tan, Fei Tian, Lijun Wu, Shuangzhi Wu, Yingce Xia, Dongdong Zhang, Zhirui Zhang, and M. Zhou. Liu, T. Liu, Renqian Luo, Arul Menezes, Tao Qin, F. Seide, Xu Tan, Fei Tian, Lijun Wu, Shuangzhi Wu, Yingce Xia, Dongdong Zhang, Zhirui Zhang, M. Zhou 0.82
2018. Achieving human parity on automatic chinese to english news translation. 2018. 中国語から英語への自動翻訳における人間の同義語獲得 0.74
ArXiv, abs/1803.05567. ArXiv, abs/1803.05567。 0.59
Junxian He, Jiatao Gu, Jiajun Shen, and Marc’Aurelio Ranzato. Junxian He, Jiatao Gu, Jiajun Shen, Marc’Aurelio Ranzato。 0.70
2020. Revisiting self-training for neural In International Conference sequence generation. 2020. ニューラルインインターナショナル会議シーケンス生成のための自己学習の再検討 0.75
on Learning Representations. 表現の学習について。 0.43
Vu Cong Duy Hoang, Philipp Koehn, Gholamreza Iterative backHaffari, and Trevor Cohn. Vu Cong Duy Hoang, Philipp Koehn, Gholamreza Iterative back Haffari, Trevor Cohn 0.72
2018. In Protranslation for neural machine translation. 2018. ニューラルマシン翻訳のためのプロトランスレーション 0.79
ceedings of the 2nd Workshop on Neural Machine Translation and Generation, pages 18–24, Melbourne, Australia. The 2nd Workshop on Neural Machine Translation and Generation, page 18–24, Melbourne, Australia 0.78
Association for Computational Linguistics. M. A. 計算言語学会会員。 M.A。 0.66
A. Mumin; M. H. Seddiqui; M. Z. Iqbal; M. J. Islam. A. Mumin, M. H. Seddiqui, M. Z. Iqbal, M. J. Islam 0.83
2018. Supara0.8m: A balanced english-bangla parallel corpus. 2018. supara0.8m: バランスのとれた英語とバングラ語の並列コーパス。 0.63
Melvin Johnson, Mike Schuster, Quoc V. Le, Maxim Krikun, Yonghui Wu, Zhifeng Chen, Nikhil Thorat, Fernanda Vi´egas, Martin Wattenberg, Greg Corrado, Macduff Hughes, and Jeffrey Dean. Melvin Johnson, Mike Schuster, Quoc V. Le, Maxim Krikun, Yonghui Wu, Zhifeng Chen, Nikhil Thorat, Fernanda Vi ́egas, Martin Wattenberg, Greg Corrado, Macduff Hughes, Jeffrey Dean 0.85
2017. Google’s multilingual neural machine translation system: Enabling zero-shot translation. 2017. Googleの多言語ニューラルマシン翻訳システム:ゼロショット翻訳の実現。 0.84
Transactions of the Association for Computational Linguistics, 5:339–351. 計算言語学会(Association for Computational Linguistics) 5:339–351。 0.64
Yunsu Kim, Petre Petrov, Pavel Petrushkov, Shahram Khadivi, and Hermann Ney. Yunsu Kim, Petre Petrov, Pavel Petrushkov, Shahram Khadivi, Hermann Ney 0.69
2019. Pivot-based transfer learning for neural machine translation beIn Proceedings of tween non-English languages. 2019. ニューラルネットワーク翻訳のためのPivot-based transfer learning beIn Proceedings of tween non- English languages。 0.78
the 2019 Conference on Empirical Methods in Natural Language Processing and the 9th International Joint Conference on Natural Language Processing (EMNLP-IJCNLP), pages 866–876, Hong Kong, China. The 2019 Conference on Empirical Methods in Natural Language Processing and the 9th International Joint Conference on Natural Language Processing (EMNLP-IJCNLP), page 866–876, Hong Kong, China 0.89
Association for Computational Linguistics. Sosuke Kobayashi. 計算言語学会会員。 小林宗助。 0.56
2018. Contextual augmentation: Data augmentation by words with paradigmatic reIn Proceedings of the 2018 Conference of lations. 2018. context augmentation: 2018 conference of lationsのパラダイム的な変更手順を持つ単語によるデータ拡張。 0.83
the North American Chapter of the Association for Computational Linguistics: Human Language Technologies, Volume 2 (Short Papers), pages 452–457, New Orleans, Louisiana. The North American Chapter of the Association for Computational Linguistics: Human Language Technologies, Volume 2 (Short Papers), page 452–457, New Orleans, Louisiana. 0.87
Association for Computational Linguistics. Tom Kocmi and Ondˇrej Bojar. 計算言語学会会員。 トム・コクミとオンダレー・ボジャル。 0.52
2018. Trivial transfer learning for low-resource neural machine translation. 2018. 低リソースニューラルマシン翻訳のための自明な転送学習 0.79
In Proceedings of the Third Conference on Machine Translation: Research Papers, pages 244–252, Brussels, Belgium. In Proceedings of the Third Conference on Machine Translation: Research Papers, page 244–252, Brussels, Belgium 0.83
Association for Computational Linguistics. Philipp Koehn and Rebecca Knowles. 計算言語学会会員。 Philipp KoehnとRebecca Knowles。 0.66
2017. Six chalIn Proceedlenges for neural machine translation. 2017. ニューラルネットワーク翻訳のための6つのChalIn Proceedlenge 0.72
ings of the First Workshop on Neural Machine Translation, pages 28–39, Vancouver. The First Workshop on Neural Machine Translation, page 28–39, Vancouver. 0.84
Association for Computational Linguistics. Philippe Laban, Andrew Hsi, John Canny, and Marti A. Hearst. 計算言語学会会員。 Philippe Laban、Andrew Hsi、John Canny、Marti A. Hearst。 0.62
2020. The summary loop: Learning to write In Proabstractive summaries without examples. 2020. 要約のループ: サンプルなしでProabstractiveな要約を書くことを学ぶ。 0.77
ceedings of the 58th Annual Meeting of the Association for Computational Linguistics, ACL 2020, Online, July 5-10, 2020, pages 5135–5150. 第58回計算言語学会年次総会(acl 2020, online, july 5-10, 2020, pages 5135–5150)の開催。 0.77
Association for Computational Linguistics. Dmitry Lepikhin, HyoukJoong Lee, Yuanzhong Xu, Dehao Chen, Orhan Firat, Yanping Huang, Maxim Krikun, Noam Shazeer, and Zhifeng Chen. 計算言語学会会員。 Dmitry Lepikhin, HyokJoong Lee, Yuanzhong Xu, Dehao Chen, Orhan Firat, Yanping Huang, Maxim Krikun, Noam Shazeer, Zhifeng Chen 0.61
2021. {GS}hard: Scaling giant models with conditional In Internacomputation and automatic sharding. 2021. {GS}hard: 条件付きInインター計算と自動シャーディングによる巨大モデルのスケーリング。 0.79
tional Conference on Learning Representations. 対訳 表現の学習に関する会議。 0.67
Zichao Li, Xin Jiang, Lifeng Shang, and Hang Li. Zichao Li, Xin Jiang, Lifeng Shang, Hang Li 0.64
2018. Paraphrase generation with deep reinforcement learning. 2018. 深層強化学習によるパラフレーズ生成 0.77
In Proceedings of the 2018 Conference on Empirical Methods in Natural Language Processing, pages 3865–3878, Brussels, Belgium. 2018 Conference on Empirical Methods in Natural Language Processing, page 3865–3878, Brussels, Belgium
訳抜け防止モード: 自然言語処理における実証的手法に関する2018年会議のまとめ 3865-3878頁、ブリュッセル、ベルギー。
0.78
Association for Computational Linguistics. Yinhan Liu, Jiatao Gu, Naman Goyal, Xian Li, Sergey Edunov, Marjan Ghazvininejad, Mike Lewis, and Luke Zettlemoyer. 計算言語学会会員。 Yinhan Liu, Jiatao Gu, Naman Goyal, Xian Li, Sergey Edunov, Marjan Ghazvininejad, Mike Lewis, Luke Zettlemoyer 0.62
2020. Multilingual denoising pre-training for neural machine translation. 2020. ニューラルマシン翻訳のためのマルチリンガルdenoising pre-training 0.75
Tasnim Mohiuddin, M Saiful Bari, and Shafiq Joty. Tasnim Mohiuddin、M Saiful Bari、Shafiq Joty。 0.66
2020. LNMap: Departures from isomorphic assumption in bilingual lexicon induction through nonlinear mapping in latent space. 2020. LNMap: 潜在空間における非線形写像によるバイリンガルレキシコン誘導の同型仮定から逸脱する。 0.78
In Proceedings of the 2020 Conference on Empirical Methods in Natural Language Processing (EMNLP), pages 2712–2723, Online. In Proceedings of the 2020 Conference on Empirical Methods in Natural Language Processing (EMNLP), page 2712–2723, Online 0.80
Association for Computational Linguistics. Tasnim Mohiuddin and Shafiq Joty. 計算言語学会会員。 Tasnim MohiuddinとShafiq Joty。 0.65
2019. Revisiting adversarial autoencoder for unsupervised word translation with cycle consistency and improved trainIn Proceedings of the 2019 Conference of ing. 2019. 2019年のingカンファレンスでは、非教師なしの単語翻訳のためのadversarial autoencoderを再検討し、サイクル一貫性とトレーディングの改善を行った。 0.65
the North American Chapter of the Association for Computational Linguistics: Human Language Technologies, Volume 1 (Long and Short Papers), pages 3857–3867, Minneapolis, Minnesota. The North American Chapter of the Association for Computational Linguistics: Human Language Technologies, Volume 1 (Long and Short Papers), page 3857–3867, Minneapolis, Minnesota. 0.87
Association for Computational Linguistics. Tasnim Mohiuddin and Shafiq Joty. 計算言語学会会員。 Tasnim MohiuddinとShafiq Joty。 0.65
2020. Unsupervised Word Translation with Adversarial Autoencoder. 2020. Adversarial Autoencoder を用いた教師なし単語翻訳 0.74
Computational Linguistics, 46(2):257–288. 計算言語学、46(2):257–288。 0.65
Graham Neubig and Junjie Hu. Graham Neubig と Junjie Hu の略。 0.80
2018. Rapid adaptation of neural machine translation to new languages. 2018. ニューラルマシン翻訳の新たな言語への迅速な適応 0.85
In Proceedings of the 2018 Conference on Empirical Methods in Natural Language Processing, pages 875–880, Brussels, Belgium. 2018 Conference on Empirical Methods in Natural Language Processing, page 875–880, Brussels, Belgium
訳抜け防止モード: 自然言語処理における実証的手法に関する2018年会議のまとめ 875-880頁、ブリュッセル、ベルギー。
0.78
Association for Computational Linguistics. Xuan-Phi Nguyen, Shafiq Joty, Thanh-Tung Nguyen, Wu Kui, and Ai Ti Aw. 計算言語学会会員。 Xuan-Phi Nguyen, Shafiq Joty, Thanh-Tung Nguyen, Wu Kui, Ai Ti Aw 0.69
2021. Cross-model Backtranslated Distillation for Unsupervised Machine In Thirty-eighth International ConferTranslation. 2021. 32h国際コンファレンスにおける非教師付き機械のクロスモデル逆変換蒸留 0.69
ence on Machine Learning, ICML’21, Virtual. ence on Machine Learning, ICML’21, Virtual.org 0.85
Xuan-Phi Nguyen, Shafiq R. Joty, Kui Wu, and Ai Ti Aw. Xuan-Phi Nguyen, Shafiq R. Joty, Kui Wu, and Ai Ti Aw 0.90
2020. Data diversification: A simple strategy 2020. データ多様化:単純な戦略 0.85
英語(論文から抽出)日本語訳スコア
J¨org Tiedemann. ジョルジュ・リーテマン(jorge tieemann)。 0.30
2012. Parallel data, tools and interfaces in opus. 2012. opusの並列データ、ツール、インターフェース。 0.76
In Proceedings of the Eight International Conference on Language Resources and Evaluation (LREC’12), Istanbul, Turkey. 第8回言語資源評価国際会議(lrec'12)において、トルコのイスタンブールで開催された。 0.76
European Language Resources Association (ELRA). 欧州言語資源協会 (ELRA) の略。 0.77
Ashish Vaswani, Noam Shazeer, Niki Parmar, Jakob Uszkoreit, Llion Jones, Aidan N Gomez, Ł ukasz Kaiser, and Illia Polosukhin. Ashish Vaswani, Noam Shazeer, Niki Parmar, Jakob Uszkoreit, Llion Jones, Aidan N Gomez, s ukasz Kaiser, Illia Polosukhin 0.71
2017. Attention is all you need. 2017. 注意はあなたが必要とするすべてです。 0.74
In Advances in Neural Information Processing Systems, volume 30, pages 5998–6008. 神経情報処理システムの発展において、第30巻5998-6008頁。 0.62
Curran Associates, Inc. Curran Associates, Inc. 0.85
Xinyi Wang, Hieu Pham, Zihang Dai, and Graham Neubig. 新井王、ヒエウ・パム、張大、グラハム・ニュービッグ。 0.50
2018. SwitchOut: an efficient data augmentation algorithm for neural machine translation. 2018. SwitchOut: ニューラルネットワーク翻訳のための効率的なデータ拡張アルゴリズム。 0.78
In Proceedings of the 2018 Conference on Empirical Methods in Natural Language Processing, pages 856–861, Brussels, Belgium. 2018 Conference on Empirical Methods in Natural Language Processing, page 856–861, Brussels, Belgium
訳抜け防止モード: 自然言語処理における実証的手法に関する2018年会議のまとめ 856-861頁、ブリュッセル、ベルギー。
0.78
Association for Computational Linguistics. Lijun Wu, Yiren Wang, Yingce Xia, Tao Qin, Jianhuang Lai, and Tie-Yan Liu. 計算言語学会会員。 Lijun Wu, Yiren Wang, Yingce Xia, Tao Qin, Jianhuang Lai, Tie-Yan Liu 0.64
2019. Exploiting monolingual data at scale for neural machine translation. 2019. ニューラルネットワークの大規模翻訳における単言語データの利用 0.71
In Proceedings of the 2019 Conference on Empirical Methods in Natural Language Processing and the 9th International Joint Conference on Natural Language Processing (EMNLP-IJCNLP), pages 4207– 4216, Hong Kong, China. 第9回自然言語処理国際共同会議(emnlp-ijcnlp)と2019年の自然言語処理に関する実証的手法に関する会議の議事録において、香港の4207-4216ページが挙げられている。
訳抜け防止モード: 自然言語処理における経験的手法に関する2019年会議のまとめ 第9回国際自然言語処理国際会議(EMNLP - IJCNLP)に参加して 4207頁 - 4216頁、香港、中国。
0.80
Association for Computational Linguistics. Xing Wu, Shangwen Lv, Liangjun Zang, Jizhong Han, and Songlin Hu. 計算言語学会会員。 Xing Wu, Shangwen Lv, Liangjun Zang, Jizhong Han, Songlin Hu 0.61
2018. Conditional BERT contextual augmentation. 2018. 条件付きBERTコンテキスト拡張。 0.73
CoRR, abs/1812.06705. CoRR, abs/1812.06705。 0.59
Ziang Xie, Sida I. Wang, Jiwei Li, Daniel L´evy, Aiming Nie, Dan Jurafsky, and Andrew Y. Ng. Ziang Xie, Sida I. Wang, Jiwei Li, Daniel L ́evy, Aiming Nie, Dan Jurafsky, Andrew Y. Ng 0.87
2017. Data noising as smoothing in neural network language models. 2017. ニューラルネットワーク言語モデルのスムース化としてのデータノーミング。 0.81
CoRR, abs/1703.02573. CoRR, abs/1703.02573。 0.58
Jinhua Zhu, Yingce Xia, Lijun Wu, Di He, Tao Qin, Wengang Zhou, Houqiang Li, and Tieyan Liu. ジンワ・ジュ、yingce xia、lijun wu、di he、tao qin、wongang zhou、houqiang li、tieyan liu。 0.52
2020. Incorporating bert into neural machine translation. 2020. bertを神経機械翻訳に組み込む。 0.78
In International Conference on Learning Representations. 学習表現に関する国際会議に参加。 0.79
Barret Zoph, Deniz Yuret, Jonathan May, and Kevin Knight. Barret Zoph、Denis Yuret、Jonathan May、Kevin Knight。 0.63
2016. Transfer learning for low-resource In Proceedings of the neural machine translation. 2016. ニューラルマシン翻訳過程における低リソース化のためのトランスファー学習 0.83
2016 Conference on Empirical Methods in Natural Language Processing, pages 1568–1575, Austin, Texas. 2016 conference on empirical methods in natural language processing, pages 1568–1575, austin, texas (英語) 0.86
Association for Computational Linguistics. for neural machine translation. 計算言語学会会員。 ニューラルマシン翻訳のために 0.64
In Advances in Neural Information Processing Systems 33: Annual Conference on Neural Information Processing Systems 2020, NeurIPS 2020, December 6-12, 2020, virtual. in advances in neural information processing systems 33: annual conference on neural information processing systems 2020, neurips 2020, december 6-12, 2020, virtual (英語) 0.82
Myle Ott, Sergey Edunov, Alexei Baevski, Angela Fan, Sam Gross, Nathan Ng, David Grangier, and fairseq: A fast, extensible Michael Auli. Myle Ott, Sergey Edunov, Alexei Baevski, Angela Fan, Sam Gross, Nathan Ng, David Grangier, fairseq: A fast, extensible Michael Auli 0.77
2019. In Proceedings of toolkit for sequence modeling. 2019. シーケンシャルモデリングのためのツールキットの手順。 0.77
the 2019 Conference of the North American Chapter of the Association for Computational Linguistics (Demonstrations), pages 48–53, Minneapolis, Minnesota. The 2019 Conference of the North American Chapter of the Association for Computational Linguistics (Demonstrations), page 48-53, Minneapolis (ミネソタ州ミネアポリス) 0.82
Association for Computational Linguistics. Kishore Papineni, Salim Roukos, Todd Ward, and WeiJing Zhu. 計算言語学会会員。 Kishore Papineni、Salim Roukos、Todd Ward、WeiJing Zhu。 0.56
2002. Bleu: a method for automatic evalIn Proceedings of uation of machine translation. 2002. Bleu: 機械翻訳の用法のevalIn自動証明方法。 0.73
the 40th Annual Meeting of the Association for Computational Linguistics, pages 311–318, Philadelphia, Pennsylvania, USA. The 40th Annual Meeting of the Association for Computational Linguistics, pages 311–318, Philadelphia, Pennsylvania, USA 0.88
Association for Computational Linguistics. Martin Popel, Marketa Tomkova, 計算言語学会会員。 Martin Popel, Marketa Tomkova 0.62
Jakub Tomek, Łukasz Kaiser, Jakob Uszkoreit, Ondˇrej Bojar, and Zdenˇek ˇZabokrtsk`y. jakub tomek、łukasz kaiser、jakob uszkoreit、オンデレーイ・ボジャル、ズデニェク・イザボクルツク。 0.25
2020. Transforming machine translation: a deep learning system reaches news translation quality comparable to human professionals. 2020. 変換機械翻訳: ディープラーニングシステムは、人間のプロフェッショナルに匹敵するニュース翻訳品質に達する。
訳抜け防止モード: 2020. 変換機械翻訳 深層学習システムは、人間のプロフェッショナルに匹敵するニュース翻訳品質に達する。
0.84
Nature Communications, 11(1):1–15. 自然通信、11(1):1–15。 0.79
Matt Post. 2018. マット・ポスト 2018. 0.74
A call for clarity in reporting BLEU scores. BLEUスコアの報告における明確性の要求。 0.69
In Proceedings of the Third Conference on Machine Translation: Research Papers, pages 186– 191, Brussels, Belgium. In Proceedings of the Third Conference on Machine Translation: Research Papers, page 186–191, Brussels, Belgium 0.80
Association for Computational Linguistics. Loganathan Ramasamy, Ondˇrej Bojar, and Zdenˇek ˇZabokrtsk´y. 計算言語学会会員。 ローガナタン・ラマサミー(loganathan ramasamy)、オンデレーイ・ボジャル、ズデニェク・イザボクルツク(zdensek)。 0.48
2014. EnTam: An english-tamil parallel corpus (EnTam v2.0). 2014. EnTam: 英語と英語の並列コーパス(EnTam v2.0)。 0.76
LINDAT/CLARIAHCZ digital library at the Institute of Formal and Applied Linguistics ( ´UFAL), Faculty of Mathematics and Physics, Charles University. LINDAT/CLARIAHCZ Digital Library at the Institute of Formal and Applied Linguistics ( ; UFAL, Department of Mathematics and Physics, Charles University) 0.87
Rico Sennrich, Barry Haddow, and Alexandra Birch. Rico Sennrich、Barry Haddow、Alexandra Birch。 0.64
Improving neural machine translation mod2016. neural machine translation mod2016の改良。 0.85
In Proceedings of the els with monolingual data. In Proceedings of the els with monolingual data (英語) 0.77
54th Annual Meeting of the Association for Computational Linguistics (Volume 1: Long Papers), pages 86–96, Berlin, Germany. 第54回計算言語学会年次大会(Volume 1: Long Papers)、86-96頁、ドイツ、ベルリン。 0.67
Association for Computational Linguistics. Rico Sennrich and Biao Zhang. 計算言語学会会員。 Rico SennrichとBiao Zhang。 0.64
2019. Revisiting lowresource neural machine translation: A case study. 2019. 低リソースニューラルマシン翻訳の再検討:ケーススタディ 0.77
In Proceedings of the 57th Annual Meeting of the Association for Computational Linguistics, pages 211– 221, Florence, Italy. 第57回計算言語学会年次総会では、イタリアのフィレンツェで211-221頁が開催された。 0.63
Association for Computational Linguistics. Linqing Shi, Danyang Liu, Gongshen Liu, and Kui Meng. 計算言語学会会員。 林慶(りんきゅうし)、丹陽(だんyang liu)、ゴンジェン(gongshen liu)、クイ・メン(kui meng)。 0.41
2020. Aug-bert: An efficient data augmentation algorithm for text classification. 2020. Aug-bert: テキスト分類のための効率的なデータ拡張アルゴリズム。 0.80
In Communications, Signal Processing, and Systems, pages 2191– 2198, Singapore. 通信、信号処理、システムにおいて、シンガポールの2191-2198頁。 0.75
Springer Singapore. シンガポール出身。 0.49
英語(論文から抽出)日本語訳スコア
A Appendix A.1 Reproducibility Settings Appendix A.1 Reproducibility 設定 0.96
• Computing infrastructure - Linux machine •計算基盤-Linuxマシン 0.74
with Tesla V100-SXM2-16GB GPU Tesla V100-SXM2-16GB GPU搭載 0.46
• PyTorch version: 1.4.0 •PyTorchバージョン:1.4.0 0.63
• CUDA version: 10.2 •CUDAバージョン:10.2 0.65
• cuDNN version: 7.6 •cuDNNバージョン:7.6 0.82
• Number of model parameters - • モデルパラメータの数 - 0.82
– Base Model: 39340032 – Larger Model: 181481472 – Guided BT Model: 90039296 -ベースモデル:39340032 – より大きなモデル:181481472 – ガイド付きBTモデル:90039296 0.71
A.2 Optimal Hyperparameters A.2 最適ハイパーパラメータ 0.61
Hyperparameter Transformer Layers Emb. ハイパーパラメータトランスフォーマー層emb。 0.68
dim FFN dim Attention heads Share-all-embeddings Dropout Label-smoothing Warmup-updates Warmup-init-lr Learning rate Min-lr Optimizer Adam-betas Lr-scheduler Criterion dim FFN dim Attention Head Share-all-embeddings Dropout Label-smoothing Warmup-updates Warmup-init-lr Learning rate Min-lr Optimizer Adam-betas Lr-scheduler Criterion 0.59
Value 5 512 2048 価値 5 512 2048 0.78
8 True 0.3 0.2 4000 1e-7 0.003 1e-9 adam 8 真 0.3 0.2 4000 1e-7 0.003 1e-9 アダム 0.64
(0.9, 0.98) inverse-sqrt (0.9, 0.98)逆sqrt 0.66
label-smooth-cross-e ntropy label‐smooth-cross‐entropy 0.28
Table 7: Optimal hyper-parameter settings for base model. 表7: ベースモデルの最適ハイパーパラメータ設定。 0.84
Hyperparameter Transformer Layers Emb. ハイパーパラメータトランスフォーマー層emb。 0.68
dim FFN dim Attention heads Share-all-embeddings Dropout Label-smoothing Warmup-updates Warmup-init-lr Learning rate Min-lr Optimizer Adam-betas Lr-scheduler Criterion dim FFN dim Attention Head Share-all-embeddings Dropout Label-smoothing Warmup-updates Warmup-init-lr Learning rate Min-lr Optimizer Adam-betas Lr-scheduler Criterion 0.59
Value 6 1024 4096 16 価値 6 1024 4096 16 0.80
True 0.1 0.2 4000 1e-7 0.001 1e-9 adam true 0.1 0.2 4000 1e-7 0.001 1e-9 adam 0.50
(0.9, 0.98) inverse-sqrt (0.9, 0.98)逆sqrt 0.66
label-smooth-cross-e ntropy label‐smooth-cross‐entropy 0.28
Table 8: Optimal hyper-parameter settings for large model. 表8: 大きなモデルのための最適なハイパーパラメータ設定。 0.76
                           ページの最初に戻る

翻訳にはFugu-Machine Translatorを利用しています。