論文の概要: Unsupervised Pretraining for Neural Machine Translation Using Elastic
Weight Consolidation
- arxiv url: http://arxiv.org/abs/2010.09403v1
- Date: Mon, 19 Oct 2020 11:51:45 GMT
- ステータス: 処理完了
- システム内更新日: 2022-10-05 21:50:11.618495
- Title: Unsupervised Pretraining for Neural Machine Translation Using Elastic
Weight Consolidation
- Title(参考訳): 弾性重み統合を用いたニューラルマシン翻訳のための教師なし事前学習
- Authors: Du\v{s}an Vari\v{s} and Ond\v{r}ej Bojar
- Abstract要約: 本研究は、ニューラルネットワーク翻訳における教師なし事前訓練(NMT)の現在進行中の研究を提示する。
本研究では,モノリンガルデータを用いて学習した2つの言語モデルを用いて,エンコーダとデコーダの重み付けを初期化する。
両方向のNMTエンコーダを左から右への言語モデルで初期化し、元の左から右への言語モデリングタスクを記憶させることで、エンコーダの学習能力が制限されることを示す。
- 参考スコア(独自算出の注目度): 0.0
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: This work presents our ongoing research of unsupervised pretraining in neural
machine translation (NMT). In our method, we initialize the weights of the
encoder and decoder with two language models that are trained with monolingual
data and then fine-tune the model on parallel data using Elastic Weight
Consolidation (EWC) to avoid forgetting of the original language modeling
tasks. We compare the regularization by EWC with the previous work that focuses
on regularization by language modeling objectives. The positive result is that
using EWC with the decoder achieves BLEU scores similar to the previous work.
However, the model converges 2-3 times faster and does not require the original
unlabeled training data during the fine-tuning stage. In contrast, the
regularization using EWC is less effective if the original and new tasks are
not closely related. We show that initializing the bidirectional NMT encoder
with a left-to-right language model and forcing the model to remember the
original left-to-right language modeling task limits the learning capacity of
the encoder for the whole bidirectional context.
- Abstract(参考訳): 本研究は、ニューラルネットワーク翻訳(NMT)における教師なし事前学習の現在進行中の研究である。
本手法では,1言語データで学習した2つの言語モデルを用いてエンコーダとデコーダの重みを初期化し,その重み付けを弾性重み和(ewc)を用いて並列データ上で微調整することで,元の言語モデリングタスクの忘れを回避した。
我々は、ewcによる正規化と、言語モデリングの目的による正規化に焦点を当てた以前の作業を比較する。
その結果、EWCをデコーダで使用するとBLEUスコアが以前のような結果になる。
しかし、モデルは2-3倍高速に収束し、微調整段階では元のラベルなしのトレーニングデータを必要としない。
対照的に、EWCを用いた正規化は、元のタスクと新しいタスクが密接に関連していない場合、効果が低い。
両方向のNMTエンコーダを左から右への言語モデルで初期化し、元の左から右への言語モデリングタスクを記憶させるよう強制することで、双方向コンテキスト全体に対するエンコーダの学習能力を制限することを示す。
関連論文リスト
- Efficient Machine Translation with a BiLSTM-Attention Approach [0.0]
本稿では,翻訳品質の向上を目的とした新しいSeq2Seqモデルを提案する。
このモデルでは、双方向長短期記憶ネットワーク(Bidirectional Long Short-Term Memory Network, Bi-LSTM)をエンコーダとして使用し、入力シーケンスのコンテキスト情報をキャプチャする。
現在の主流トランスフォーマーモデルと比較して,本モデルはWMT14機械翻訳データセットにおいて優れた性能を発揮する。
論文 参考訳(メタデータ) (2024-10-29T01:12:50Z) - Universal Conditional Masked Language Pre-training for Neural Machine
Translation [29.334361879066602]
本稿では,大規模バイリンガルコーパスとモノリンガルコーパスを事前学習した条件付きマスク付き言語モデルCeMATを提案する。
我々は広範囲な実験を行い、CeMATがすべてのシナリオで大幅なパフォーマンス向上を達成できることを示します。
論文 参考訳(メタデータ) (2022-03-17T10:00:33Z) - Integrated Training for Sequence-to-Sequence Models Using
Non-Autoregressive Transformer [49.897891031932545]
本稿では,非自己回帰変換器をベースとしたケースドモデルを提案する。
我々は、ピボットベースの2つの機械翻訳タスク、すなわち、フランス語-ドイツ語とドイツ語-チェコ語について評価を行う。
論文 参考訳(メタデータ) (2021-09-27T11:04:09Z) - Improving Multilingual Translation by Representation and Gradient
Regularization [82.42760103045083]
表現レベルと勾配レベルの両方でNMTモデルを正規化するための共同手法を提案する。
提案手法は,オフターゲット翻訳の発生率の低減とゼロショット翻訳性能の向上に有効であることを示す。
論文 参考訳(メタデータ) (2021-09-10T10:52:21Z) - Exploring Unsupervised Pretraining Objectives for Machine Translation [99.5441395624651]
教師なし言語間事前訓練は、ニューラルマシン翻訳(NMT)の強力な結果を得た
ほとんどのアプローチは、入力の一部をマスキングしてデコーダで再構成することで、シーケンス・ツー・シーケンスアーキテクチャにマスク付き言語モデリング(MLM)を適用する。
マスキングと、実際の(完全な)文に似た入力を生成する代替目的を、文脈に基づいて単語を並べ替えて置き換えることにより比較する。
論文 参考訳(メタデータ) (2021-06-10T10:18:23Z) - Zero-shot Cross-lingual Transfer of Neural Machine Translation with
Multilingual Pretrained Encoders [74.89326277221072]
多言語プリトレーニング済みエンコーダによるNMTモデルのクロスリンガル転送を改善する方法は、未検討です。
このタスクのシンプルで効果的なモデルであるSixTを提案します。
私達のモデルはCRISSおよびm2m-100より多くの英語テストセットでよりよい性能を達成します。
論文 参考訳(メタデータ) (2021-04-18T07:42:45Z) - Cross-Lingual Named Entity Recognition Using Parallel Corpus: A New
Approach Using XLM-RoBERTa Alignment [5.747195707763152]
我々は、XLM-RoBERTa上にエンティティアライメントモデルを構築し、並列データの英語部分で検出されたエンティティを対象言語文に投影する。
翻訳方法とは異なり、このアプローチはターゲット言語のオリジナルコーパスの自然な流派性とニュアンスから利益を得ます。
提案手法をベンチマークデータセット上で4つのターゲット言語に対して評価し,最新のSOTAモデルと比較してF1スコアを得た。
論文 参考訳(メタデータ) (2021-01-26T22:19:52Z) - Unsupervised Paraphrasing with Pretrained Language Models [85.03373221588707]
教師なし環境で,事前学習した言語モデルを用いて高品質なパラフレーズを生成する訓練パイプラインを提案する。
提案手法は,タスク適応,自己スーパービジョン,動的ブロッキング(Dynamic Blocking)という新しい復号アルゴリズムから構成される。
提案手法は,Quora Question PairとParaNMTの両方のデータセット上で,最先端の性能を達成できることを示す。
論文 参考訳(メタデータ) (2020-10-24T11:55:28Z) - Reusing a Pretrained Language Model on Languages with Limited Corpora
for Unsupervised NMT [129.99918589405675]
本稿では,オープンソース言語上でのみ事前訓練されたLMを再利用する効果的な手法を提案する。
モノリンガルLMは両言語で微調整され、UNMTモデルの初期化に使用される。
我々のアプローチであるRE-LMは、英語・マケドニア語(En-Mk)と英語・アルバニア語(En-Sq)の競合言語間事前学習モデル(XLM)より優れています。
論文 参考訳(メタデータ) (2020-09-16T11:37:10Z) - Universal Vector Neural Machine Translation With Effective Attention [0.0]
本稿では,エンコーダ-デコーダモデルに基づくニューラルネットワーク翻訳の特異モデルを提案する。
我々は、複数の言語を予測できる中立/ユニバーサルモデル表現を導入する。
論文 参考訳(メタデータ) (2020-06-09T01:13:57Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。