論文の概要: Exploring Unsupervised Pretraining Objectives for Machine Translation
- arxiv url: http://arxiv.org/abs/2106.05634v1
- Date: Thu, 10 Jun 2021 10:18:23 GMT
- ステータス: 処理完了
- システム内更新日: 2021-06-12 15:06:04.090939
- Title: Exploring Unsupervised Pretraining Objectives for Machine Translation
- Title(参考訳): 機械翻訳における教師なし事前学習目標の検討
- Authors: Christos Baziotis, Ivan Titov, Alexandra Birch, Barry Haddow
- Abstract要約: 教師なし言語間事前訓練は、ニューラルマシン翻訳(NMT)の強力な結果を得た
ほとんどのアプローチは、入力の一部をマスキングしてデコーダで再構成することで、シーケンス・ツー・シーケンスアーキテクチャにマスク付き言語モデリング(MLM)を適用する。
マスキングと、実際の(完全な)文に似た入力を生成する代替目的を、文脈に基づいて単語を並べ替えて置き換えることにより比較する。
- 参考スコア(独自算出の注目度): 99.5441395624651
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Unsupervised cross-lingual pretraining has achieved strong results in neural
machine translation (NMT), by drastically reducing the need for large parallel
data. Most approaches adapt masked-language modeling (MLM) to
sequence-to-sequence architectures, by masking parts of the input and
reconstructing them in the decoder. In this work, we systematically compare
masking with alternative objectives that produce inputs resembling real (full)
sentences, by reordering and replacing words based on their context. We
pretrain models with different methods on English$\leftrightarrow$German,
English$\leftrightarrow$Nepali and English$\leftrightarrow$Sinhala monolingual
data, and evaluate them on NMT. In (semi-) supervised NMT, varying the
pretraining objective leads to surprisingly small differences in the finetuned
performance, whereas unsupervised NMT is much more sensitive to it. To
understand these results, we thoroughly study the pretrained models using a
series of probes and verify that they encode and use information in different
ways. We conclude that finetuning on parallel data is mostly sensitive to few
properties that are shared by most models, such as a strong decoder, in
contrast to unsupervised NMT that also requires models with strong
cross-lingual abilities.
- Abstract(参考訳): 教師なしの言語間事前学習は、大きな並列データの必要性を大幅に減らし、ニューラルマシン翻訳(NMT)において大きな成果を上げている。
ほとんどのアプローチは、入力の一部をマスキングしてデコーダで再構成することで、シーケンス・ツー・シーケンスアーキテクチャにマスク付き言語モデリング(MLM)を適用する。
本研究では,マスキングを実文に似た入力を生成する代替目的と体系的に比較し,文脈に基づく単語の並べ替えを行う。
英語$\leftrightarrow$german, english$\leftrightarrow$nepali, english$\leftrightarrow$sinhala単言語データを用いたモデルの事前学習を行い,nmtで評価した。
半教師NMTでは、事前訓練対象の変化は、微調整された性能に驚くほど小さな違いをもたらすが、教師なしNMTはそれに対してはるかに敏感である。
これらの結果を理解するために, 一連のプローブを用いて事前学習したモデルを徹底的に検討し, 異なる方法で情報をエンコードし, 使用することを確認する。
並列データの微調整は、強い言語間能力を持つモデルも必要とする教師なしNMTとは対照的に、強いデコーダなど、ほとんどのモデルで共有される少数の特性に主に敏感である。
関連論文リスト
- Towards Zero-Shot Multimodal Machine Translation [64.9141931372384]
本稿では,マルチモーダル機械翻訳システムの学習において,完全教師付きデータの必要性を回避する手法を提案する。
我々の手法はZeroMMTと呼ばれ、2つの目的の混合で学習することで、強いテキストのみの機械翻訳(MT)モデルを適応させることである。
本手法が完全に教師付きトレーニングデータを持たない言語に一般化されることを証明するため,CoMMuTE評価データセットをアラビア語,ロシア語,中国語の3言語に拡張した。
論文 参考訳(メタデータ) (2024-07-18T15:20:31Z) - Better Datastore, Better Translation: Generating Datastores from
Pre-Trained Models for Nearest Neural Machine Translation [48.58899349349702]
Nearest Neighbor Machine Translation (kNNMT)は、トークンレベルの近接した近接検索機構を備えた、ニューラルネットワーク翻訳(NMT)の簡易かつ効果的な方法である。
本稿では,kNN-MTにおけるデータストアの事前学習モデルを活用するフレームワークであるPreDを提案する。
論文 参考訳(メタデータ) (2022-12-17T08:34:20Z) - Universal Conditional Masked Language Pre-training for Neural Machine
Translation [29.334361879066602]
本稿では,大規模バイリンガルコーパスとモノリンガルコーパスを事前学習した条件付きマスク付き言語モデルCeMATを提案する。
我々は広範囲な実験を行い、CeMATがすべてのシナリオで大幅なパフォーマンス向上を達成できることを示します。
論文 参考訳(メタデータ) (2022-03-17T10:00:33Z) - Unsupervised Paraphrasing with Pretrained Language Models [85.03373221588707]
教師なし環境で,事前学習した言語モデルを用いて高品質なパラフレーズを生成する訓練パイプラインを提案する。
提案手法は,タスク適応,自己スーパービジョン,動的ブロッキング(Dynamic Blocking)という新しい復号アルゴリズムから構成される。
提案手法は,Quora Question PairとParaNMTの両方のデータセット上で,最先端の性能を達成できることを示す。
論文 参考訳(メタデータ) (2020-10-24T11:55:28Z) - Unsupervised Pretraining for Neural Machine Translation Using Elastic
Weight Consolidation [0.0]
本研究は、ニューラルネットワーク翻訳における教師なし事前訓練(NMT)の現在進行中の研究を提示する。
本研究では,モノリンガルデータを用いて学習した2つの言語モデルを用いて,エンコーダとデコーダの重み付けを初期化する。
両方向のNMTエンコーダを左から右への言語モデルで初期化し、元の左から右への言語モデリングタスクを記憶させることで、エンコーダの学習能力が制限されることを示す。
論文 参考訳(メタデータ) (2020-10-19T11:51:45Z) - Pre-training Multilingual Neural Machine Translation by Leveraging
Alignment Information [72.2412707779571]
mRASPは、汎用多言語ニューラルマシン翻訳モデルを事前訓練するためのアプローチである。
我々は,低,中,豊かな資源を含む多種多様な環境における42の翻訳方向の実験を行い,エキゾチックな言語対への変換を行った。
論文 参考訳(メタデータ) (2020-10-07T03:57:54Z) - Cross-lingual Supervision Improves Unsupervised Neural Machine
Translation [97.84871088440102]
我々は,高リソース言語対からゼロリソース翻訳方向への弱教師付き信号を活用するために,多言語非教師付きNMTフレームワークを導入する。
6つのベンチマークの教師なし翻訳方向において,BLEUスコアが3以上あることにより,翻訳品質が大幅に向上する。
論文 参考訳(メタデータ) (2020-04-07T05:46:49Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。