論文の概要: Understanding and Improving Sequence-to-Sequence Pretraining for Neural
Machine Translation
- arxiv url: http://arxiv.org/abs/2203.08442v1
- Date: Wed, 16 Mar 2022 07:36:28 GMT
- ステータス: 処理完了
- システム内更新日: 2022-03-17 13:49:48.917545
- Title: Understanding and Improving Sequence-to-Sequence Pretraining for Neural
Machine Translation
- Title(参考訳): ニューラルマシン翻訳のためのシーケンスからシーケンスへの事前学習の理解と改善
- Authors: Wenxuan Wang, Wenxiang Jiao, Yongchang Hao, Xing Wang, Shuming Shi,
Zhaopeng Tu, Michael Lyu
- Abstract要約: 本研究は,Seq2Seqプレトレーニングと従来のエンコーダによるNMTの事前トレーニングとの主な違いである,共同事前学習デコーダの影響について検討する。
我々は、ドメインと目的の相違を緩和するために、ドメイン内の事前訓練と入力適応という、シンプルで効果的な戦略を提案する。
- 参考スコア(独自算出の注目度): 48.50842995206353
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: In this paper, we present a substantial step in better understanding the SOTA
sequence-to-sequence (Seq2Seq) pretraining for neural machine
translation~(NMT). We focus on studying the impact of the jointly pretrained
decoder, which is the main difference between Seq2Seq pretraining and previous
encoder-based pretraining approaches for NMT. By carefully designing
experiments on three language pairs, we find that Seq2Seq pretraining is a
double-edged sword: On one hand, it helps NMT models to produce more diverse
translations and reduce adequacy-related translation errors. On the other hand,
the discrepancies between Seq2Seq pretraining and NMT finetuning limit the
translation quality (i.e., domain discrepancy) and induce the over-estimation
issue (i.e., objective discrepancy). Based on these observations, we further
propose simple and effective strategies, named in-domain pretraining and input
adaptation to remedy the domain and objective discrepancies, respectively.
Experimental results on several language pairs show that our approach can
consistently improve both translation performance and model robustness upon
Seq2Seq pretraining.
- Abstract(参考訳): 本稿では、ニューラルネットワーク翻訳のためのSOTAシーケンス・ツー・シーケンス(Seq2Seq)の事前学習について、より深く理解するための重要なステップを示す。
我々は,Seq2Seqプレトレーニングと従来のエンコーダによるNMTの事前トレーニングアプローチの主な違いである,共同事前学習デコーダの影響について検討する。
3つの言語ペアの実験を慎重に設計することで、Seq2Seq事前訓練は二重刃の剣であることがわかった。
一方、Seq2Seq事前学習とNMT微調整の相違は翻訳品質(すなわち、ドメインの相違)を制限し、過度な推定問題(すなわち、客観的な相違)を引き起こす。
これらの観察に基づいて, ドメインと客観的な差異をそれぞれ解決するために, ドメイン内事前学習と入力適応という, 単純かつ効果的な戦略を提案する。
複数の言語ペアの実験結果から,seq2seqプリトレーニング時の翻訳性能とモデルのロバスト性が一貫して向上することが示された。
関連論文リスト
- On the Pareto Front of Multilingual Neural Machine Translation [123.94355117635293]
我々は、ニューラルネットワーク翻訳(MNMT)におけるサンプリング比によって、与えられた方向の性能がどう変化するかを検討する。
我々は,MNMTにおけるユニークなパフォーマンストレードオフフロントを予測するために,ダブルパワー法を提案する。
本実験では, トレーニング予算の1/5から1/2に過ぎず, 温度探索法や勾配操作法よりも優れた性能が得られた。
論文 参考訳(メタデータ) (2023-04-06T16:49:19Z) - Denoising-based UNMT is more robust to word-order divergence than
MASS-based UNMT [27.85834441076481]
自己教師付き事前学習によるUNMTアプローチが、言語ペア間の単語順序のばらつきに頑健であるかどうかを検討する。
事前学習された2つのモデルと,同じ自己指導型事前学習目標を比較した。
我々は,DAEに基づくUNMTアプローチが翻訳精度においてMASSより一貫して優れていることを観察した。
論文 参考訳(メタデータ) (2023-03-02T12:11:58Z) - Non-Parametric Domain Adaptation for End-to-End Speech Translation [72.37869362559212]
E2E-ST(End-to-End Speech Translation)は、エラー伝播の低減、レイテンシの低減、パラメータの削減などにより注目されている。
本稿では,E2E-STシステムのドメイン適応を実現するために,ドメイン固有のテキスト翻訳コーパスを活用する新しい非パラメトリック手法を提案する。
論文 参考訳(メタデータ) (2022-05-23T11:41:02Z) - DEEP: DEnoising Entity Pre-training for Neural Machine Translation [123.6686940355937]
機械翻訳モデルは通常、トレーニングコーパスで稀な名前付きエンティティの翻訳を貧弱に生成することが示されている。
文中の名前付きエンティティ翻訳精度を向上させるために,大量のモノリンガルデータと知識ベースを利用するDenoising Entity Pre-training法であるDEEPを提案する。
論文 参考訳(メタデータ) (2021-11-14T17:28:09Z) - Modelling Latent Translations for Cross-Lingual Transfer [47.61502999819699]
従来のパイプラインの2つのステップ(翻訳と分類)を1つのモデルに統合する新しい手法を提案する。
我々は,多言語NLUタスクにおける新しい潜時翻訳モデルの評価を行った。
ゼロショットと数ショットの学習設定の両方で、平均2.7の精度ポイントのゲインを報告します。
論文 参考訳(メタデータ) (2021-07-23T17:11:27Z) - Exploring Unsupervised Pretraining Objectives for Machine Translation [99.5441395624651]
教師なし言語間事前訓練は、ニューラルマシン翻訳(NMT)の強力な結果を得た
ほとんどのアプローチは、入力の一部をマスキングしてデコーダで再構成することで、シーケンス・ツー・シーケンスアーキテクチャにマスク付き言語モデリング(MLM)を適用する。
マスキングと、実際の(完全な)文に似た入力を生成する代替目的を、文脈に基づいて単語を並べ替えて置き換えることにより比較する。
論文 参考訳(メタデータ) (2021-06-10T10:18:23Z) - On Losses for Modern Language Models [18.56205816291398]
NSPは文脈分割と浅瀬意味信号による訓練に有害であることを示す。
マルチタスク事前トレーニングフレームワークで複数のタスクを使用すると、単一の補助タスクを使用するよりも優れた結果が得られる。
論文 参考訳(メタデータ) (2020-10-04T21:44:15Z) - Multilingual Denoising Pre-training for Neural Machine Translation [132.66750663226287]
mBART(mBART)は、大規模モノリンガルコーパスで事前訓練されたシーケンスからシーケンスまでの自動エンコーダである。
mBARTは、完全なシーケンス・ツー・シーケンスモデルを事前訓練する最初の方法の1つである。
論文 参考訳(メタデータ) (2020-01-22T18:59:17Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。