論文の概要: Sequence-Level Training for Non-Autoregressive Neural Machine
Translation
- arxiv url: http://arxiv.org/abs/2106.08122v1
- Date: Tue, 15 Jun 2021 13:30:09 GMT
- ステータス: 処理完了
- システム内更新日: 2021-06-16 15:32:47.777016
- Title: Sequence-Level Training for Non-Autoregressive Neural Machine
Translation
- Title(参考訳): 非自己回帰型ニューラルマシン翻訳のためのシーケンスレベルトレーニング
- Authors: Chenze Shao, Yang Feng, Jinchao Zhang, Fandong Meng, Jie Zhou
- Abstract要約: 非自己回帰ニューラルネットワーク変換(NAT)は自己回帰機構を取り除き、大幅なデコード高速化を実現する。
本研究では,NATの出力を全体として評価し,実際の翻訳品質とよく相関するNATモデルをトレーニングするためのシーケンスレベルのトレーニング目標を提案する。
- 参考スコア(独自算出の注目度): 33.17341980163439
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: In recent years, Neural Machine Translation (NMT) has achieved notable
results in various translation tasks. However, the word-by-word generation
manner determined by the autoregressive mechanism leads to high translation
latency of the NMT and restricts its low-latency applications.
Non-Autoregressive Neural Machine Translation (NAT) removes the autoregressive
mechanism and achieves significant decoding speedup through generating target
words independently and simultaneously. Nevertheless, NAT still takes the
word-level cross-entropy loss as the training objective, which is not optimal
because the output of NAT cannot be properly evaluated due to the multimodality
problem. In this paper, we propose using sequence-level training objectives to
train NAT models, which evaluate the NAT outputs as a whole and correlates well
with the real translation quality. Firstly, we propose training NAT models to
optimize sequence-level evaluation metrics (e.g., BLEU) based on several novel
reinforcement algorithms customized for NAT, which outperforms the conventional
method by reducing the variance of gradient estimation. Secondly, we introduce
a novel training objective for NAT models, which aims to minimize the
Bag-of-Ngrams (BoN) difference between the model output and the reference
sentence. The BoN training objective is differentiable and can be calculated
efficiently without doing any approximations. Finally, we apply a three-stage
training strategy to combine these two methods to train the NAT model. We
validate our approach on four translation tasks (WMT14 En$\leftrightarrow$De,
WMT16 En$\leftrightarrow$Ro), which shows that our approach largely outperforms
NAT baselines and achieves remarkable performance on all translation tasks.
- Abstract(参考訳): 近年、ニューラルマシン翻訳(nmt)は様々な翻訳タスクで顕著な結果を得ている。
しかし、自己回帰機構によって決定されるワードバイワード生成法はnmtの翻訳レイテンシを高くし、低レイテンシのアプリケーションを制限する。
non-autoregressive neural machine translation (nat) は自己回帰機構を取り除き、ターゲット単語を独立かつ同時に生成することで、大幅な復号速度向上を実現する。
それでも、NATは単語レベルのクロスエントロピー損失をトレーニング目標としており、マルチモーダリティの問題によりNATの出力が適切に評価できないため、最適ではない。
本稿では,NATの出力を全体として評価し,実際の翻訳品質とよく相関するNATモデルをトレーニングするためのシーケンスレベルのトレーニング目標を提案する。
まず,nat用にカスタマイズされた新しい強化アルゴリズムに基づいて,シーケンスレベルの評価指標(例えばbleu)を最適化するためのnatモデルのトレーニングを提案する。
次に,モデル出力と参照文のバガオブngram(bon)差を最小限に抑えることを目的とした,natモデルの新たな学習目標を提案する。
BoNトレーニングの目標は微分可能であり、近似をせずに効率的に計算することができる。
最後に,これら2つの手法を組み合わせてnatモデルを訓練するために,3段階のトレーニング戦略を適用する。
我々は,4つの翻訳タスク(WMT14 En$\leftrightarrow$De,WMT16 En$\leftrightarrow$Ro)に対するアプローチを検証する。
関連論文リスト
- Revisiting Non-Autoregressive Translation at Scale [76.93869248715664]
スケーリングが非自己回帰翻訳(NAT)行動に与える影響を系統的に研究する。
我々は、NATモデルの一般的な弱さを緩和し、結果として翻訳性能が向上することを示した。
我々は、スケールされたデータセット上でスケールされたNATモデルを検証することで、新しいベンチマークを確立する。
論文 参考訳(メタデータ) (2023-05-25T15:22:47Z) - Optimizing Non-Autoregressive Transformers with Contrastive Learning [74.46714706658517]
非自己回帰変換器(NAT)は、逐次順序ではなく全ての単語を同時に予測することにより、自動回帰変換器(AT)の推論遅延を低減する。
本稿では,データ分布ではなく,モデル分布からのサンプリングによるモダリティ学習の容易化を提案する。
論文 参考訳(メタデータ) (2023-05-23T04:20:13Z) - Selective Knowledge Distillation for Non-Autoregressive Neural Machine
Translation [34.22251326493591]
非自己回帰変換器(Non-Autoregressive Transformer、NAT)は、ニューラルマシン翻訳タスクにおいて大きな成功を収めている。
既存の知識蒸留は、教師からNAT学生への誤りの伝播などの副作用がある。
高品質で学習が容易なNATフレンドリーなターゲットの選択にNATを導入することで、選択的知識蒸留を導入する。
論文 参考訳(メタデータ) (2023-03-31T09:16:13Z) - Rephrasing the Reference for Non-Autoregressive Machine Translation [37.816198073720614]
非自己回帰型ニューラルマシン翻訳(NAT)モデルは、ソース文の複数の可能な翻訳が存在する可能性があるというマルチモーダリティの問題に悩まされる。
我々は、NAT出力に従って参照文をリフレッシュすることで、NATのためのより良いトレーニングターゲットを提供するためのリフレッサーを導入する。
我々の最良の変種は、推論の14.7倍の効率で、自動回帰変換器に匹敵する性能を実現しています。
論文 参考訳(メタデータ) (2022-11-30T10:05:03Z) - Rejuvenating Low-Frequency Words: Making the Most of Parallel Data in
Non-Autoregressive Translation [98.11249019844281]
知識蒸留(KD)は、非自己回帰翻訳(NAT)モデルを訓練するための合成データを構築するために一般的に用いられる。
低周波対象語に対するアライメントを向上するために,逆KDを提案する。
その結果,提案手法は翻訳品質を大幅に向上させることができることがわかった。
論文 参考訳(メタデータ) (2021-06-02T02:41:40Z) - Fully Non-autoregressive Neural Machine Translation: Tricks of the Trade [47.97977478431973]
NAT(Fullly non-autoregressive neural Machine Translation)は、ニューラルネットワークのシングルフォワードでトークンを同時に予測する手法である。
この作業では、レイテンシのアドバンテージを維持しながら、パフォーマンスのギャップを縮めることを目標としています。
論文 参考訳(メタデータ) (2020-12-31T18:52:59Z) - Understanding and Improving Lexical Choice in Non-Autoregressive
Translation [98.11249019844281]
低周波ワードの有用な情報を復元するために、生データをNATモデルに公開することを提案する。
提案手法は,WMT14英語-ドイツ語とWMT16ルーマニア英語-英語データセットのSOTA NAT性能を27.8BLEU点,33.8BLEU点まで向上させる。
論文 参考訳(メタデータ) (2020-12-29T03:18:50Z) - Task-Level Curriculum Learning for Non-Autoregressive Neural Machine
Translation [188.3605563567253]
非自己回帰翻訳(NAT)は高速な推論速度を実現するが、自己回帰翻訳(AT)と比較して精度が悪くなる
本稿では、中間タスクとして半自己回帰翻訳(SAT)を導入し、ATとNATを特殊なケースとして扱う。
我々は、k を 1 から N に段階的にシフトさせるカリキュラムスケジュールを設計する。
IWSLT14 De-En, IWSLT16 En-De, WMT14 En-De, De-Enデータセットの実験により、TCL-NATは以前のNATベースラインよりも大幅に精度が向上したことが示された。
論文 参考訳(メタデータ) (2020-07-17T06:06:54Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。