論文の概要: Using Perturbed Length-aware Positional Encoding for Non-autoregressive
Neural Machine Translation
- arxiv url: http://arxiv.org/abs/2107.13689v1
- Date: Thu, 29 Jul 2021 00:51:44 GMT
- ステータス: 処理完了
- システム内更新日: 2021-07-30 22:32:31.812537
- Title: Using Perturbed Length-aware Positional Encoding for Non-autoregressive
Neural Machine Translation
- Title(参考訳): 非自己回帰型ニューラルマシン翻訳のための摂動長認識位置符号化
- Authors: Yui Oka, Katsuhito Sudoh, and Satoshi Nakamura
- Abstract要約: 摂動長認識位置符号化を用いたシーケンスレベルの知識蒸留(SKD)を提案する。
WMT14ドイツ語から英語への翻訳では,バイリンガル評価法(BLEU)において,標準のLevenshtein Transformerを2.5ポイント上回る性能を示した。
- 参考スコア(独自算出の注目度): 32.088160646084525
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Non-autoregressive neural machine translation (NAT) usually employs
sequence-level knowledge distillation using autoregressive neural machine
translation (AT) as its teacher model. However, a NAT model often outputs
shorter sentences than an AT model. In this work, we propose sequence-level
knowledge distillation (SKD) using perturbed length-aware positional encoding
and apply it to a student model, the Levenshtein Transformer. Our method
outperformed a standard Levenshtein Transformer by 2.5 points in bilingual
evaluation understudy (BLEU) at maximum in a WMT14 German to English
translation. The NAT model output longer sentences than the baseline NAT
models.
- Abstract(参考訳): 非自己回帰型ニューラルネットワーク翻訳(NAT)は通常、自己回帰型ニューラルネットワーク翻訳(AT)を教師モデルとして、シーケンスレベルの知識蒸留を用いる。
しかし、NATモデルはATモデルよりも短い文を出力することが多い。
本研究では,摂動長認識位置符号化を用いたシーケンスレベルの知識蒸留(SKD)を提案し,それを学生モデルLevenshtein Transformerに適用する。
WMT14ドイツ語から英語への翻訳において,バイリンガル評価法(BLEU)の標準Levenshtein Transformerを最大2.5ポイント上回る性能を示した。
NATモデルはベースラインNATモデルよりも長い文を出力する。
関連論文リスト
- Revisiting Non-Autoregressive Translation at Scale [76.93869248715664]
スケーリングが非自己回帰翻訳(NAT)行動に与える影響を系統的に研究する。
我々は、NATモデルの一般的な弱さを緩和し、結果として翻訳性能が向上することを示した。
我々は、スケールされたデータセット上でスケールされたNATモデルを検証することで、新しいベンチマークを確立する。
論文 参考訳(メタデータ) (2023-05-25T15:22:47Z) - Optimizing Non-Autoregressive Transformers with Contrastive Learning [74.46714706658517]
非自己回帰変換器(NAT)は、逐次順序ではなく全ての単語を同時に予測することにより、自動回帰変換器(AT)の推論遅延を低減する。
本稿では,データ分布ではなく,モデル分布からのサンプリングによるモダリティ学習の容易化を提案する。
論文 参考訳(メタデータ) (2023-05-23T04:20:13Z) - Rephrasing the Reference for Non-Autoregressive Machine Translation [37.816198073720614]
非自己回帰型ニューラルマシン翻訳(NAT)モデルは、ソース文の複数の可能な翻訳が存在する可能性があるというマルチモーダリティの問題に悩まされる。
我々は、NAT出力に従って参照文をリフレッシュすることで、NATのためのより良いトレーニングターゲットを提供するためのリフレッサーを導入する。
我々の最良の変種は、推論の14.7倍の効率で、自動回帰変換器に匹敵する性能を実現しています。
論文 参考訳(メタデータ) (2022-11-30T10:05:03Z) - One Reference Is Not Enough: Diverse Distillation with Reference
Selection for Non-Autoregressive Translation [13.223158914896727]
非自己回帰型ニューラルネットワーク翻訳(NAT)は多モード問題に悩まされる。
そこで本研究では,NATのためのDDRSを用いた多種多様な蒸留法を提案する。
DDRS は WMT14 En-De 上の1つの復号パスで 29.82 BLEU を達成し、NAT の最先端性能を 1 BLEU 以上向上させた。
論文 参考訳(メタデータ) (2022-05-28T04:59:33Z) - Sequence-Level Training for Non-Autoregressive Neural Machine
Translation [33.17341980163439]
非自己回帰ニューラルネットワーク変換(NAT)は自己回帰機構を取り除き、大幅なデコード高速化を実現する。
本研究では,NATの出力を全体として評価し,実際の翻訳品質とよく相関するNATモデルをトレーニングするためのシーケンスレベルのトレーニング目標を提案する。
論文 参考訳(メタデータ) (2021-06-15T13:30:09Z) - Rejuvenating Low-Frequency Words: Making the Most of Parallel Data in
Non-Autoregressive Translation [98.11249019844281]
知識蒸留(KD)は、非自己回帰翻訳(NAT)モデルを訓練するための合成データを構築するために一般的に用いられる。
低周波対象語に対するアライメントを向上するために,逆KDを提案する。
その結果,提案手法は翻訳品質を大幅に向上させることができることがわかった。
論文 参考訳(メタデータ) (2021-06-02T02:41:40Z) - Understanding and Improving Lexical Choice in Non-Autoregressive
Translation [98.11249019844281]
低周波ワードの有用な情報を復元するために、生データをNATモデルに公開することを提案する。
提案手法は,WMT14英語-ドイツ語とWMT16ルーマニア英語-英語データセットのSOTA NAT性能を27.8BLEU点,33.8BLEU点まで向上させる。
論文 参考訳(メタデータ) (2020-12-29T03:18:50Z) - Multi-Task Learning with Shared Encoder for Non-Autoregressive Machine
Translation [32.77372312124259]
非自己回帰機械翻訳(NAT)モデルでは推論速度が著しく向上しているが、翻訳精度は劣っている。
本稿では,自動回帰機械翻訳の知識をエンコーダの共有を通じてNATモデルに伝達するマルチタスク学習を提案する。
WMT14英語-ドイツ語とWMT16英語-ルーマニアのデータセットの実験結果は、提案されたマルチタスクNATがベースラインNATモデルよりも大幅に改善されていることを示している。
論文 参考訳(メタデータ) (2020-10-24T11:00:58Z) - Glancing Transformer for Non-Autoregressive Neural Machine Translation [58.87258329683682]
単一パス並列生成モデルにおける単語相互依存の学習法を提案する。
単一パスの並列デコードだけで、GLATは8~15倍のスピードアップで高品質な翻訳を生成することができる。
論文 参考訳(メタデータ) (2020-08-18T13:04:03Z) - Task-Level Curriculum Learning for Non-Autoregressive Neural Machine
Translation [188.3605563567253]
非自己回帰翻訳(NAT)は高速な推論速度を実現するが、自己回帰翻訳(AT)と比較して精度が悪くなる
本稿では、中間タスクとして半自己回帰翻訳(SAT)を導入し、ATとNATを特殊なケースとして扱う。
我々は、k を 1 から N に段階的にシフトさせるカリキュラムスケジュールを設計する。
IWSLT14 De-En, IWSLT16 En-De, WMT14 En-De, De-Enデータセットの実験により、TCL-NATは以前のNATベースラインよりも大幅に精度が向上したことが示された。
論文 参考訳(メタデータ) (2020-07-17T06:06:54Z) - Universal Vector Neural Machine Translation With Effective Attention [0.0]
本稿では,エンコーダ-デコーダモデルに基づくニューラルネットワーク翻訳の特異モデルを提案する。
我々は、複数の言語を予測できる中立/ユニバーサルモデル表現を導入する。
論文 参考訳(メタデータ) (2020-06-09T01:13:57Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。