論文の概要: Revisiting Non-Autoregressive Translation at Scale
- arxiv url: http://arxiv.org/abs/2305.16155v1
- Date: Thu, 25 May 2023 15:22:47 GMT
- ステータス: 処理完了
- システム内更新日: 2023-05-26 14:19:01.469987
- Title: Revisiting Non-Autoregressive Translation at Scale
- Title(参考訳): 大規模における非自己回帰翻訳の再検討
- Authors: Zhihao Wang, Longyue Wang, Jinsong Su, Junfeng Yao, Zhaopeng Tu
- Abstract要約: スケーリングが非自己回帰翻訳(NAT)行動に与える影響を系統的に研究する。
我々は、NATモデルの一般的な弱さを緩和し、結果として翻訳性能が向上することを示した。
我々は、スケールされたデータセット上でスケールされたNATモデルを検証することで、新しいベンチマークを確立する。
- 参考スコア(独自算出の注目度): 76.93869248715664
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: In real-world systems, scaling has been critical for improving the
translation quality in autoregressive translation (AT), which however has not
been well studied for non-autoregressive translation (NAT). In this work, we
bridge the gap by systematically studying the impact of scaling on NAT
behaviors. Extensive experiments on six WMT benchmarks over two advanced NAT
models show that scaling can alleviate the commonly-cited weaknesses of NAT
models, resulting in better translation performance. To reduce the side-effect
of scaling on decoding speed, we empirically investigate the impact of NAT
encoder and decoder on the translation performance. Experimental results on the
large-scale WMT20 En-De show that the asymmetric architecture (e.g. bigger
encoder and smaller decoder) can achieve comparable performance with the
scaling model, while maintaining the superiority of decoding speed with
standard NAT models. To this end, we establish a new benchmark by validating
scaled NAT models on the scaled dataset, which can be regarded as a strong
baseline for future works. We release code, models and system outputs at
https://github.com/DeepLearnXMU/Scaling4NAT.
- Abstract(参考訳): 実世界のシステムでは、自動回帰翻訳(AT)の翻訳品質を向上させるためにスケーリングが重要であるが、非自己回帰翻訳(NAT)では十分に研究されていない。
本研究では,NATの挙動に及ぼすスケーリングの影響を系統的に研究することによって,ギャップを埋める。
2つの先進的なNATモデルに対する6つのWMTベンチマークの大規模な実験により、スケーリングはNATモデルの一般的に望まれる弱点を緩和し、翻訳性能が向上することが示された。
本研究では,デコード速度に対するスケーリングの副作用を軽減するために,NATエンコーダとデコーダが翻訳性能に与える影響を実証的に検討する。
大規模なWMT20 En-Deの実験結果から、非対称アーキテクチャ(例えばエンコーダの大型化やデコーダの小型化など)はスケーリングモデルと同等の性能を発揮しつつ、標準的なNATモデルとのデコード速度の優位性を維持した。
この目的のために、スケールしたNATモデルをスケールしたデータセット上で検証することで、新しいベンチマークを構築し、将来の作業の強力なベースラインとみなすことができる。
コード、モデル、システム出力はhttps://github.com/DeepLearnXMU/Scaling4NATでリリースします。
関連論文リスト
- RenewNAT: Renewing Potential Translation for Non-Autoregressive
Transformer [15.616188012177538]
非自己回帰型ニューラルネットワーク翻訳(NAT)モデルは、比較的高い性能を維持しつつ、推論プロセスを加速するために提案される。
既存のNATモデルは、望ましい効率品質のトレードオフを達成するのは難しい。
高い効率と効率性を持つフレキシブルなフレームワークであるRenewNATを提案する。
論文 参考訳(メタデータ) (2023-03-14T07:10:03Z) - Rephrasing the Reference for Non-Autoregressive Machine Translation [37.816198073720614]
非自己回帰型ニューラルマシン翻訳(NAT)モデルは、ソース文の複数の可能な翻訳が存在する可能性があるというマルチモーダリティの問題に悩まされる。
我々は、NAT出力に従って参照文をリフレッシュすることで、NATのためのより良いトレーニングターゲットを提供するためのリフレッサーを導入する。
我々の最良の変種は、推論の14.7倍の効率で、自動回帰変換器に匹敵する性能を実現しています。
論文 参考訳(メタデータ) (2022-11-30T10:05:03Z) - Sequence-Level Training for Non-Autoregressive Neural Machine
Translation [33.17341980163439]
非自己回帰ニューラルネットワーク変換(NAT)は自己回帰機構を取り除き、大幅なデコード高速化を実現する。
本研究では,NATの出力を全体として評価し,実際の翻訳品質とよく相関するNATモデルをトレーニングするためのシーケンスレベルのトレーニング目標を提案する。
論文 参考訳(メタデータ) (2021-06-15T13:30:09Z) - Rejuvenating Low-Frequency Words: Making the Most of Parallel Data in
Non-Autoregressive Translation [98.11249019844281]
知識蒸留(KD)は、非自己回帰翻訳(NAT)モデルを訓練するための合成データを構築するために一般的に用いられる。
低周波対象語に対するアライメントを向上するために,逆KDを提案する。
その結果,提案手法は翻訳品質を大幅に向上させることができることがわかった。
論文 参考訳(メタデータ) (2021-06-02T02:41:40Z) - Fully Non-autoregressive Neural Machine Translation: Tricks of the Trade [47.97977478431973]
NAT(Fullly non-autoregressive neural Machine Translation)は、ニューラルネットワークのシングルフォワードでトークンを同時に予測する手法である。
この作業では、レイテンシのアドバンテージを維持しながら、パフォーマンスのギャップを縮めることを目標としています。
論文 参考訳(メタデータ) (2020-12-31T18:52:59Z) - Understanding and Improving Lexical Choice in Non-Autoregressive
Translation [98.11249019844281]
低周波ワードの有用な情報を復元するために、生データをNATモデルに公開することを提案する。
提案手法は,WMT14英語-ドイツ語とWMT16ルーマニア英語-英語データセットのSOTA NAT性能を27.8BLEU点,33.8BLEU点まで向上させる。
論文 参考訳(メタデータ) (2020-12-29T03:18:50Z) - Multi-Task Learning with Shared Encoder for Non-Autoregressive Machine
Translation [32.77372312124259]
非自己回帰機械翻訳(NAT)モデルでは推論速度が著しく向上しているが、翻訳精度は劣っている。
本稿では,自動回帰機械翻訳の知識をエンコーダの共有を通じてNATモデルに伝達するマルチタスク学習を提案する。
WMT14英語-ドイツ語とWMT16英語-ルーマニアのデータセットの実験結果は、提案されたマルチタスクNATがベースラインNATモデルよりも大幅に改善されていることを示している。
論文 参考訳(メタデータ) (2020-10-24T11:00:58Z) - Task-Level Curriculum Learning for Non-Autoregressive Neural Machine
Translation [188.3605563567253]
非自己回帰翻訳(NAT)は高速な推論速度を実現するが、自己回帰翻訳(AT)と比較して精度が悪くなる
本稿では、中間タスクとして半自己回帰翻訳(SAT)を導入し、ATとNATを特殊なケースとして扱う。
我々は、k を 1 から N に段階的にシフトさせるカリキュラムスケジュールを設計する。
IWSLT14 De-En, IWSLT16 En-De, WMT14 En-De, De-Enデータセットの実験により、TCL-NATは以前のNATベースラインよりも大幅に精度が向上したことが示された。
論文 参考訳(メタデータ) (2020-07-17T06:06:54Z) - LAVA NAT: A Non-Autoregressive Translation Model with Look-Around
Decoding and Vocabulary Attention [54.18121922040521]
非自己回帰翻訳(NAT)モデルは、1つの前方通過で複数のトークンを生成する。
これらのNATモデルは、しばしば多重性の問題に悩まされ、重複トークンや欠落トークンを生成する。
本稿では,この問題を解決するための新しい方法として,Look-Around(LA)戦略とVocabulary Attention(VA)メカニズムを提案する。
論文 参考訳(メタデータ) (2020-02-08T04:11:03Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。