論文の概要: Understanding and Improving Lexical Choice in Non-Autoregressive
Translation
- arxiv url: http://arxiv.org/abs/2012.14583v2
- Date: Wed, 27 Jan 2021 07:22:16 GMT
- ステータス: 処理完了
- システム内更新日: 2021-04-18 20:40:19.178810
- Title: Understanding and Improving Lexical Choice in Non-Autoregressive
Translation
- Title(参考訳): 非自己回帰翻訳における語彙選択の理解と改善
- Authors: Liang Ding, Longyue Wang, Xuebo Liu, Derek F. Wong, Dacheng Tao,
Zhaopeng Tu
- Abstract要約: 低周波ワードの有用な情報を復元するために、生データをNATモデルに公開することを提案する。
提案手法は,WMT14英語-ドイツ語とWMT16ルーマニア英語-英語データセットのSOTA NAT性能を27.8BLEU点,33.8BLEU点まで向上させる。
- 参考スコア(独自算出の注目度): 98.11249019844281
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Knowledge distillation (KD) is essential for training non-autoregressive
translation (NAT) models by reducing the complexity of the raw data with an
autoregressive teacher model. In this study, we empirically show that as a side
effect of this training, the lexical choice errors on low-frequency words are
propagated to the NAT model from the teacher model. To alleviate this problem,
we propose to expose the raw data to NAT models to restore the useful
information of low-frequency words, which are missed in the distilled data. To
this end, we introduce an extra Kullback-Leibler divergence term derived by
comparing the lexical choice of NAT model and that embedded in the raw data.
Experimental results across language pairs and model architectures demonstrate
the effectiveness and universality of the proposed approach. Extensive analyses
confirm our claim that our approach improves performance by reducing the
lexical choice errors on low-frequency words. Encouragingly, our approach
pushes the SOTA NAT performance on the WMT14 English-German and WMT16
Romanian-English datasets up to 27.8 and 33.8 BLEU points, respectively. The
source code will be released.
- Abstract(参考訳): 知識蒸留(KD)は,自己回帰型教師モデルを用いて生データの複雑さを低減し,非自己回帰型翻訳(NAT)モデルの訓練に不可欠である。
本研究では,この学習の副作用として,低頻度単語に対する語彙選択誤りが教師モデルからNATモデルに伝播されることを実証的に示す。
この問題を解決するために,natモデルに生データを公開し,蒸留データに欠落している低周波単語の有用な情報を復元することを提案する。
そこで本研究では,NATモデルの語彙選択と生データに埋め込まれたデータを比較することで,Kulback-Leibler分散項を導入する。
言語ペアとモデルアーキテクチャにまたがる実験結果は,提案手法の有効性と普遍性を示している。
低周波単語の語彙選択誤差を低減し,本手法が性能の向上に寄与することを示す。
我々の手法は、WMT14英語とWMT16ルーマニア英語のデータセットをそれぞれ27.8 BLEU点と33.8 BLEU点に向上させる。
ソースコードはリリースされます。
関連論文リスト
- DiffNorm: Self-Supervised Normalization for Non-autoregressive Speech-to-speech Translation [29.76274107159478]
非自己回帰変換器(NAT)は音声から音声への直接変換システムに適用される。
拡散に基づく正規化戦略であるDiffNormを導入し、NATモデルをトレーニングするためのデータ分散を簡単にする。
CVSSベンチマークでは,英語・スペイン語(En-Es)では+7ASR-BLEU,英語・フランス語(En-Fr)では+2ASR-BLEUが顕著に改善した。
論文 参考訳(メタデータ) (2024-05-22T01:10:39Z) - Improving Non-autoregressive Translation Quality with Pretrained Language Model, Embedding Distillation and Upsampling Strategy for CTC [51.34222224728979]
本稿では,非自己回帰翻訳(NAT)モデルの翻訳品質を向上させるための一連の革新的な技術を紹介する。
我々は,NATモデルを効果的に訓練するために,CTCの損失を抑えたPMLM(Pretrained Multilingual Language Models)を提案する。
自動回帰モデルと比較して16.35倍の速度向上を示した。
論文 参考訳(メタデータ) (2023-06-10T05:24:29Z) - Tailoring Language Generation Models under Total Variation Distance [55.89964205594829]
ニューラルネットワーク生成の標準パラダイムは、最適化方法として最大推定(MLE)を採用する。
言語生成に適用するための実践的境界を開発する。
本稿では,TVD推定のトレードオフのバランスをとるためのTaiLr の目標について紹介する。
論文 参考訳(メタデータ) (2023-02-26T16:32:52Z) - Self-Distillation Mixup Training for Non-autoregressive Neural Machine
Translation [13.527174969073073]
非自己回帰(NAT)モデルは出力を並列に予測し、自己回帰(AT)モデルと比較して生成速度を大幅に改善する。
生データに悪影響を与える一方で、ほとんどのNATモデルは、AT教師モデルによって生成された蒸留データに基づいて学生モデルとして訓練されている。
実データ上でモデルを事前学習し、事前学習したモデル自体による蒸留データを生成し、最終的に生データと蒸留データの組み合わせに基づいてモデルを再学習する自己蒸留混合訓練(SDM)が有効な訓練戦略である。
論文 参考訳(メタデータ) (2021-12-22T03:06:27Z) - NoiER: An Approach for Training more Reliable Fine-TunedDownstream Task
Models [54.184609286094044]
補助モデルと付加データなしで問題を解くための学習パラダイムとして,ノイズエントロピー正規化(NoiER)を提案する。
提案手法は,従来の微調整モデルと比較して平均55%改善した。
論文 参考訳(メタデータ) (2021-08-29T06:58:28Z) - Progressive Multi-Granularity Training for Non-Autoregressive
Translation [98.11249019844281]
非自己回帰翻訳(NAT)は、ターゲットシーケンス全体を予測することで推論プロセスを著しく加速する。
近年の研究では、NATは1対多翻訳のような高度な知識の学習に弱いことが示されている。
モードは様々な粒度に分けることができ、そこから容易に学習できると我々は主張する。
論文 参考訳(メタデータ) (2021-06-10T07:16:07Z) - Rejuvenating Low-Frequency Words: Making the Most of Parallel Data in
Non-Autoregressive Translation [98.11249019844281]
知識蒸留(KD)は、非自己回帰翻訳(NAT)モデルを訓練するための合成データを構築するために一般的に用いられる。
低周波対象語に対するアライメントを向上するために,逆KDを提案する。
その結果,提案手法は翻訳品質を大幅に向上させることができることがわかった。
論文 参考訳(メタデータ) (2021-06-02T02:41:40Z) - Modeling Coverage for Non-Autoregressive Neural Machine Translation [9.173385214565451]
本稿では,トークンレベルのカバレッジ反復改良機構と文レベルのカバレッジ契約により,カバレッジ情報を直接モデル化するための新しいカバレッジNATを提案する。
WMT14 En-De および WMT16 En-Ro 翻訳タスクの実験結果から,本手法はこれらの誤りを軽減し,ベースラインシステムに対して強い改善が達成できることが示された。
論文 参考訳(メタデータ) (2021-04-24T07:33:23Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。