論文の概要: Improving Non-autoregressive Translation Quality with Pretrained
Language Model, Embedding Distillation and Upsampling Strategy for CTC
- arxiv url: http://arxiv.org/abs/2306.06345v1
- Date: Sat, 10 Jun 2023 05:24:29 GMT
- ステータス: 処理完了
- システム内更新日: 2023-06-13 19:35:12.782075
- Title: Improving Non-autoregressive Translation Quality with Pretrained
Language Model, Embedding Distillation and Upsampling Strategy for CTC
- Title(参考訳): 事前訓練言語モデルによる非自己回帰翻訳品質の向上, 蒸留とCTCのアップサンプリング戦略
- Authors: Shen-sian Syu, Juncheng Xie, Hung-yi Lee
- Abstract要約: 本稿では,非自己回帰翻訳(NAT)モデルの翻訳品質を向上させるための一連の革新的な技術を紹介する。
我々は,NATモデルを効果的に訓練するために,CTCの損失を抑えたPMLM(Pretrained Multilingual Language Models)を提案する。
自動回帰モデルと比較して16.35倍の速度向上を示した。
- 参考スコア(独自算出の注目度): 62.60723685118747
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Non-autoregressive approaches aim to improve the inference speed of
translation models, particularly those that generate output in a one-pass
forward manner. However, these approaches often suffer from a significant drop
in translation quality compared to autoregressive models. This paper introduces
a series of innovative techniques to enhance the translation quality of
Non-Autoregressive Translation (NAT) models while maintaining a substantial
acceleration in inference speed. We propose fine-tuning Pretrained Multilingual
Language Models (PMLMs) with the CTC loss to train NAT models effectively.
Furthermore, we adopt the MASK insertion scheme for up-sampling instead of
token duplication, and we present an embedding distillation method to further
enhance performance. In our experiments, our model outperforms the baseline
autoregressive model (Transformer \textit{base}) on multiple datasets,
including WMT'14 DE$\leftrightarrow$EN, WMT'16 RO$\leftrightarrow$EN, and
IWSLT'14 DE$\leftrightarrow$EN. Notably, our model achieves better performance
than the baseline autoregressive model on the IWSLT'14 En$\leftrightarrow$De
and WMT'16 En$\leftrightarrow$Ro datasets, even without using distillation data
during training. It is worth highlighting that on the IWSLT'14
DE$\rightarrow$EN dataset, our model achieves an impressive BLEU score of
39.59, setting a new state-of-the-art performance. Additionally, our model
exhibits a remarkable speed improvement of 16.35 times compared to the
autoregressive model.
- Abstract(参考訳): 非自己回帰的アプローチは、翻訳モデルの推論速度、特に1パスフォワードで出力を生成するものを改善することを目的としている。
しかし、これらのアプローチは、しばしば自己回帰モデルと比較して翻訳品質が大幅に低下する。
本稿では,非自己回帰翻訳(NAT)モデルの翻訳品質を向上させるために,推論速度の大幅な高速化を維持しつつ,一連の革新的な技術を紹介する。
我々は,NATモデルを効果的に訓練するために,CTCの損失を抑えたPMLM(Pretrained Multilingual Language Models)を提案する。
さらに,トークン複製の代わりにMASK挿入方式を採用し,さらなる性能向上を目的とした埋込み蒸留法を提案する。
我々の実験では、WMT'14 DE$\leftrightarrow$EN、WMT'16 RO$\leftrightarrow$EN、IWSLT'14 DE$\leftrightarrow$ENなど、複数のデータセット上でのベースライン自己回帰モデル(Transformer \textit{base})よりも優れています。
特に、トレーニング中に蒸留データを使用しなくても、IWSLT'14 En$\leftrightarrow$DeおよびWMT'16 En$\leftrightarrow$Roデータセットのベースライン自己回帰モデルよりも優れたパフォーマンスを実現する。
iwslt'14 de$\rightarrow$enデータセットでは、このモデルは39.59という印象的なbleuスコアを達成し、新たな最先端のパフォーマンスを実現しています。
さらに,本モデルは自己回帰モデルと比較して16.35倍の速度向上を示した。
関連論文リスト
- Contrastive Preference Optimization: Pushing the Boundaries of LLM Performance in Machine Translation [50.00235162432848]
我々は22Kパラレル文と12Mパラメータしか持たないALMAモデルを訓練する。
ALMA-Rと呼ばれる結果のモデルは、WMTコンテストの勝者とGPT-4のパフォーマンスと一致または上回ることができる。
論文 参考訳(メタデータ) (2024-01-16T15:04:51Z) - Candidate Soups: Fusing Candidate Results Improves Translation Quality
for Non-Autoregressive Translation [15.332496335303189]
非自己回帰翻訳(NAT)モデルは、自己回帰翻訳(AT)モデルよりもはるかに高速な推論速度を達成する。
既存のNATメソッドはNATモデルの性能改善にのみフォーカスするが、完全には利用しない。
そこで我々は,高品質な翻訳を実現するための,シンプルだが効果的な手法"Candidate Soups"を提案する。
論文 参考訳(メタデータ) (2023-01-27T02:39:42Z) - Self-Distillation Mixup Training for Non-autoregressive Neural Machine
Translation [13.527174969073073]
非自己回帰(NAT)モデルは出力を並列に予測し、自己回帰(AT)モデルと比較して生成速度を大幅に改善する。
生データに悪影響を与える一方で、ほとんどのNATモデルは、AT教師モデルによって生成された蒸留データに基づいて学生モデルとして訓練されている。
実データ上でモデルを事前学習し、事前学習したモデル自体による蒸留データを生成し、最終的に生データと蒸留データの組み合わせに基づいてモデルを再学習する自己蒸留混合訓練(SDM)が有効な訓練戦略である。
論文 参考訳(メタデータ) (2021-12-22T03:06:27Z) - Improving Non-autoregressive Generation with Mixup Training [51.61038444990301]
本稿では,事前学習したトランスモデルに基づく非自己回帰生成モデルを提案する。
我々はMIxソースと擬似ターゲットという,シンプルで効果的な反復訓練手法を提案する。
質問生成,要約,パラフレーズ生成を含む3つの世代ベンチマーク実験により,提案手法が新たな最先端結果を実現することを示す。
論文 参考訳(メタデータ) (2021-10-21T13:04:21Z) - The USYD-JD Speech Translation System for IWSLT 2021 [85.64797317290349]
本稿では,シドニー大学とJDが共同でIWSLT 2021低リソース音声翻訳タスクを提出したことを述べる。
私たちは、公式に提供されたASRとMTデータセットでモデルをトレーニングしました。
翻訳性能の向上を目的として, バック翻訳, 知識蒸留, 多機能再構成, トランスダクティブファインタニングなど, 最新の効果的な手法について検討した。
論文 参考訳(メタデータ) (2021-07-24T09:53:34Z) - Understanding and Improving Lexical Choice in Non-Autoregressive
Translation [98.11249019844281]
低周波ワードの有用な情報を復元するために、生データをNATモデルに公開することを提案する。
提案手法は,WMT14英語-ドイツ語とWMT16ルーマニア英語-英語データセットのSOTA NAT性能を27.8BLEU点,33.8BLEU点まで向上させる。
論文 参考訳(メタデータ) (2020-12-29T03:18:50Z) - Pronoun-Targeted Fine-tuning for NMT with Hybrid Losses [6.596002578395152]
我々は,訓練された機械翻訳モデルの微調整に使用する条件付き生成-識別ハイブリッド損失のクラスを導入する。
我々は、追加データを用いることなく、文レベルと文脈モデルの両方のモデル性能を改善する。
文レベルモデルではWMT14とIWSLT13の両テストセットで0.5BLEUの改善が見られた。
我々の文脈モデルは WMT14 De-En テストセットにおいて 31.81 から 32 BLEU に改善され、IWSLT13 De-En では 32.10 から 33.13 に改善された。
論文 参考訳(メタデータ) (2020-10-15T10:11:40Z) - LAVA NAT: A Non-Autoregressive Translation Model with Look-Around
Decoding and Vocabulary Attention [54.18121922040521]
非自己回帰翻訳(NAT)モデルは、1つの前方通過で複数のトークンを生成する。
これらのNATモデルは、しばしば多重性の問題に悩まされ、重複トークンや欠落トークンを生成する。
本稿では,この問題を解決するための新しい方法として,Look-Around(LA)戦略とVocabulary Attention(VA)メカニズムを提案する。
論文 参考訳(メタデータ) (2020-02-08T04:11:03Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。