論文の概要: Improving Non-autoregressive Translation Quality with Pretrained Language Model, Embedding Distillation and Upsampling Strategy for CTC
- arxiv url: http://arxiv.org/abs/2306.06345v3
- Date: Mon, 14 Oct 2024 05:50:13 GMT
- ステータス: 翻訳完了
- システム内更新日: 2024-10-15 15:03:20.685787
- Title: Improving Non-autoregressive Translation Quality with Pretrained Language Model, Embedding Distillation and Upsampling Strategy for CTC
- Title(参考訳): 事前学習型言語モデルによる非自己回帰翻訳品質の向上, 蒸留とCTCのアップサンプリング戦略
- Authors: Shen-sian Syu, Juncheng Xie, Hung-yi Lee,
- Abstract要約: 本稿では,非自己回帰翻訳(NAT)モデルの翻訳品質を向上させるための一連の革新的な技術を紹介する。
我々は,NATモデルを効果的に訓練するために,CTCの損失を抑えたPMLM(Pretrained Multilingual Language Models)を提案する。
自動回帰モデルと比較して16.35倍の速度向上を示した。
- 参考スコア(独自算出の注目度): 51.34222224728979
- License:
- Abstract: Non-autoregressive approaches aim to improve the inference speed of translation models, particularly those that generate output in a one-pass forward manner. However, these approaches often suffer from a significant drop in translation quality compared to autoregressive models. This paper introduces a series of innovative techniques to enhance the translation quality of Non-Autoregressive Translation (NAT) models while maintaining a substantial acceleration in inference speed. We propose fine-tuning Pretrained Multilingual Language Models (PMLMs) with the CTC loss to train NAT models effectively. Furthermore, we adopt the MASK insertion scheme for up-sampling instead of token duplication, and we present an embedding distillation method to further enhance performance. In our experiments, our model outperforms the baseline autoregressive model (Transformer \textit{base}) on multiple datasets, including WMT'14 DE$\leftrightarrow$EN, WMT'16 RO$\leftrightarrow$EN, and IWSLT'14 DE$\leftrightarrow$EN. Notably, our model achieves better performance than the baseline autoregressive model on the IWSLT'14 En$\leftrightarrow$De and WMT'16 En$\leftrightarrow$Ro datasets, even without using distillation data during training. It is worth highlighting that on the IWSLT'14 DE$\rightarrow$EN dataset, our model achieves an impressive BLEU score of 39.59, setting a new state-of-the-art performance. Additionally, our model exhibits a remarkable speed improvement of 16.35 times compared to the autoregressive model.
- Abstract(参考訳): 非自己回帰的アプローチは、翻訳モデルの推論速度、特に1パスフォワードで出力を生成するものを改善することを目的としている。
しかしながら、これらのアプローチは自動回帰モデルと比較して翻訳品質の大幅な低下に悩まされることが多い。
本稿では,非自己回帰翻訳(NAT)モデルの翻訳品質を向上させるために,推論速度の大幅な高速化を維持しつつ,一連の革新的な技術を紹介する。
我々は,NATモデルを効果的に訓練するために,CTCの損失を抑えたPMLM(Pretrained Multilingual Language Models)を提案する。
さらに,トークン複製の代わりにMASK挿入方式を採用し,さらなる性能向上を目的とした埋込み蒸留法を提案する。
実験では、WMT'14 DE$\leftrightarrow$EN, WMT'16 RO$\leftrightarrow$EN, IWSLT'14 DE$\leftrightarrow$ENを含む複数のデータセット上で、ベースライン自己回帰モデル(Transformer \textit{base})より優れています。
特に、トレーニング中に蒸留データを使用しなくても、IWSLT'14 En$\leftrightarrow$DeおよびWMT'16 En$\leftrightarrow$Roデータセットのベースライン自己回帰モデルよりも優れたパフォーマンスを実現する。
注目すべきなのは、IWSLT'14 DE$\rightarrow$ENデータセットでは、BLEUスコアが39.59で、最先端のパフォーマンスが新たに設定されていることです。
さらに,本モデルでは,自己回帰モデルに比べて16.35倍の速度向上が見られた。
関連論文リスト
- Contrastive Preference Optimization: Pushing the Boundaries of LLM Performance in Machine Translation [50.00235162432848]
我々は22Kパラレル文と12Mパラメータしか持たないALMAモデルを訓練する。
ALMA-Rと呼ばれる結果のモデルは、WMTコンテストの勝者とGPT-4のパフォーマンスと一致または上回ることができる。
論文 参考訳(メタデータ) (2024-01-16T15:04:51Z) - Candidate Soups: Fusing Candidate Results Improves Translation Quality
for Non-Autoregressive Translation [15.332496335303189]
非自己回帰翻訳(NAT)モデルは、自己回帰翻訳(AT)モデルよりもはるかに高速な推論速度を達成する。
既存のNATメソッドはNATモデルの性能改善にのみフォーカスするが、完全には利用しない。
そこで我々は,高品質な翻訳を実現するための,シンプルだが効果的な手法"Candidate Soups"を提案する。
論文 参考訳(メタデータ) (2023-01-27T02:39:42Z) - Self-Distillation Mixup Training for Non-autoregressive Neural Machine
Translation [13.527174969073073]
非自己回帰(NAT)モデルは出力を並列に予測し、自己回帰(AT)モデルと比較して生成速度を大幅に改善する。
生データに悪影響を与える一方で、ほとんどのNATモデルは、AT教師モデルによって生成された蒸留データに基づいて学生モデルとして訓練されている。
実データ上でモデルを事前学習し、事前学習したモデル自体による蒸留データを生成し、最終的に生データと蒸留データの組み合わせに基づいてモデルを再学習する自己蒸留混合訓練(SDM)が有効な訓練戦略である。
論文 参考訳(メタデータ) (2021-12-22T03:06:27Z) - Improving Non-autoregressive Generation with Mixup Training [51.61038444990301]
本稿では,事前学習したトランスモデルに基づく非自己回帰生成モデルを提案する。
我々はMIxソースと擬似ターゲットという,シンプルで効果的な反復訓練手法を提案する。
質問生成,要約,パラフレーズ生成を含む3つの世代ベンチマーク実験により,提案手法が新たな最先端結果を実現することを示す。
論文 参考訳(メタデータ) (2021-10-21T13:04:21Z) - The USYD-JD Speech Translation System for IWSLT 2021 [85.64797317290349]
本稿では,シドニー大学とJDが共同でIWSLT 2021低リソース音声翻訳タスクを提出したことを述べる。
私たちは、公式に提供されたASRとMTデータセットでモデルをトレーニングしました。
翻訳性能の向上を目的として, バック翻訳, 知識蒸留, 多機能再構成, トランスダクティブファインタニングなど, 最新の効果的な手法について検討した。
論文 参考訳(メタデータ) (2021-07-24T09:53:34Z) - Understanding and Improving Lexical Choice in Non-Autoregressive
Translation [98.11249019844281]
低周波ワードの有用な情報を復元するために、生データをNATモデルに公開することを提案する。
提案手法は,WMT14英語-ドイツ語とWMT16ルーマニア英語-英語データセットのSOTA NAT性能を27.8BLEU点,33.8BLEU点まで向上させる。
論文 参考訳(メタデータ) (2020-12-29T03:18:50Z) - Pronoun-Targeted Fine-tuning for NMT with Hybrid Losses [6.596002578395152]
我々は,訓練された機械翻訳モデルの微調整に使用する条件付き生成-識別ハイブリッド損失のクラスを導入する。
我々は、追加データを用いることなく、文レベルと文脈モデルの両方のモデル性能を改善する。
文レベルモデルではWMT14とIWSLT13の両テストセットで0.5BLEUの改善が見られた。
我々の文脈モデルは WMT14 De-En テストセットにおいて 31.81 から 32 BLEU に改善され、IWSLT13 De-En では 32.10 から 33.13 に改善された。
論文 参考訳(メタデータ) (2020-10-15T10:11:40Z) - LAVA NAT: A Non-Autoregressive Translation Model with Look-Around
Decoding and Vocabulary Attention [54.18121922040521]
非自己回帰翻訳(NAT)モデルは、1つの前方通過で複数のトークンを生成する。
これらのNATモデルは、しばしば多重性の問題に悩まされ、重複トークンや欠落トークンを生成する。
本稿では,この問題を解決するための新しい方法として,Look-Around(LA)戦略とVocabulary Attention(VA)メカニズムを提案する。
論文 参考訳(メタデータ) (2020-02-08T04:11:03Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。