論文の概要: Self-Distillation Mixup Training for Non-autoregressive Neural Machine
Translation
- arxiv url: http://arxiv.org/abs/2112.11640v1
- Date: Wed, 22 Dec 2021 03:06:27 GMT
- ステータス: 処理完了
- システム内更新日: 2021-12-23 20:54:23.851167
- Title: Self-Distillation Mixup Training for Non-autoregressive Neural Machine
Translation
- Title(参考訳): 非自己回帰型ニューラルマシン翻訳のための自己蒸留混合訓練
- Authors: Jiaxin Guo, Minghan Wang, Daimeng Wei, Hengchao Shang, Yuxia Wang,
Zongyao Li, Zhengzhe Yu, Zhanglin Wu, Yimeng Chen, Chang Su, Min Zhang, Lizhi
Lei, shimin tao and Hao Yang
- Abstract要約: 非自己回帰(NAT)モデルは出力を並列に予測し、自己回帰(AT)モデルと比較して生成速度を大幅に改善する。
生データに悪影響を与える一方で、ほとんどのNATモデルは、AT教師モデルによって生成された蒸留データに基づいて学生モデルとして訓練されている。
実データ上でモデルを事前学習し、事前学習したモデル自体による蒸留データを生成し、最終的に生データと蒸留データの組み合わせに基づいてモデルを再学習する自己蒸留混合訓練(SDM)が有効な訓練戦略である。
- 参考スコア(独自算出の注目度): 13.527174969073073
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Recently, non-autoregressive (NAT) models predict outputs in parallel,
achieving substantial improvements in generation speed compared to
autoregressive (AT) models. While performing worse on raw data, most NAT models
are trained as student models on distilled data generated by AT teacher models,
which is known as sequence-level Knowledge Distillation. An effective training
strategy to improve the performance of AT models is Self-Distillation Mixup
(SDM) Training, which pre-trains a model on raw data, generates distilled data
by the pre-trained model itself and finally re-trains a model on the
combination of raw data and distilled data. In this work, we aim to view SDM
for NAT models, but find directly adopting SDM to NAT models gains no
improvements in terms of translation quality. Through careful analysis, we
observe the invalidation is correlated to Modeling Diversity and Confirmation
Bias between the AT teacher model and the NAT student models. Based on these
findings, we propose an enhanced strategy named SDMRT by adding two stages to
classic SDM: one is Pre-Rerank on self-distilled data, the other is Fine-Tune
on Filtered teacher-distilled data. Our results outperform baselines by 0.6 to
1.2 BLEU on multiple NAT models. As another bonus, for Iterative Refinement NAT
models, our methods can outperform baselines within half iteration number,
which means 2X acceleration.
- Abstract(参考訳): 近年、非自己回帰(NAT)モデルは出力を並列に予測し、自己回帰(AT)モデルと比較して生成速度を大幅に改善している。
生データでより悪い処理を行う一方で、ほとんどのnatモデルは、シーケンスレベルの知識蒸留として知られるat教師モデルによって生成された蒸留データの生徒モデルとして訓練される。
ATモデルの性能を向上させるための効果的なトレーニング戦略は、生データ上でモデルを事前訓練し、事前訓練されたモデル自身で蒸留データを生成し、最終的に生データと蒸留データの組み合わせに基づいてモデルを再訓練する自己蒸留混合訓練(SDM)である。
本研究では,NATモデルにSDMを直接適用することを目的としているが,翻訳品質の面では改善されていない。
注意深い分析により、AT教師モデルとNAT学生モデルの間のモデリング多様性と確認バイアスの相関が観察される。
これらの知見に基づいて,従来のSDMに2つの段階を追加することで,SDMRTと呼ばれる拡張戦略を提案し,その1つは自己蒸留データに対する事前参照であり,もう1つはフィルタ教師蒸留データに対するファインチューンである。
結果は複数のnatモデルで0.6から1.2 bleuのベースラインを上回った。
別のボーナスとして、反復リファインメントNATモデルでは、本手法は半繰り返し数でベースラインを上回り、つまり2倍の加速を達成できる。
関連論文リスト
- When to Trust Your Data: Enhancing Dyna-Style Model-Based Reinforcement Learning With Data Filter [7.886307329450978]
ダイナスタイルのアルゴリズムは、推定環境モデルからのシミュレーションデータを用いてモデルフリートレーニングを加速することにより、2つのアプローチを組み合わせる。
これまでの作業では、モデルアンサンブルを使用したり、実際の環境から収集されたデータで推定されたモデルを事前訓練することで、この問題に対処している。
本研究では,実環境において収集したデータから大きく分岐する推定モデルからシミュレーションデータを除去するアウト・オブ・ディストリビューションデータフィルタを提案する。
論文 参考訳(メタデータ) (2024-10-16T01:49:03Z) - Improved Techniques for Training Consistency Models [13.475711217989975]
本稿では, 蒸留なしでデータから直接一貫性モデルを学習する, 整合性トレーニングのための改良手法を提案する。
整合性学習目的のための対数正規雑音スケジュールを提案し、トレーニングの繰り返し回数毎に全離散化ステップを2倍にすることを提案する。
これらの修正により、一貫性モデルは1回のサンプリングステップでCIFAR-10で2.51と3.25のFIDスコア、ImageNetで64ドルをそれぞれ達成できる。
論文 参考訳(メタデータ) (2023-10-22T05:33:38Z) - Improving Non-autoregressive Translation Quality with Pretrained Language Model, Embedding Distillation and Upsampling Strategy for CTC [51.34222224728979]
本稿では,非自己回帰翻訳(NAT)モデルの翻訳品質を向上させるための一連の革新的な技術を紹介する。
我々は,NATモデルを効果的に訓練するために,CTCの損失を抑えたPMLM(Pretrained Multilingual Language Models)を提案する。
自動回帰モデルと比較して16.35倍の速度向上を示した。
論文 参考訳(メタデータ) (2023-06-10T05:24:29Z) - Dataless Knowledge Fusion by Merging Weights of Language Models [51.8162883997512]
微調整された事前学習言語モデルは、下流のNLPモデルを構築するための主要なパラダイムとなっている。
これは、より優れた単一モデルを生み出すために、個々のモデル間で知識を融合させる障壁を生み出します。
パラメータ空間のモデルをマージするデータレス知識融合法を提案する。
論文 参考訳(メタデータ) (2022-12-19T20:46:43Z) - SRoUDA: Meta Self-training for Robust Unsupervised Domain Adaptation [25.939292305808934]
教師なしドメイン適応(UDA)は、リッチラベルデータセットから学習した知識をラベルなしターゲットデータセットに転送することができる。
本稿では,UDAモデルの対角的ロバスト性を改善するために,SRoUDAというメタ自己学習パイプラインを提案する。
論文 参考訳(メタデータ) (2022-12-12T14:25:40Z) - Improving Non-autoregressive Generation with Mixup Training [51.61038444990301]
本稿では,事前学習したトランスモデルに基づく非自己回帰生成モデルを提案する。
我々はMIxソースと擬似ターゲットという,シンプルで効果的な反復訓練手法を提案する。
質問生成,要約,パラフレーズ生成を含む3つの世代ベンチマーク実験により,提案手法が新たな最先端結果を実現することを示す。
論文 参考訳(メタデータ) (2021-10-21T13:04:21Z) - TSNAT: Two-Step Non-Autoregressvie Transformer Models for Speech
Recognition [69.68154370877615]
非自己回帰(NAR)モデルは、出力トークン間の時間的依存関係を排除し、少なくとも1ステップで出力トークン全体を予測することができる。
この2つの問題に対処するため,TSNATと呼ばれる新しいモデルを提案する。
以上の結果から,TSNATはARモデルと競合する性能を示し,複雑なNARモデルよりも優れていた。
論文 参考訳(メタデータ) (2021-04-04T02:34:55Z) - Understanding and Improving Lexical Choice in Non-Autoregressive
Translation [98.11249019844281]
低周波ワードの有用な情報を復元するために、生データをNATモデルに公開することを提案する。
提案手法は,WMT14英語-ドイツ語とWMT16ルーマニア英語-英語データセットのSOTA NAT性能を27.8BLEU点,33.8BLEU点まで向上させる。
論文 参考訳(メタデータ) (2020-12-29T03:18:50Z) - Data from Model: Extracting Data from Non-robust and Robust Models [83.60161052867534]
この研究は、データとモデルの関係を明らかにするために、モデルからデータを生成する逆プロセスについて検討する。
本稿では,データ・トゥ・モデル(DtM)とデータ・トゥ・モデル(DfM)を連続的に処理し,特徴マッピング情報の喪失について検討する。
以上の結果から,DtMとDfMの複数シーケンスの後にも,特にロバストモデルにおいて精度低下が制限されることが示唆された。
論文 参考訳(メタデータ) (2020-07-13T05:27:48Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。