論文の概要: How Does Distilled Data Complexity Impact the Quality and Confidence of
Non-Autoregressive Machine Translation?
- arxiv url: http://arxiv.org/abs/2105.12900v1
- Date: Thu, 27 May 2021 01:19:11 GMT
- ステータス: 処理完了
- システム内更新日: 2021-05-28 16:26:57.054260
- Title: How Does Distilled Data Complexity Impact the Quality and Confidence of
Non-Autoregressive Machine Translation?
- Title(参考訳): 蒸留データ複雑度は非自己回帰機械翻訳の品質と信頼性にどのように影響するか?
- Authors: Weijia Xu, Shuming Ma, Dongdong Zhang, Marine Carpuat
- Abstract要約: 異なるタイプの複雑性が翻訳品質に異なる影響を与えることを示す。
語彙の多様性は、蒸留がモデルの信頼性を高める主な理由であり、異なるNARモデルのキャリブレーションに異なる影響を与える。
- 参考スコア(独自算出の注目度): 29.544991030973648
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: While non-autoregressive (NAR) models are showing great promise for machine
translation, their use is limited by their dependence on knowledge distillation
from autoregressive models. To address this issue, we seek to understand why
distillation is so effective. Prior work suggests that distilled training data
is less complex than manual translations. Based on experiments with the
Levenshtein Transformer and the Mask-Predict NAR models on the WMT14
German-English task, this paper shows that different types of complexity have
different impacts: while reducing lexical diversity and decreasing reordering
complexity both help NAR learn better alignment between source and target, and
thus improve translation quality, lexical diversity is the main reason why
distillation increases model confidence, which affects the calibration of
different NAR models differently.
- Abstract(参考訳): 非自己回帰型(nar)モデルは機械翻訳に大いに期待されているが、その使用は自己回帰型モデルからの知識蒸留に依存するため制限されている。
この問題に対処するため,蒸留がなぜ効果的かを理解する。
先行研究では、蒸留訓練データは手動翻訳よりも複雑ではないことを示唆している。
Based on experiments with the Levenshtein Transformer and the Mask-Predict NAR models on the WMT14 German-English task, this paper shows that different types of complexity have different impacts: while reducing lexical diversity and decreasing reordering complexity both help NAR learn better alignment between source and target, and thus improve translation quality, lexical diversity is the main reason why distillation increases model confidence, which affects the calibration of different NAR models differently.
関連論文リスト
- Improving Non-autoregressive Translation Quality with Pretrained Language Model, Embedding Distillation and Upsampling Strategy for CTC [51.34222224728979]
本稿では,非自己回帰翻訳(NAT)モデルの翻訳品質を向上させるための一連の革新的な技術を紹介する。
我々は,NATモデルを効果的に訓練するために,CTCの損失を抑えたPMLM(Pretrained Multilingual Language Models)を提案する。
自動回帰モデルと比較して16.35倍の速度向上を示した。
論文 参考訳(メタデータ) (2023-06-10T05:24:29Z) - Continual Knowledge Distillation for Neural Machine Translation [74.03622486218597]
並列コーパスは、データ著作権、データプライバシ、競争上の差別化の理由から、一般にはアクセスできない。
本稿では,既存の翻訳モデルを利用して,関心の1つのモデルを改善するための連続的知識蒸留法を提案する。
論文 参考訳(メタデータ) (2022-12-18T14:41:13Z) - Exploring Diversity in Back Translation for Low-Resource Machine
Translation [85.03257601325183]
バックトランスフォーメーションは、ニューラルマシントランスフォーメーションシステムの性能を改善するために最も広く使われている手法の1つである。
近年の研究では、生成された翻訳の「多様性」を増大させることにより、この手法の有効性を高めることを目指している。
この研究は、トレーニングデータの多様性を理解し、それを語彙的多様性と構文的多様性に分割する、より微妙なフレームワークを推し進めている。
論文 参考訳(メタデータ) (2022-06-01T15:21:16Z) - A Self-Paced Mixed Distillation Method for Non-Autoregressive Generation [135.84684279852098]
非自己回帰(NAR)モデルは、様々な言語生成タスクにおけるオート回帰(AR)モデルの性能が著しく低い。
NARモデルの中で、BANGは英語未ラベルの原文コーパス上で最初の大規模事前学習モデルである。
そこで本研究では,BANGの生成品質をさらに向上させる,自己ペースト混合蒸留法を提案する。
論文 参考訳(メタデータ) (2022-05-23T09:54:53Z) - Can Multilinguality benefit Non-autoregressive Machine Translation? [11.671379480940407]
非自己回帰(NAR)機械翻訳は、最近大幅に改善され、いくつかのベンチマークで自己回帰(AR)モデルを上回っている。
本研究は多言語NARの総合的研究である。
容量制約下で、関連する言語間の正の転送と負の転送に関して、その能力をテストする。
論文 参考訳(メタデータ) (2021-12-16T02:20:59Z) - Modelling Latent Translations for Cross-Lingual Transfer [47.61502999819699]
従来のパイプラインの2つのステップ(翻訳と分類)を1つのモデルに統合する新しい手法を提案する。
我々は,多言語NLUタスクにおける新しい潜時翻訳モデルの評価を行った。
ゼロショットと数ショットの学習設定の両方で、平均2.7の精度ポイントのゲインを報告します。
論文 参考訳(メタデータ) (2021-07-23T17:11:27Z) - Modeling Coverage for Non-Autoregressive Neural Machine Translation [9.173385214565451]
本稿では,トークンレベルのカバレッジ反復改良機構と文レベルのカバレッジ契約により,カバレッジ情報を直接モデル化するための新しいカバレッジNATを提案する。
WMT14 En-De および WMT16 En-Ro 翻訳タスクの実験結果から,本手法はこれらの誤りを軽減し,ベースラインシステムに対して強い改善が達成できることが示された。
論文 参考訳(メタデータ) (2021-04-24T07:33:23Z) - Understanding and Improving Lexical Choice in Non-Autoregressive
Translation [98.11249019844281]
低周波ワードの有用な情報を復元するために、生データをNATモデルに公開することを提案する。
提案手法は,WMT14英語-ドイツ語とWMT16ルーマニア英語-英語データセットのSOTA NAT性能を27.8BLEU点,33.8BLEU点まで向上させる。
論文 参考訳(メタデータ) (2020-12-29T03:18:50Z) - Pre-trained Summarization Distillation [121.14806854092672]
近年の分類・回帰作業におけるBERT蒸留の研究は, 直接的知識蒸留による高い性能を示している。
あるいは、機械翻訳の実践者は擬似ラベルを用いて蒸留し、小さなモデルをより大きなモデルの翻訳に基づいて訓練する。
第三に、より単純なアプローチは'shrink and fine-tune' (SFT) であり、より小さな学生モデルにパラメータをコピーして微調整することで、明示的な蒸留を避ける。
論文 参考訳(メタデータ) (2020-10-24T23:15:43Z) - Improving Non-autoregressive Neural Machine Translation with Monolingual
Data [13.43438045177293]
非自己回帰(NAR)ニューラルマシン翻訳は通常、自己回帰(AR)モデルからの知識蒸留によって行われる。
大規模単言語コーパスを用いてNARモデルの性能を向上する。
論文 参考訳(メタデータ) (2020-05-02T22:24:52Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。