論文の概要: One Reference Is Not Enough: Diverse Distillation with Reference
Selection for Non-Autoregressive Translation
- arxiv url: http://arxiv.org/abs/2205.14333v1
- Date: Sat, 28 May 2022 04:59:33 GMT
- ステータス: 処理完了
- システム内更新日: 2022-05-31 16:22:43.700937
- Title: One Reference Is Not Enough: Diverse Distillation with Reference
Selection for Non-Autoregressive Translation
- Title(参考訳): 非自己回帰翻訳における参照選択による多変量蒸留
- Authors: Chenze Shao and Xuanfu Wu and Yang Feng
- Abstract要約: 非自己回帰型ニューラルネットワーク翻訳(NAT)は多モード問題に悩まされる。
そこで本研究では,NATのためのDDRSを用いた多種多様な蒸留法を提案する。
DDRS は WMT14 En-De 上の1つの復号パスで 29.82 BLEU を達成し、NAT の最先端性能を 1 BLEU 以上向上させた。
- 参考スコア(独自算出の注目度): 13.223158914896727
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Non-autoregressive neural machine translation (NAT) suffers from the
multi-modality problem: the source sentence may have multiple correct
translations, but the loss function is calculated only according to the
reference sentence. Sequence-level knowledge distillation makes the target more
deterministic by replacing the target with the output from an autoregressive
model. However, the multi-modality problem in the distilled dataset is still
nonnegligible. Furthermore, learning from a specific teacher limits the upper
bound of the model capability, restricting the potential of NAT models. In this
paper, we argue that one reference is not enough and propose diverse
distillation with reference selection (DDRS) for NAT. Specifically, we first
propose a method called SeedDiv for diverse machine translation, which enables
us to generate a dataset containing multiple high-quality reference
translations for each source sentence. During the training, we compare the NAT
output with all references and select the one that best fits the NAT output to
train the model. Experiments on widely-used machine translation benchmarks
demonstrate the effectiveness of DDRS, which achieves 29.82 BLEU with only one
decoding pass on WMT14 En-De, improving the state-of-the-art performance for
NAT by over 1 BLEU. Source code: https://github.com/ictnlp/DDRS-NAT
- Abstract(参考訳): 非自己回帰型ニューラルマシン翻訳(nat)はマルチモダリティ問題に苦しむ: ソース文は複数の正しい翻訳があるかもしれないが、損失関数は参照文によってのみ計算される。
シーケンスレベルの知識蒸留は、ターゲットを自己回帰モデルから出力に置き換えることで、ターゲットをより決定論的にする。
しかし, 蒸留データセットの多モード性問題はまだ無視できない。
さらに、特定の教師から学ぶことでモデル能力の上限が制限され、natモデルのポテンシャルが制限される。
本稿では,1つの参照だけでは不十分であり,NATのためのDDRSを用いた多種多様な蒸留を提案する。
具体的には,まず,多様な機械翻訳のためのseeddivという手法を提案する。これにより,各文に対して複数の高品質な参照翻訳を含むデータセットを生成することができる。
トレーニング中、NAT出力とすべての参照を比較し、モデルをトレーニングするためにNAT出力に最も適しているものを選択する。
広く使われている機械翻訳ベンチマークの実験では、WMT14 En-Deで1つの復号パスで29.82 BLEUを達成するDDRSの有効性を示し、NATの最先端性能を1 BLEU以上向上させた。
ソースコード:https://github.com/ictnlp/DDRS-NAT
関連論文リスト
- Revisiting Non-Autoregressive Translation at Scale [76.93869248715664]
スケーリングが非自己回帰翻訳(NAT)行動に与える影響を系統的に研究する。
我々は、NATモデルの一般的な弱さを緩和し、結果として翻訳性能が向上することを示した。
我々は、スケールされたデータセット上でスケールされたNATモデルを検証することで、新しいベンチマークを確立する。
論文 参考訳(メタデータ) (2023-05-25T15:22:47Z) - Optimizing Non-Autoregressive Transformers with Contrastive Learning [74.46714706658517]
非自己回帰変換器(NAT)は、逐次順序ではなく全ての単語を同時に予測することにより、自動回帰変換器(AT)の推論遅延を低減する。
本稿では,データ分布ではなく,モデル分布からのサンプリングによるモダリティ学習の容易化を提案する。
論文 参考訳(メタデータ) (2023-05-23T04:20:13Z) - N-Gram Nearest Neighbor Machine Translation [101.25243884801183]
本稿では, 自己回帰翻訳(AT)モデルと非自己回帰翻訳(NAT)モデルの両方に適用可能な, モデルに依存しない新しいn$-gram近傍検索手法を提案する。
提案手法は,ATモデルおよびNATモデルおよび一般のドメイン適応翻訳タスクにおいて,トークンレベル法を一貫して上回ることを示す。
論文 参考訳(メタデータ) (2023-01-30T13:19:19Z) - Rephrasing the Reference for Non-Autoregressive Machine Translation [37.816198073720614]
非自己回帰型ニューラルマシン翻訳(NAT)モデルは、ソース文の複数の可能な翻訳が存在する可能性があるというマルチモーダリティの問題に悩まされる。
我々は、NAT出力に従って参照文をリフレッシュすることで、NATのためのより良いトレーニングターゲットを提供するためのリフレッサーを導入する。
我々の最良の変種は、推論の14.7倍の効率で、自動回帰変換器に匹敵する性能を実現しています。
論文 参考訳(メタデータ) (2022-11-30T10:05:03Z) - Using Perturbed Length-aware Positional Encoding for Non-autoregressive
Neural Machine Translation [32.088160646084525]
摂動長認識位置符号化を用いたシーケンスレベルの知識蒸留(SKD)を提案する。
WMT14ドイツ語から英語への翻訳では,バイリンガル評価法(BLEU)において,標準のLevenshtein Transformerを2.5ポイント上回る性能を示した。
論文 参考訳(メタデータ) (2021-07-29T00:51:44Z) - Sequence-Level Training for Non-Autoregressive Neural Machine
Translation [33.17341980163439]
非自己回帰ニューラルネットワーク変換(NAT)は自己回帰機構を取り除き、大幅なデコード高速化を実現する。
本研究では,NATの出力を全体として評価し,実際の翻訳品質とよく相関するNATモデルをトレーニングするためのシーケンスレベルのトレーニング目標を提案する。
論文 参考訳(メタデータ) (2021-06-15T13:30:09Z) - Rejuvenating Low-Frequency Words: Making the Most of Parallel Data in
Non-Autoregressive Translation [98.11249019844281]
知識蒸留(KD)は、非自己回帰翻訳(NAT)モデルを訓練するための合成データを構築するために一般的に用いられる。
低周波対象語に対するアライメントを向上するために,逆KDを提案する。
その結果,提案手法は翻訳品質を大幅に向上させることができることがわかった。
論文 参考訳(メタデータ) (2021-06-02T02:41:40Z) - Understanding and Improving Lexical Choice in Non-Autoregressive
Translation [98.11249019844281]
低周波ワードの有用な情報を復元するために、生データをNATモデルに公開することを提案する。
提案手法は,WMT14英語-ドイツ語とWMT16ルーマニア英語-英語データセットのSOTA NAT性能を27.8BLEU点,33.8BLEU点まで向上させる。
論文 参考訳(メタデータ) (2020-12-29T03:18:50Z) - Multi-Task Learning with Shared Encoder for Non-Autoregressive Machine
Translation [32.77372312124259]
非自己回帰機械翻訳(NAT)モデルでは推論速度が著しく向上しているが、翻訳精度は劣っている。
本稿では,自動回帰機械翻訳の知識をエンコーダの共有を通じてNATモデルに伝達するマルチタスク学習を提案する。
WMT14英語-ドイツ語とWMT16英語-ルーマニアのデータセットの実験結果は、提案されたマルチタスクNATがベースラインNATモデルよりも大幅に改善されていることを示している。
論文 参考訳(メタデータ) (2020-10-24T11:00:58Z) - Task-Level Curriculum Learning for Non-Autoregressive Neural Machine
Translation [188.3605563567253]
非自己回帰翻訳(NAT)は高速な推論速度を実現するが、自己回帰翻訳(AT)と比較して精度が悪くなる
本稿では、中間タスクとして半自己回帰翻訳(SAT)を導入し、ATとNATを特殊なケースとして扱う。
我々は、k を 1 から N に段階的にシフトさせるカリキュラムスケジュールを設計する。
IWSLT14 De-En, IWSLT16 En-De, WMT14 En-De, De-Enデータセットの実験により、TCL-NATは以前のNATベースラインよりも大幅に精度が向上したことが示された。
論文 参考訳(メタデータ) (2020-07-17T06:06:54Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。