論文の概要: Progressive Multi-Granularity Training for Non-Autoregressive
Translation
- arxiv url: http://arxiv.org/abs/2106.05546v1
- Date: Thu, 10 Jun 2021 07:16:07 GMT
- ステータス: 処理完了
- システム内更新日: 2021-06-12 19:11:52.492417
- Title: Progressive Multi-Granularity Training for Non-Autoregressive
Translation
- Title(参考訳): 非自己回帰翻訳のためのプログレッシブマルチグラニュラリティトレーニング
- Authors: Liang Ding, Longyue Wang, Xuebo Liu, Derek F. Wong, Dacheng Tao,
Zhaopeng Tu
- Abstract要約: 非自己回帰翻訳(NAT)は、ターゲットシーケンス全体を予測することで推論プロセスを著しく加速する。
近年の研究では、NATは1対多翻訳のような高度な知識の学習に弱いことが示されている。
モードは様々な粒度に分けることができ、そこから容易に学習できると我々は主張する。
- 参考スコア(独自算出の注目度): 98.11249019844281
- License: http://creativecommons.org/publicdomain/zero/1.0/
- Abstract: Non-autoregressive translation (NAT) significantly accelerates the inference
process via predicting the entire target sequence. However, recent studies show
that NAT is weak at learning high-mode of knowledge such as one-to-many
translations. We argue that modes can be divided into various granularities
which can be learned from easy to hard. In this study, we empirically show that
NAT models are prone to learn fine-grained lower-mode knowledge, such as words
and phrases, compared with sentences. Based on this observation, we propose
progressive multi-granularity training for NAT. More specifically, to make the
most of the training data, we break down the sentence-level examples into three
types, i.e. words, phrases, sentences, and with the training goes, we
progressively increase the granularities. Experiments on Romanian-English,
English-German, Chinese-English, and Japanese-English demonstrate that our
approach improves the phrase translation accuracy and model reordering ability,
therefore resulting in better translation quality against strong NAT baselines.
Also, we show that more deterministic fine-grained knowledge can further
enhance performance.
- Abstract(参考訳): 非自己回帰翻訳(NAT)は、ターゲットシーケンス全体を予測することで推論プロセスを著しく加速する。
しかし、最近の研究では、NATは一対多翻訳のような高度な知識の学習に弱いことが示されている。
モードは様々な粒度に分けることができ、そこから容易に学習できると我々は主張する。
本研究では,NATモデルが文と比較して,単語やフレーズなど,より細粒度の低い知識を学習する傾向があることを実証的に示す。
そこで本研究では,NATの進行的多粒度学習を提案する。
具体的には、トレーニングデータを最大限に活用するために、文レベルの例を3つのタイプに分類する。
言葉、句、文、そして訓練が進むにつれて、我々は徐々に粒度を増す。
ルーマニア語・英語・ドイツ語・中国語・日英語における実験により,本手法が句の翻訳精度とモデルの並べ替え能力を改善し,natベースラインに対する翻訳品質の向上を実現した。
また,より決定論的なききめ細かな知識が性能をさらに向上させることを示す。
関連論文リスト
- Selective Knowledge Distillation for Non-Autoregressive Neural Machine
Translation [34.22251326493591]
非自己回帰変換器(Non-Autoregressive Transformer、NAT)は、ニューラルマシン翻訳タスクにおいて大きな成功を収めている。
既存の知識蒸留は、教師からNAT学生への誤りの伝播などの副作用がある。
高品質で学習が容易なNATフレンドリーなターゲットの選択にNATを導入することで、選択的知識蒸留を導入する。
論文 参考訳(メタデータ) (2023-03-31T09:16:13Z) - Candidate Soups: Fusing Candidate Results Improves Translation Quality
for Non-Autoregressive Translation [15.332496335303189]
非自己回帰翻訳(NAT)モデルは、自己回帰翻訳(AT)モデルよりもはるかに高速な推論速度を達成する。
既存のNATメソッドはNATモデルの性能改善にのみフォーカスするが、完全には利用しない。
そこで我々は,高品質な翻訳を実現するための,シンプルだが効果的な手法"Candidate Soups"を提案する。
論文 参考訳(メタデータ) (2023-01-27T02:39:42Z) - Rephrasing the Reference for Non-Autoregressive Machine Translation [37.816198073720614]
非自己回帰型ニューラルマシン翻訳(NAT)モデルは、ソース文の複数の可能な翻訳が存在する可能性があるというマルチモーダリティの問題に悩まされる。
我々は、NAT出力に従って参照文をリフレッシュすることで、NATのためのより良いトレーニングターゲットを提供するためのリフレッサーを導入する。
我々の最良の変種は、推論の14.7倍の効率で、自動回帰変換器に匹敵する性能を実現しています。
論文 参考訳(メタデータ) (2022-11-30T10:05:03Z) - A Survey on Non-Autoregressive Generation for Neural Machine Translation
and Beyond [145.43029264191543]
非自己回帰(NAR)生成は推論を高速化するために機械翻訳(NMT)で最初に提案される。
NAR生成は機械翻訳を著しく加速させるが、自己回帰(AR)生成の推論は翻訳精度を犠牲にする。
NAR生成とAR生成の精度ギャップを埋めるために、多くの新しいモデルとアルゴリズムが設計/提案されている。
論文 参考訳(メタデータ) (2022-04-20T07:25:22Z) - Learning to Generalize to More: Continuous Semantic Augmentation for
Neural Machine Translation [50.54059385277964]
CsaNMT(Continuous Semantic Augmentation)と呼ばれる新しいデータ拡張パラダイムを提案する。
CsaNMTは各トレーニングインスタンスを、同じ意味の下で適切なリテラル式をカバーできる隣接領域で拡張する。
論文 参考訳(メタデータ) (2022-04-14T08:16:28Z) - Sequence-Level Training for Non-Autoregressive Neural Machine
Translation [33.17341980163439]
非自己回帰ニューラルネットワーク変換(NAT)は自己回帰機構を取り除き、大幅なデコード高速化を実現する。
本研究では,NATの出力を全体として評価し,実際の翻訳品質とよく相関するNATモデルをトレーニングするためのシーケンスレベルのトレーニング目標を提案する。
論文 参考訳(メタデータ) (2021-06-15T13:30:09Z) - Rejuvenating Low-Frequency Words: Making the Most of Parallel Data in
Non-Autoregressive Translation [98.11249019844281]
知識蒸留(KD)は、非自己回帰翻訳(NAT)モデルを訓練するための合成データを構築するために一般的に用いられる。
低周波対象語に対するアライメントを向上するために,逆KDを提案する。
その結果,提案手法は翻訳品質を大幅に向上させることができることがわかった。
論文 参考訳(メタデータ) (2021-06-02T02:41:40Z) - Token-wise Curriculum Learning for Neural Machine Translation [94.93133801641707]
ニューラルネットワーク翻訳(NMT)への既存のカリキュラム学習アプローチでは、初期のトレーニング段階でトレーニングデータから十分なサンプルをサンプリングする必要がある。
簡便なサンプルを十分に生成する,新しいトークン型カリキュラム学習手法を提案する。
当社のアプローチは,5つの言語ペア,特に低リソース言語において,ベースラインを一貫して上回ることができる。
論文 参考訳(メタデータ) (2021-03-20T03:57:59Z) - Understanding and Improving Lexical Choice in Non-Autoregressive
Translation [98.11249019844281]
低周波ワードの有用な情報を復元するために、生データをNATモデルに公開することを提案する。
提案手法は,WMT14英語-ドイツ語とWMT16ルーマニア英語-英語データセットのSOTA NAT性能を27.8BLEU点,33.8BLEU点まで向上させる。
論文 参考訳(メタデータ) (2020-12-29T03:18:50Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。