論文の概要: Helping the Weak Makes You Strong: Simple Multi-Task Learning Improves
Non-Autoregressive Translators
- arxiv url: http://arxiv.org/abs/2211.06075v1
- Date: Fri, 11 Nov 2022 09:10:14 GMT
- ステータス: 処理完了
- システム内更新日: 2022-11-14 16:15:01.352826
- Title: Helping the Weak Makes You Strong: Simple Multi-Task Learning Improves
Non-Autoregressive Translators
- Title(参考訳): 弱い人を助ける: シンプルなマルチタスク学習は非回帰翻訳者を改善する
- Authors: Xinyou Wang, Zaixiang Zheng, Shujian Huang
- Abstract要約: NARモデルの確率フレームワークは、ターゲットシーケンスに対する条件付き独立性仮定を必要とする。
本稿では,より情報的な学習信号を提供するための,シンプルでモデルに依存しないマルチタスク学習フレームワークを提案する。
我々の手法は、追加のデコードオーバーヘッドを追加することなく、複数のNARベースラインの精度を一貫して改善することができる。
- 参考スコア(独自算出の注目度): 35.939982651768666
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Recently, non-autoregressive (NAR) neural machine translation models have
received increasing attention due to their efficient parallel decoding.
However, the probabilistic framework of NAR models necessitates conditional
independence assumption on target sequences, falling short of characterizing
human language data. This drawback results in less informative learning signals
for NAR models under conventional MLE training, thereby yielding unsatisfactory
accuracy compared to their autoregressive (AR) counterparts. In this paper, we
propose a simple and model-agnostic multi-task learning framework to provide
more informative learning signals. During training stage, we introduce a set of
sufficiently weak AR decoders that solely rely on the information provided by
NAR decoder to make prediction, forcing the NAR decoder to become stronger or
else it will be unable to support its weak AR partners. Experiments on WMT and
IWSLT datasets show that our approach can consistently improve accuracy of
multiple NAR baselines without adding any additional decoding overhead.
- Abstract(参考訳): 近年、非自己回帰(NAR)ニューラルマシン翻訳モデルは、その効率的な並列復号化により注目されている。
しかし、narモデルの確率論的枠組みは、人間の言語データの特徴化に乏しい目標系列に対する条件付き独立性仮定を必要とする。
この欠点は、従来のMLEトレーニングにおいて、NARモデルの学習信号が少ないため、自己回帰(AR)モデルと比較して不満足な精度が得られる。
本稿では,より情報的な学習信号を提供するための,シンプルでモデルに依存しないマルチタスク学習フレームワークを提案する。
トレーニング段階では、ナルデコーダが提供する情報のみを頼りに、ナルデコーダがより強くなり、あるいはその弱いarパートナーをサポートすることができないような、十分に弱いarデコーダのセットを導入する。
WMTおよびIWSLTデータセットの実験により、我々の手法は、追加のデコードオーバーヘッドを加えることなく、複数のNARベースラインの精度を一貫して改善できることを示した。
関連論文リスト
- Leveraging Diverse Modeling Contexts with Collaborating Learning for
Neural Machine Translation [26.823126615724888]
自己回帰(AR)モデルと非自己回帰(NAR)モデル(NAR)モデルはニューラルマシン翻訳(NMT)のための2種類の生成モデルである
本稿では,教師や学生の代わりにARモデルとNARモデルを協調者として扱う,新しい総合的協調学習手法であるDCMCLを提案する。
論文 参考訳(メタデータ) (2024-02-28T15:55:02Z) - AMLNet: Adversarial Mutual Learning Neural Network for
Non-AutoRegressive Multi-Horizon Time Series Forecasting [4.911305944028228]
AMLNetは,オンライン知識蒸留手法を用いて,現実的な予測を実現する革新的なNARモデルである。
AMLNetは、ディープARデコーダとディープNARデコーダを協調的にトレーニングすることで、ARモデルとNARモデルの長所を活用する。
この知識伝達は、(1)教師モデルからのKD損失の寄与を動的に加重し、浅いNARデコーダがアンサンブルの多様性を組み込むことを可能にする結果駆動型KD、(2)モデルに隠された蒸留状態から貴重な洞察を抽出するために敵の訓練を利用するヒント駆動型KDの2つの主要なメカニズムによって促進される。
論文 参考訳(メタデータ) (2023-10-30T06:10:00Z) - Paraformer: Fast and Accurate Parallel Transformer for
Non-autoregressive End-to-End Speech Recognition [62.83832841523525]
そこで我々はParaformerと呼ばれる高速かつ高精度な並列トランスを提案する。
出力トークンの数を正確に予測し、隠れた変数を抽出する。
10倍以上のスピードアップで、最先端のARトランスフォーマーに匹敵するパフォーマンスを実現することができる。
論文 参考訳(メタデータ) (2022-06-16T17:24:14Z) - A Survey on Non-Autoregressive Generation for Neural Machine Translation
and Beyond [145.43029264191543]
非自己回帰(NAR)生成は推論を高速化するために機械翻訳(NMT)で最初に提案される。
NAR生成は機械翻訳を著しく加速させるが、自己回帰(AR)生成の推論は翻訳精度を犠牲にする。
NAR生成とAR生成の精度ギャップを埋めるために、多くの新しいモデルとアルゴリズムが設計/提案されている。
論文 参考訳(メタデータ) (2022-04-20T07:25:22Z) - Distributionally Robust Recurrent Decoders with Random Network
Distillation [93.10261573696788]
本稿では,自動回帰言語モデルが推論中にOODコンテキストを無視できるように,ランダムネットワーク蒸留を用いたOOD検出に基づく手法を提案する。
提案手法をGRUアーキテクチャに適用し,複数の言語モデリング(LM)データセットの改善を実証する。
論文 参考訳(メタデータ) (2021-10-25T19:26:29Z) - A Comparative Study on Non-Autoregressive Modelings for Speech-to-Text
Generation [59.64193903397301]
非自己回帰モデル (NAR) はシーケンス内の複数の出力を同時に生成し、自動回帰ベースラインと比較して精度低下のコストで推論速度を著しく低減する。
エンドツーエンド自動音声認識(ASR)のための様々なNARモデリング手法の比較研究を行う。
各種課題の成果は, 精度・速度トレードオフや長文発話に対する頑健性など, NAR ASR の理解を深める上で興味深い結果をもたらす。
論文 参考訳(メタデータ) (2021-10-11T13:05:06Z) - Exploring Unsupervised Pretraining Objectives for Machine Translation [99.5441395624651]
教師なし言語間事前訓練は、ニューラルマシン翻訳(NMT)の強力な結果を得た
ほとんどのアプローチは、入力の一部をマスキングしてデコーダで再構成することで、シーケンス・ツー・シーケンスアーキテクチャにマスク付き言語モデリング(MLM)を適用する。
マスキングと、実際の(完全な)文に似た入力を生成する代替目的を、文脈に基づいて単語を並べ替えて置き換えることにより比較する。
論文 参考訳(メタデータ) (2021-06-10T10:18:23Z) - Improving Non-autoregressive Neural Machine Translation with Monolingual
Data [13.43438045177293]
非自己回帰(NAR)ニューラルマシン翻訳は通常、自己回帰(AR)モデルからの知識蒸留によって行われる。
大規模単言語コーパスを用いてNARモデルの性能を向上する。
論文 参考訳(メタデータ) (2020-05-02T22:24:52Z) - A Study of Non-autoregressive Model for Sequence Generation [147.89525760170923]
非自己回帰(NAR)モデルは、シーケンスのすべてのトークンを並列に生成する。
本稿では,ARモデルとNARモデルのギャップを埋めるために,知識蒸留とソースターゲットアライメントを提案する。
論文 参考訳(メタデータ) (2020-04-22T09:16:09Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。