論文の概要: A Study of Non-autoregressive Model for Sequence Generation
- arxiv url: http://arxiv.org/abs/2004.10454v2
- Date: Mon, 11 May 2020 00:17:11 GMT
- ステータス: 処理完了
- システム内更新日: 2022-12-10 17:39:34.184239
- Title: A Study of Non-autoregressive Model for Sequence Generation
- Title(参考訳): シーケンス生成のための非自己回帰モデルに関する研究
- Authors: Yi Ren, Jinglin Liu, Xu Tan, Zhou Zhao, Sheng Zhao, Tie-Yan Liu
- Abstract要約: 非自己回帰(NAR)モデルは、シーケンスのすべてのトークンを並列に生成する。
本稿では,ARモデルとNARモデルのギャップを埋めるために,知識蒸留とソースターゲットアライメントを提案する。
- 参考スコア(独自算出の注目度): 147.89525760170923
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Non-autoregressive (NAR) models generate all the tokens of a sequence in
parallel, resulting in faster generation speed compared to their autoregressive
(AR) counterparts but at the cost of lower accuracy. Different techniques
including knowledge distillation and source-target alignment have been proposed
to bridge the gap between AR and NAR models in various tasks such as neural
machine translation (NMT), automatic speech recognition (ASR), and text to
speech (TTS). With the help of those techniques, NAR models can catch up with
the accuracy of AR models in some tasks but not in some others. In this work,
we conduct a study to understand the difficulty of NAR sequence generation and
try to answer: (1) Why NAR models can catch up with AR models in some tasks but
not all? (2) Why techniques like knowledge distillation and source-target
alignment can help NAR models. Since the main difference between AR and NAR
models is that NAR models do not use dependency among target tokens while AR
models do, intuitively the difficulty of NAR sequence generation heavily
depends on the strongness of dependency among target tokens. To quantify such
dependency, we propose an analysis model called CoMMA to characterize the
difficulty of different NAR sequence generation tasks. We have several
interesting findings: 1) Among the NMT, ASR and TTS tasks, ASR has the most
target-token dependency while TTS has the least. 2) Knowledge distillation
reduces the target-token dependency in target sequence and thus improves the
accuracy of NAR models. 3) Source-target alignment constraint encourages
dependency of a target token on source tokens and thus eases the training of
NAR models.
- Abstract(参考訳): 非自己回帰型(nar)モデルでは、シーケンスのすべてのトークンを並列に生成し、自己回帰型(ar)モデルよりも高速な生成速度を実現するが、精度は低い。
ニューラルネットワーク翻訳(NMT)、自動音声認識(ASR)、テキスト・トゥ・スピーチ(TTS)といった様々なタスクにおいて、知識蒸留やソース・ターゲットアライメントなどの異なる手法がARとNARモデルのギャップを埋めるために提案されている。
これらの技術によって、NARモデルはいくつかのタスクにおいてARモデルの精度に追いつくことができるが、他のタスクでは追いつくことができない。
本研究では、NARシーケンス生成の難しさを理解するために研究を行い、(1) NARモデルがタスクにおいてARモデルに追いつくことができるのはなぜか?
2)なぜ知識蒸留やソースターゲットアライメントといった技術がNARモデルに役立つのか。
ARモデルとNARモデルの主な違いは、ARモデルがターゲットトークン間の依存性を使用しないことだが、直感的には、NARシーケンス生成の難しさはターゲットトークン間の依存性の強みに大きく依存する。
このような依存関係を定量化するために,異なるNARシーケンス生成タスクの難しさを特徴付けるために,CoMMAと呼ばれる解析モデルを提案する。
興味深い発見がいくつかあります
1) NMT, ASR, TTSタスクのうち, ASRが最もターゲットに依存するが, TTSは最小である。
2) 知識蒸留は, 目標系列の目標値依存性を減少させ, narモデルの精度を向上させる。
3) ソースターゲットアライメント制約は,ソーストークンへのターゲットトークンの依存性を促進し,NARモデルのトレーニングを容易にする。
関連論文リスト
- Leveraging Diverse Modeling Contexts with Collaborating Learning for
Neural Machine Translation [26.823126615724888]
自己回帰(AR)モデルと非自己回帰(NAR)モデル(NAR)モデルはニューラルマシン翻訳(NMT)のための2種類の生成モデルである
本稿では,教師や学生の代わりにARモデルとNARモデルを協調者として扱う,新しい総合的協調学習手法であるDCMCLを提案する。
論文 参考訳(メタデータ) (2024-02-28T15:55:02Z) - Semi-Autoregressive Streaming ASR With Label Context [70.76222767090638]
本稿では,先行ブロックで出力されたラベルを付加コンテキストとして組み込んだストリーミング「半自己回帰型」ASRモデルを提案する。
実験の結果,既存のストリーミングNARモデルではTedlium2が19%,Librispeech-100が16%/8%,Switchboard(SWB)/Callhome(CH)テストセットが19%/8%であった。
論文 参考訳(メタデータ) (2023-09-19T20:55:58Z) - Helping the Weak Makes You Strong: Simple Multi-Task Learning Improves
Non-Autoregressive Translators [35.939982651768666]
NARモデルの確率フレームワークは、ターゲットシーケンスに対する条件付き独立性仮定を必要とする。
本稿では,より情報的な学習信号を提供するための,シンプルでモデルに依存しないマルチタスク学習フレームワークを提案する。
我々の手法は、追加のデコードオーバーヘッドを追加することなく、複数のNARベースラインの精度を一貫して改善することができる。
論文 参考訳(メタデータ) (2022-11-11T09:10:14Z) - Paraformer: Fast and Accurate Parallel Transformer for
Non-autoregressive End-to-End Speech Recognition [62.83832841523525]
そこで我々はParaformerと呼ばれる高速かつ高精度な並列トランスを提案する。
出力トークンの数を正確に予測し、隠れた変数を抽出する。
10倍以上のスピードアップで、最先端のARトランスフォーマーに匹敵するパフォーマンスを実現することができる。
論文 参考訳(メタデータ) (2022-06-16T17:24:14Z) - Non-Autoregressive Machine Translation: It's Not as Fast as it Seems [84.47091735503979]
NARモデルに関する文献にみられる評価手法の欠陥を指摘する。
我々はNARモデルと他の広く使われている効率向上手法を比較した。
我々は,今後の作業において,より現実的で広範なNARモデルの評価を求める。
論文 参考訳(メタデータ) (2022-05-04T09:30:17Z) - Diformer: Directional Transformer for Neural Machine Translation [13.867255817435705]
自己回帰(AR)モデルと非自己回帰(NAR)モデルは、パフォーマンスとレイテンシにおいてそれぞれ優位である。
本稿では,ARとNARを3世代に融合した方向変換器(Diformer)を提案する。
4つのWMTベンチマークの実験では、ダイフォーマーは現在の統一モデリング作業より優れており、ARとNARデコーディングの両方で1.5 BLEUポイント以上である。
論文 参考訳(メタデータ) (2021-12-22T02:35:29Z) - A Comparative Study on Non-Autoregressive Modelings for Speech-to-Text
Generation [59.64193903397301]
非自己回帰モデル (NAR) はシーケンス内の複数の出力を同時に生成し、自動回帰ベースラインと比較して精度低下のコストで推論速度を著しく低減する。
エンドツーエンド自動音声認識(ASR)のための様々なNARモデリング手法の比較研究を行う。
各種課題の成果は, 精度・速度トレードオフや長文発話に対する頑健性など, NAR ASR の理解を深める上で興味深い結果をもたらす。
論文 参考訳(メタデータ) (2021-10-11T13:05:06Z) - TSNAT: Two-Step Non-Autoregressvie Transformer Models for Speech
Recognition [69.68154370877615]
非自己回帰(NAR)モデルは、出力トークン間の時間的依存関係を排除し、少なくとも1ステップで出力トークン全体を予測することができる。
この2つの問題に対処するため,TSNATと呼ばれる新しいモデルを提案する。
以上の結果から,TSNATはARモデルと競合する性能を示し,複雑なNARモデルよりも優れていた。
論文 参考訳(メタデータ) (2021-04-04T02:34:55Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。