論文の概要: A Comparative Study on Non-Autoregressive Modelings for Speech-to-Text
Generation
- arxiv url: http://arxiv.org/abs/2110.05249v1
- Date: Mon, 11 Oct 2021 13:05:06 GMT
- ステータス: 処理完了
- システム内更新日: 2021-10-12 19:20:26.730143
- Title: A Comparative Study on Non-Autoregressive Modelings for Speech-to-Text
Generation
- Title(参考訳): 音声テキスト生成のための非自己回帰モデルの比較検討
- Authors: Yosuke Higuchi, Nanxin Chen, Yuya Fujita, Hirofumi Inaguma, Tatsuya
Komatsu, Jaesong Lee, Jumon Nozaki, Tianzi Wang, Shinji Watanabe
- Abstract要約: 非自己回帰モデル (NAR) はシーケンス内の複数の出力を同時に生成し、自動回帰ベースラインと比較して精度低下のコストで推論速度を著しく低減する。
エンドツーエンド自動音声認識(ASR)のための様々なNARモデリング手法の比較研究を行う。
各種課題の成果は, 精度・速度トレードオフや長文発話に対する頑健性など, NAR ASR の理解を深める上で興味深い結果をもたらす。
- 参考スコア(独自算出の注目度): 59.64193903397301
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Non-autoregressive (NAR) models simultaneously generate multiple outputs in a
sequence, which significantly reduces the inference speed at the cost of
accuracy drop compared to autoregressive baselines. Showing great potential for
real-time applications, an increasing number of NAR models have been explored
in different fields to mitigate the performance gap against AR models. In this
work, we conduct a comparative study of various NAR modeling methods for
end-to-end automatic speech recognition (ASR). Experiments are performed in the
state-of-the-art setting using ESPnet. The results on various tasks provide
interesting findings for developing an understanding of NAR ASR, such as the
accuracy-speed trade-off and robustness against long-form utterances. We also
show that the techniques can be combined for further improvement and applied to
NAR end-to-end speech translation. All the implementations are publicly
available to encourage further research in NAR speech processing.
- Abstract(参考訳): 非自己回帰モデル (NAR) はシーケンス内の複数の出力を同時に生成し、自動回帰ベースラインと比較して精度低下のコストで推論速度を著しく低減する。
リアルタイムアプリケーションに大きな可能性を示すため、さまざまな分野でARモデルに対するパフォーマンスギャップを軽減するために、NARモデルの増加が調査されている。
本研究では、エンドツーエンド自動音声認識(ASR)のための様々なNARモデリング手法の比較研究を行う。
ESPnetを用いた最先端設定で実験を行う。
各種課題の成果は, 精度・速度トレードオフや長文発話に対する頑健性など, NAR ASR の理解を深める上で興味深い結果をもたらす。
また,この手法を組み合わせることで,NARのエンドツーエンド音声翻訳にも適用できることが示唆された。
全ての実装は、NAR音声処理のさらなる研究を促進するために公開されている。
関連論文リスト
- Reinforcement Learning for Edit-Based Non-Autoregressive Neural Machine Translation [15.632419297059993]
非自己回帰(NAR)言語モデルは、ニューラルネットワーク翻訳(NMT)の低レイテンシで知られている。
NARと自己回帰モデルの間には大きな復号化空間があり、目的語間の不整合を正確に捉えるのが困難である。
本稿では,編集ベースNARモデルであるLevenshtein Transformerに強化学習(RL)を適用し,自己生成データを用いたRLが編集ベースNARモデルの性能を向上させることを示す。
論文 参考訳(メタデータ) (2024-05-02T13:39:28Z) - Leveraging Diverse Modeling Contexts with Collaborating Learning for
Neural Machine Translation [26.823126615724888]
自己回帰(AR)モデルと非自己回帰(NAR)モデル(NAR)モデルはニューラルマシン翻訳(NMT)のための2種類の生成モデルである
本稿では,教師や学生の代わりにARモデルとNARモデルを協調者として扱う,新しい総合的協調学習手法であるDCMCLを提案する。
論文 参考訳(メタデータ) (2024-02-28T15:55:02Z) - Non-Autoregressive Machine Translation: It's Not as Fast as it Seems [84.47091735503979]
NARモデルに関する文献にみられる評価手法の欠陥を指摘する。
我々はNARモデルと他の広く使われている効率向上手法を比較した。
我々は,今後の作業において,より現実的で広範なNARモデルの評価を求める。
論文 参考訳(メタデータ) (2022-05-04T09:30:17Z) - A Survey on Non-Autoregressive Generation for Neural Machine Translation
and Beyond [145.43029264191543]
非自己回帰(NAR)生成は推論を高速化するために機械翻訳(NMT)で最初に提案される。
NAR生成は機械翻訳を著しく加速させるが、自己回帰(AR)生成の推論は翻訳精度を犠牲にする。
NAR生成とAR生成の精度ギャップを埋めるために、多くの新しいモデルとアルゴリズムが設計/提案されている。
論文 参考訳(メタデータ) (2022-04-20T07:25:22Z) - SRU++: Pioneering Fast Recurrence with Attention for Speech Recognition [49.42625022146008]
複数のASRベンチマークでコンフォーマーと比較することにより,SRU++をASRタスクに適用する利点を示す。
具体的には,SRU++ が長文音声入力において Conformer を追い越すことができる。
論文 参考訳(メタデータ) (2021-10-11T19:23:50Z) - TSNAT: Two-Step Non-Autoregressvie Transformer Models for Speech
Recognition [69.68154370877615]
非自己回帰(NAR)モデルは、出力トークン間の時間的依存関係を排除し、少なくとも1ステップで出力トークン全体を予測することができる。
この2つの問題に対処するため,TSNATと呼ばれる新しいモデルを提案する。
以上の結果から,TSNATはARモデルと競合する性能を示し,複雑なNARモデルよりも優れていた。
論文 参考訳(メタデータ) (2021-04-04T02:34:55Z) - Improving Non-autoregressive Neural Machine Translation with Monolingual
Data [13.43438045177293]
非自己回帰(NAR)ニューラルマシン翻訳は通常、自己回帰(AR)モデルからの知識蒸留によって行われる。
大規模単言語コーパスを用いてNARモデルの性能を向上する。
論文 参考訳(メタデータ) (2020-05-02T22:24:52Z) - A Study of Non-autoregressive Model for Sequence Generation [147.89525760170923]
非自己回帰(NAR)モデルは、シーケンスのすべてのトークンを並列に生成する。
本稿では,ARモデルとNARモデルのギャップを埋めるために,知識蒸留とソースターゲットアライメントを提案する。
論文 参考訳(メタデータ) (2020-04-22T09:16:09Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。