論文の概要: Bridging the gap between streaming and non-streaming ASR systems
bydistilling ensembles of CTC and RNN-T models
- arxiv url: http://arxiv.org/abs/2104.14346v1
- Date: Sun, 25 Apr 2021 19:20:34 GMT
- ステータス: 処理完了
- システム内更新日: 2021-04-30 12:51:45.216942
- Title: Bridging the gap between streaming and non-streaming ASR systems
bydistilling ensembles of CTC and RNN-T models
- Title(参考訳): CTCモデルとRNN-TモデルのアンサンブルによるストリーミングASRシステムと非ストリーミングASRシステムのギャップを埋める
- Authors: Thibault Doutre, Wei Han, Chung-Cheng Chiu, Ruoming Pang, Olivier
Siohan, Liangliang Cao
- Abstract要約: エンドツーエンドの自動音声認識システムは、リアルタイムに音声をテキストに書き起こす必要がある日常的なアプリケーションで広く利用されている。
ストリーミング以外のモデルとは異なり、ストリーミングモデルは将来的なコンテキストのない因果として制約され、高いワードエラー率(wer)を被る。
ストリーミングモデルを改善するために,教師の予測を用いて教師なし発話の非ストリーミング教師モデルを抽出し,ストリーミング学生を訓練する手法を提案する。
本稿では,非ストリーミング教師モデルの多様化と認識器出力投票誤差低減(r)の併用により,このギャップを解消することを目的とする。
- 参考スコア(独自算出の注目度): 34.002281923671795
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Streaming end-to-end automatic speech recognition (ASR) systems are widely
used in everyday applications that require transcribing speech to text in
real-time. Their minimal latency makes them suitable for such tasks. Unlike
their non-streaming counterparts, streaming models are constrained to be causal
with no future context and suffer from higher word error rates (WER). To
improve streaming models, a recent study [1] proposed to distill a
non-streaming teacher model on unsupervised utterances, and then train a
streaming student using the teachers' predictions. However, the performance gap
between teacher and student WERs remains high. In this paper, we aim to close
this gap by using a diversified set of non-streaming teacher models and
combining them using Recognizer Output Voting Error Reduction (ROVER). In
particular, we show that, despite being weaker than RNN-T models, CTC models
are remarkable teachers. Further, by fusing RNN-T and CTC models together, we
build the strongest teachers. The resulting student models drastically improve
upon streaming models of previous work [1]: the WER decreases by 41% on
Spanish, 27% on Portuguese, and 13% on French.
- Abstract(参考訳): ストリームエンドツーエンド自動音声認識(ASR)システムは、音声をテキストにリアルタイムに書き起こす必要がある日常的なアプリケーションで広く使われている。
レイテンシの最小化は、そのようなタスクに適している。
ストリーミング以外のモデルと異なり、ストリーミングモデルは将来的な文脈では因果関係なく、より高い単語エラー率(WER)に悩まされる。
ストリーミングモデルを改善するために,最近の研究 [1] では教師の非教師モデルと教師の予測を用いて教師モデルを訓練することを提案した。
しかし、教師と学生のWERのパフォーマンス格差は依然として高い。
本稿では,非ストリーミング型教師モデルの多種多様な集合を用いて,認識出力投票誤り低減(ROVER)を用いて,このギャップを埋めることを目的とする。
特に、RNN-Tモデルよりも弱いにもかかわらず、CTCモデルは素晴らしい教師であることを示す。
さらに,RNN-TとCTCモデルを融合させることで,最強の教員を育成する。
結果として得られた学生モデルは、以前の作品のストリーミングモデルによって大幅に改善 [1]: werはスペイン語で41%、ポルトガル語で27%、フランス語で13%減少している。
関連論文リスト
- Exploring and Enhancing the Transfer of Distribution in Knowledge Distillation for Autoregressive Language Models [62.5501109475725]
知識蒸留(KD)は、より小さな学生モデルを模倣するように訓練することで、大きな教師モデルを圧縮する技術である。
本稿では、教師ネットワークが小さなオンラインモジュールを統合し、学生モデルと同時学習するオンライン知識蒸留(OKD)について紹介する。
OKDは、様々なモデルアーキテクチャやサイズにおけるリードメソッドのパフォーマンスを達成または超え、トレーニング時間を最大4倍に短縮する。
論文 参考訳(メタデータ) (2024-09-19T07:05:26Z) - Semi-Autoregressive Streaming ASR With Label Context [70.76222767090638]
本稿では,先行ブロックで出力されたラベルを付加コンテキストとして組み込んだストリーミング「半自己回帰型」ASRモデルを提案する。
実験の結果,既存のストリーミングNARモデルではTedlium2が19%,Librispeech-100が16%/8%,Switchboard(SWB)/Callhome(CH)テストセットが19%/8%であった。
論文 参考訳(メタデータ) (2023-09-19T20:55:58Z) - Knowledge Distillation from Non-streaming to Streaming ASR Encoder using
Auxiliary Non-streaming Layer [14.011579203058574]
ストリーミング自動音声認識(ASR)モデルは、将来のコンテキストへのアクセスを制限する。
非ストリーミングからストリーミングモデルへの知識蒸留(KD)について検討した。
教師エンコーダから生徒エンコーダへの層間KDを提案する。
論文 参考訳(メタデータ) (2023-08-31T02:58:33Z) - Improving Streaming Automatic Speech Recognition With Non-Streaming
Model Distillation On Unsupervised Data [44.48235209327319]
ストリーミングのエンドツーエンド自動音声認識モデルは、スマートスピーカーやデバイス上のアプリケーションで広く利用されている。
教師として非ストリーミング型ASRモデルを活用することによって,新しい効果的な学習手法を提案する。
ストリーミングモデルのトレーニングを、最大300万時間のYouTubeオーディオに拡大しています。
論文 参考訳(メタデータ) (2020-10-22T22:41:33Z) - RNN-T Models Fail to Generalize to Out-of-Domain Audio: Causes and
Solutions [73.45995446500312]
ストリーミングおよび非ストリーミングリカレントニューラルネットワークトランスデューサ(RNN-T)のエンド・ツー・エンドモデルにおける一般化特性を解析した。
トレーニング中に複数の正規化手法を組み合わせる方法と,動的重複推論を用いる方法を提案する。
論文 参考訳(メタデータ) (2020-05-07T06:24:47Z) - A Streaming On-Device End-to-End Model Surpassing Server-Side
Conventional Model Quality and Latency [88.08721721440429]
本稿では,第1パスリカレントニューラルネットワークトランスデューサ(RNN-T)モデルと第2パスリステン,Attend,Spell(LAS)リスコラを開発する。
RNN-T+LASは従来のモデルに比べてWERとレイテンシのトレードオフが優れていることがわかった。
論文 参考訳(メタデータ) (2020-03-28T05:00:33Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。