論文の概要: Improving Streaming Automatic Speech Recognition With Non-Streaming
Model Distillation On Unsupervised Data
- arxiv url: http://arxiv.org/abs/2010.12096v2
- Date: Sun, 21 Feb 2021 21:56:06 GMT
- ステータス: 処理完了
- システム内更新日: 2022-10-04 07:43:41.818541
- Title: Improving Streaming Automatic Speech Recognition With Non-Streaming
Model Distillation On Unsupervised Data
- Title(参考訳): 非教師なしデータを用いた非ストリーミングモデル蒸留によるストリーミング自動音声認識の改善
- Authors: Thibault Doutre, Wei Han, Min Ma, Zhiyun Lu, Chung-Cheng Chiu, Ruoming
Pang, Arun Narayanan, Ananya Misra, Yu Zhang, Liangliang Cao
- Abstract要約: ストリーミングのエンドツーエンド自動音声認識モデルは、スマートスピーカーやデバイス上のアプリケーションで広く利用されている。
教師として非ストリーミング型ASRモデルを活用することによって,新しい効果的な学習手法を提案する。
ストリーミングモデルのトレーニングを、最大300万時間のYouTubeオーディオに拡大しています。
- 参考スコア(独自算出の注目度): 44.48235209327319
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Streaming end-to-end automatic speech recognition (ASR) models are widely
used on smart speakers and on-device applications. Since these models are
expected to transcribe speech with minimal latency, they are constrained to be
causal with no future context, compared to their non-streaming counterparts.
Consequently, streaming models usually perform worse than non-streaming models.
We propose a novel and effective learning method by leveraging a non-streaming
ASR model as a teacher to generate transcripts on an arbitrarily large data
set, which is then used to distill knowledge into streaming ASR models. This
way, we scale the training of streaming models to up to 3 million hours of
YouTube audio. Experiments show that our approach can significantly reduce the
word error rate (WER) of RNNT models not only on LibriSpeech but also on
YouTube data in four languages. For example, in French, we are able to reduce
the WER by 16.4% relatively to a baseline streaming model by leveraging a
non-streaming teacher model trained on the same amount of labeled data as the
baseline.
- Abstract(参考訳): ストリーミングエンドツーエンド自動音声認識(ASR)モデルは、スマートスピーカーやオンデバイスアプリケーションで広く利用されている。
これらのモデルは音声を最小限のレイテンシで書き起こすことが期待されているため、非ストリーミングモデルと比較して、将来の文脈では因果関係がないことが制約される。
その結果、ストリーミングモデルは通常、非ストリーミングモデルよりもパフォーマンスが悪くなります。
教師として非ストリーミング型asrモデルを利用して任意の規模のデータセットに書き起こしを生成し,その知識をストリーミングasrモデルに蒸留することで,新しい効果的な学習方法を提案する。
これにより、ストリーミングモデルのトレーニングを最大300万時間YouTubeオーディオに拡大します。
実験により, RNNTモデルの単語誤り率(WER)は, LibriSpeech だけでなく, 4言語でのYouTubeデータにも著しく低減できることがわかった。
例えば、フランス語では、ベースラインと同じラベル付きデータに基づいてトレーニングされた非ストリーミング教師モデルを利用することで、WERをベースラインストリーミングモデルと比較して16.4%削減することができる。
関連論文リスト
- Fast Streaming Transducer ASR Prototyping via Knowledge Distillation with Whisper [3.717584661565119]
我々は,ストリーミングトランスフォーマー・トランスデューサ(TT)モデルを,教師付きデータなしでゼロからトレーニングできることを実証した。
これにより、1つの段階で堅牢なASRモデルをトレーニングでき、大きなデータと計算予算を必要としない。
The proposed framework on 6 languages from CommonVoice and proposed multiple filters to filter out hallucinated PLs。
論文 参考訳(メタデータ) (2024-09-20T13:38:59Z) - Pheme: Efficient and Conversational Speech Generation [52.34331755341856]
我々は,コンパクトだが高性能な会話型TSモデルを提供するPhemeモデルシリーズを紹介する。
小規模の会話データで効率的にトレーニングでき、データ要求を10倍に削減できるが、自動回帰的TSモデルの品質にマッチする。
論文 参考訳(メタデータ) (2024-01-05T14:47:20Z) - Semi-Autoregressive Streaming ASR With Label Context [70.76222767090638]
本稿では,先行ブロックで出力されたラベルを付加コンテキストとして組み込んだストリーミング「半自己回帰型」ASRモデルを提案する。
実験の結果,既存のストリーミングNARモデルではTedlium2が19%,Librispeech-100が16%/8%,Switchboard(SWB)/Callhome(CH)テストセットが19%/8%であった。
論文 参考訳(メタデータ) (2023-09-19T20:55:58Z) - Unsupervised Pre-Training For Data-Efficient Text-to-Speech On Low
Resource Languages [15.32264927462068]
そこで本研究では,大容量の非転写音声データを利用したシーケンス・ツー・シーケンスTSモデルの教師なし事前学習手法を提案する。
主なアイデアは、歪んだものから切り離されたメル・スペクトログラムを再構築するモデルを事前訓練することである。
低リソース言語シナリオにおける提案手法の有効性を実証的に実証した。
論文 参考訳(メタデータ) (2023-03-28T01:26:00Z) - Dual Learning for Large Vocabulary On-Device ASR [64.10124092250128]
デュアル・ラーニング(英: Dual learning)は、教師なしのデータを一度に2つの逆のタスクを解くことによって活用しようとする、半教師なし機械学習のパラダイムである。
本稿では,Librispeech全体をトレーニングしたオンデバイスサイズのストリーミングコンバータの解析を行い,LMを使わずにWERを10.7%/5.2%,LMを11.7%/16.4%改善したことを示す。
論文 参考訳(メタデータ) (2023-01-11T06:32:28Z) - Distributionally Robust Recurrent Decoders with Random Network
Distillation [93.10261573696788]
本稿では,自動回帰言語モデルが推論中にOODコンテキストを無視できるように,ランダムネットワーク蒸留を用いたOOD検出に基づく手法を提案する。
提案手法をGRUアーキテクチャに適用し,複数の言語モデリング(LM)データセットの改善を実証する。
論文 参考訳(メタデータ) (2021-10-25T19:26:29Z) - Bridging the gap between streaming and non-streaming ASR systems
bydistilling ensembles of CTC and RNN-T models [34.002281923671795]
エンドツーエンドの自動音声認識システムは、リアルタイムに音声をテキストに書き起こす必要がある日常的なアプリケーションで広く利用されている。
ストリーミング以外のモデルとは異なり、ストリーミングモデルは将来的なコンテキストのない因果として制約され、高いワードエラー率(wer)を被る。
ストリーミングモデルを改善するために,教師の予測を用いて教師なし発話の非ストリーミング教師モデルを抽出し,ストリーミング学生を訓練する手法を提案する。
本稿では,非ストリーミング教師モデルの多様化と認識器出力投票誤差低減(r)の併用により,このギャップを解消することを目的とする。
論文 参考訳(メタデータ) (2021-04-25T19:20:34Z) - Efficiently Fusing Pretrained Acoustic and Linguistic Encoders for
Low-resource Speech Recognition [9.732767611907068]
本研究では,前訓練音響エンコーダ(wav2vec2.0)と前訓練言語エンコーダ(bert)をエンドツーエンドasrモデルに融合する。
本モデルは他のエンドツーエンドモデルに比べてcallhomeコーパスの認識性能が(15時間)向上する。
論文 参考訳(メタデータ) (2021-01-17T16:12:44Z) - Audio ALBERT: A Lite BERT for Self-supervised Learning of Audio
Representation [51.37980448183019]
本稿では,自己教師型音声表現モデルの簡易版であるAudio ALBERTを提案する。
我々は、Audio ALBERTが、下流タスクにおいて、これらの巨大なモデルと競合する性能を達成することができることを示す。
探索実験において、潜在表現は、最後の層よりも音素と話者のリッチな情報をエンコードすることがわかった。
論文 参考訳(メタデータ) (2020-05-18T10:42:44Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。