論文の概要: Input Length Matters: An Empirical Study Of RNN-T And MWER Training For
Long-form Telephony Speech Recognition
- arxiv url: http://arxiv.org/abs/2110.03841v1
- Date: Fri, 8 Oct 2021 00:50:46 GMT
- ステータス: 処理完了
- システム内更新日: 2021-10-11 15:03:42.677792
- Title: Input Length Matters: An Empirical Study Of RNN-T And MWER Training For
Long-form Telephony Speech Recognition
- Title(参考訳): 入力長項目:RNN-TとMWERによる長距離音声認識の実証的研究
- Authors: Zhiyun Lu, Yanwei Pan, Thibault Doutre, Liangliang Cao, Rohit
Prabhavalkar, Chao Zhang, Trevor Strohman
- Abstract要約: 本稿では,RNN-Transducer(RNN-T)モデルの単語誤り率(WER)に及ぼす発話長の訓練効果に関する実証的研究を行う。
ログ損失(RNN-T損失)と最小単語誤り率(MWER損失)の2つのトレーニング目標を比較した。
実験の結果、長文音声におけるWERは、双方の損失に対して、訓練発話の長さが大きくなるにつれて大幅に減少することがわかった。
- 参考スコア(独自算出の注目度): 24.436456958434825
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: End-to-end models have achieved state-of-the-art results on several automatic
speech recognition tasks. However, they perform poorly when evaluated on
long-form data, e.g., minutes long conversational telephony audio. One reason
the model fails on long-form speech is that it has only seen short utterances
during training. This paper presents an empirical study on the effect of
training utterance length on the word error rate (WER) for RNN-transducer
(RNN-T) model. We compare two widely used training objectives, log loss (or
RNN-T loss) and minimum word error rate (MWER) loss. We conduct experiments on
telephony datasets in four languages. Our experiments show that for both
losses, the WER on long-form speech reduces substantially as the training
utterance length increases. The average relative WER gain is 15.7% for log loss
and 8.8% for MWER loss. When training on short utterances, MWER loss leads to a
lower WER than the log loss. Such difference between the two losses diminishes
when the input length increases.
- Abstract(参考訳): エンドツーエンドモデルは、いくつかの自動音声認識タスクにおいて最先端の結果を得た。
しかし、例えば、分長の会話型電話音声など、長文データで評価すると、性能は低下する。
このモデルが長文音声に失敗する理由の1つは、訓練中に短い発話しか見なかったことである。
本稿では,RNN-Transducer(RNN-T)モデルの単語誤り率(WER)に及ぼす発話長の訓練効果に関する実証的研究を行う。
ログ損失(RNN-T損失)と最小単語誤り率(MWER損失)の2つのトレーニング目標を比較した。
4つの言語で電話データセットの実験を行う。
実験の結果, 長文音声におけるwrは, 学習発話長の増加に伴って大幅に減少することがわかった。
平均相対的なWER利得は、ログ損失が15.7%、MWER損失が8.8%である。
短い発話のトレーニングでは、MWER損失はログ損失よりも低いWERにつながる。
この2つの損失の差は、入力長が増加すると減少する。
関連論文リスト
- Audio-Visual Efficient Conformer for Robust Speech Recognition [91.3755431537592]
本稿では,近年提案されている高能率コンバータ接続性時間分類アーキテクチャの雑音を,音声と視覚の両方を処理して改善することを提案する。
実験の結果,音声と視覚のモダリティを用いることで,環境騒音の存在下での音声の認識が向上し,トレーニングが大幅に加速し,WERが4倍のトレーニングステップで低下することが確認された。
論文 参考訳(メタデータ) (2023-01-04T05:36:56Z) - LongFNT: Long-form Speech Recognition with Factorized Neural Transducer [64.75547712366784]
文レベルの長文特徴を語彙予測器の出力と直接融合するLongFNT-Textアーキテクチャを提案する。
また,LongFNT法の有効性を,相対単語誤り率(WER)が19%,GigaSpeechコーパスが12%,LongFNT法が19%であった。
論文 参考訳(メタデータ) (2022-11-17T08:48:27Z) - Random Utterance Concatenation Based Data Augmentation for Improving
Short-video Speech Recognition [20.608636109295354]
エンドツーエンド自動音声認識(ASR)フレームワークの制限の1つは、列車-テスト発話長が一致しない場合、その性能が損なわれることである。
短ビデオASRタスクにおける列車試験発話長ミスマッチ問題を軽減するために,オンザフライランダム発話結合に基づくデータ拡張手法を提案する。
15言語の平均単語誤り率を5.72%削減し、様々な発話長に対する堅牢性を向上させる。
論文 参考訳(メタデータ) (2022-10-28T03:54:57Z) - Incremental Layer-wise Self-Supervised Learning for Efficient Speech
Domain Adaptation On Device [24.21909388395124]
本稿では,モバイル端末上での音声領域適応を効果的に行うための,段階的層単位での自己教師型学習アルゴリズムを提案する。
提案アルゴリズムは、目標ドメイン上のワードエラー率(WER)を、教師付きベースラインよりも24.2%高い価格で取得し、エンドツーエンドの自己教師付き学習アルゴリズムよりも89.7%低いトレーニングメモリを提供する。
論文 参考訳(メタデータ) (2021-10-01T01:22:38Z) - Unsupervised Speech Recognition [55.864459085947345]
wav2vec-Uは、ラベル付きデータなしで音声認識モデルを訓練する方法である。
我々は、自己教師付き音声表現を活用して、ラベルなし音声をセグメント化し、これらの表現から相手の訓練を通して音素へのマッピングを学習する。
より大きな英語のLibrispeechベンチマークでは、wav2vec-Uは、わずか2年前の960時間のラベル付きデータに基づいてトレーニングされた最も優れたシステムに匹敵する、他のテストで5.9の単語エラー率を達成した。
論文 参考訳(メタデータ) (2021-05-24T04:10:47Z) - Deep Time Delay Neural Network for Speech Enhancement with Full Data
Learning [60.20150317299749]
本稿では,全データ学習による音声強調のためのディープタイム遅延ニューラルネットワーク(TDNN)を提案する。
トレーニングデータを完全に活用するために,音声強調のための完全なデータ学習手法を提案する。
論文 参考訳(メタデータ) (2020-11-11T06:32:37Z) - Domain Adversarial Neural Networks for Dysarthric Speech Recognition [21.550420336634726]
本研究では、話者に依存しない音声認識のためのドメイン逆ニューラルネットワーク(DANN)について検討する。
10桁の音声の分類タスクは、生音声を入力としてエンドツーエンドのCNNを用いて行われる。
本稿では,DANNが74.91%の絶対認識率を達成し,ベースラインを12.18%上回る結果を得た。
論文 参考訳(メタデータ) (2020-10-07T19:51:41Z) - A Streaming On-Device End-to-End Model Surpassing Server-Side
Conventional Model Quality and Latency [88.08721721440429]
本稿では,第1パスリカレントニューラルネットワークトランスデューサ(RNN-T)モデルと第2パスリステン,Attend,Spell(LAS)リスコラを開発する。
RNN-T+LASは従来のモデルに比べてWERとレイテンシのトレードオフが優れていることがわかった。
論文 参考訳(メタデータ) (2020-03-28T05:00:33Z) - TLDR: Token Loss Dynamic Reweighting for Reducing Repetitive Utterance
Generation [52.3803408133162]
本稿では、リカレントニューラルネットワーク(RNN)とトランスフォーマーアーキテクチャの両方を用いて、エンコーダデコーダモデルの繰り返し問題について検討する。
ハードトークンの重量を高くし、簡単なトークンの重量を低くすることで、NLGモデルは異なるペースで個々のトークンを学習することができる。
論文 参考訳(メタデータ) (2020-03-26T15:01:37Z) - Leveraging End-to-End Speech Recognition with Neural Architecture Search [0.0]
ニューラルネットワーク最適化により,ディープスピーチモデルの精度を大幅に向上できることを示す。
提案手法は, TIMITコーパスにおける単語誤り率(WER)の7%, TIMITコーパスにおける13%の電話誤り率(PER)の検定誤差を, 最先端の結果と同等に達成する。
論文 参考訳(メタデータ) (2019-12-11T08:15:58Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。