論文の概要: RNN-T Models Fail to Generalize to Out-of-Domain Audio: Causes and
Solutions
- arxiv url: http://arxiv.org/abs/2005.03271v3
- Date: Thu, 24 Dec 2020 00:48:31 GMT
- ステータス: 処理完了
- システム内更新日: 2022-12-05 23:41:40.384182
- Title: RNN-T Models Fail to Generalize to Out-of-Domain Audio: Causes and
Solutions
- Title(参考訳): RNN-Tモデルは外部オーディオに一般化できない:原因と解決策
- Authors: Chung-Cheng Chiu, Arun Narayanan, Wei Han, Rohit Prabhavalkar, Yu
Zhang, Navdeep Jaitly, Ruoming Pang, Tara N. Sainath, Patrick Nguyen,
Liangliang Cao, Yonghui Wu
- Abstract要約: ストリーミングおよび非ストリーミングリカレントニューラルネットワークトランスデューサ(RNN-T)のエンド・ツー・エンドモデルにおける一般化特性を解析した。
トレーニング中に複数の正規化手法を組み合わせる方法と,動的重複推論を用いる方法を提案する。
- 参考スコア(独自算出の注目度): 73.45995446500312
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: In recent years, all-neural end-to-end approaches have obtained
state-of-the-art results on several challenging automatic speech recognition
(ASR) tasks. However, most existing works focus on building ASR models where
train and test data are drawn from the same domain. This results in poor
generalization characteristics on mismatched-domains: e.g., end-to-end models
trained on short segments perform poorly when evaluated on longer utterances.
In this work, we analyze the generalization properties of streaming and
non-streaming recurrent neural network transducer (RNN-T) based end-to-end
models in order to identify model components that negatively affect
generalization performance. We propose two solutions: combining multiple
regularization techniques during training, and using dynamic overlapping
inference. On a long-form YouTube test set, when the nonstreaming RNN-T model
is trained with shorter segments of data, the proposed combination improves
word error rate (WER) from 22.3% to 14.8%; when the streaming RNN-T model
trained on short Search queries, the proposed techniques improve WER on the
YouTube set from 67.0% to 25.3%. Finally, when trained on Librispeech, we find
that dynamic overlapping inference improves WER on YouTube from 99.8% to 33.0%.
- Abstract(参考訳): 近年,自律音声認識(ASR)の課題に対して,全神経終末アプローチが最先端の結果を得た。
しかしながら、既存の作業の多くは、同じドメインからトレインとテストデータが引き出されるASRモデルの構築に重点を置いている。
例えば、短いセグメントで訓練されたエンドツーエンドモデルは、長い発話で評価すると性能が低下する。
本研究では,ストリーミングおよび非ストリーミングリカレントニューラルネットワークトランスデューサ(rnn-t)を用いたエンド・ツー・エンドモデルの一般化特性を分析し,一般化性能に悪影響を及ぼすモデルコンポーネントを同定する。
トレーニング中に複数の正規化手法を組み合わせる方法と,動的重複推論を用いる方法を提案する。
長い形式のyoutubeテストセットでは、非ストリーミングrnn-tモデルを短いデータセグメントでトレーニングすると、提案手法は単語誤り率(wer)を22.3%から14.8%に改善し、短い検索クエリでトレーニングされたストリーミングrnn-tモデルでは、youtubeセットのwerを67.0%から25.3%に改善する。
最後に、Librispeechでトレーニングすると、動的重複推論によりYouTube上のWERは99.8%から33.0%に改善される。
関連論文リスト
- Semi-Autoregressive Streaming ASR With Label Context [70.76222767090638]
本稿では,先行ブロックで出力されたラベルを付加コンテキストとして組み込んだストリーミング「半自己回帰型」ASRモデルを提案する。
実験の結果,既存のストリーミングNARモデルではTedlium2が19%,Librispeech-100が16%/8%,Switchboard(SWB)/Callhome(CH)テストセットが19%/8%であった。
論文 参考訳(メタデータ) (2023-09-19T20:55:58Z) - CONVIQT: Contrastive Video Quality Estimator [63.749184706461826]
知覚ビデオ品質評価(VQA)は、多くのストリーミングおよびビデオ共有プラットフォームにおいて不可欠な要素である。
本稿では,視覚的に関連のある映像品質表現を自己指導的に学習する問題について考察する。
本研究は, 自己教師型学習を用いて, 知覚力による説得力のある表現が得られることを示す。
論文 参考訳(メタデータ) (2022-06-29T15:22:01Z) - A Likelihood Ratio based Domain Adaptation Method for E2E Models [10.510472957585646]
Recurrent Neural Networks Transducer (RNN-T)のようなエンドツーエンド(E2E)自動音声認識モデルは、音声アシスタントのようなASRアプリケーションをストリーミングするための一般的な選択肢になりつつある。
E2Eモデルはトレーニング対象のトレーニングデータの表現を学習するのに非常に効果的だが、未確認領域での精度は依然として難しい問題である。
本研究では、テキストデータソースを活用してRNN-Tモデルを新しいドメインやエンティティに適用する、確率比を用いたコンテキストバイアス手法について検討する。
論文 参考訳(メタデータ) (2022-01-10T21:22:39Z) - Multi-turn RNN-T for streaming recognition of multi-party speech [2.899379040028688]
この研究は、モデル設計における第一優先事項としてリアルタイム適用性を求め、マルチスピーカリカレントニューラルネットワークトランスデューサ(MS-RNN-T)に関する以前の研究におけるいくつかの課題に対処する。
トレーニング中に重なり合う音声シミュレーションを導入し、LibriSpeechMixテストセットの相対単語誤り率(WER)を14%改善した。
本稿では,モデルアーキテクチャの変更を伴わずに任意の話者数に一般化する重畳型ターゲットアレンジメント戦略を備えた,新しいマルチターンRNN-T(MT-RNN-T)モデルを提案する。
論文 参考訳(メタデータ) (2021-12-19T17:22:58Z) - Visualising and Explaining Deep Learning Models for Speech Quality
Prediction [0.0]
本稿では,非侵入的音声品質予測モデルであるNISQAについて分析する。
畳み込みニューラルネットワーク(CNN)とリカレントニューラルネットワーク(RNN)から構成される。
論文 参考訳(メタデータ) (2021-12-12T12:50:03Z) - CS-Rep: Making Speaker Verification Networks Embracing
Re-parameterization [27.38202134344989]
本研究では、モデルの推論速度と検証精度を高めるために、CS-Rep(クロスシーケンス再パラメータ化)を提案する。
Rep-TDNNは実際の推論速度を50%向上させ、EERを10%削減する。
論文 参考訳(メタデータ) (2021-10-26T08:00:03Z) - Exploring Deep Hybrid Tensor-to-Vector Network Architectures for
Regression Based Speech Enhancement [53.47564132861866]
我々は、CNN-TTというハイブリッドアーキテクチャが、モデルパラメータを小さくして高品質な性能を維持することができることを見出した。
CNN-TTは、音声品質を改善するために、特徴抽出のために下部に複数の畳み込み層で構成されている。
論文 参考訳(メタデータ) (2020-07-25T22:21:05Z) - Conformer: Convolution-augmented Transformer for Speech Recognition [60.119604551507805]
最近、トランスフォーマーと畳み込みニューラルネットワーク(CNN)に基づくモデルが、自動音声認識(ASR)の有望な結果を示している。
音声認識のための畳み込み拡張変換器,Conformerを提案する。
広く使われているLibriSpeechベンチマークでは、言語モデルを用いずにWERが2.1%/4.3%、テスト/テストの外部言語モデルで1.9%/3.9%を達成した。
論文 参考訳(メタデータ) (2020-05-16T20:56:25Z) - Exploring Pre-training with Alignments for RNN Transducer based
End-to-End Speech Recognition [39.497407288772386]
リカレントニューラルネットワークトランスデューサ(RNN-T)アーキテクチャは、エンドツーエンドの自動音声認識研究において、新たなトレンドとなっている。
本研究では、外部アライメントを活用してRNN-Tモデルをシードする。
エンコーダ事前学習(encoder pre-training)と全ネットワーク事前学習( whole-network pre-training)と呼ばれる2つの異なる事前学習ソリューションが検討されている。
論文 参考訳(メタデータ) (2020-05-01T19:00:57Z) - Towards a Competitive End-to-End Speech Recognition for CHiME-6 Dinner
Party Transcription [73.66530509749305]
本稿では,難しい場合であっても,ハイブリッドベースラインに近い性能を示すエンドツーエンドアプローチについて論じる。
CTC-Attention と RNN-Transducer のアプローチと RNN と Transformer のアーキテクチャを比較し,解析する。
RNN-Transducerをベースとしたベストエンド・ツー・エンドモデルでは、ビームサーチの改善とともに、LF-MMI TDNN-F CHiME-6 Challengeのベースラインよりも品質が3.8%向上した。
論文 参考訳(メタデータ) (2020-04-22T19:08:33Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。