論文の概要: Improving RNN-T ASR Performance with Date-Time and Location Awareness
- arxiv url: http://arxiv.org/abs/2106.06183v1
- Date: Fri, 11 Jun 2021 05:57:30 GMT
- ステータス: 処理完了
- システム内更新日: 2021-06-14 14:13:07.745989
- Title: Improving RNN-T ASR Performance with Date-Time and Location Awareness
- Title(参考訳): 日時と位置認識によるRNN-T ASRの性能向上
- Authors: Swayambhu Nath Ray, Soumyajit Mitra, Raghavendra Bilgi, Sri Garimella
- Abstract要約: 文脈情報を個別に使用すると、ベースラインに対して最大3.48%の性能が向上することを示す。
特定の領域では、これらの文脈信号は最大11.5%の改善を示すが、他の領域では顕著な劣化はない。
以上の結果から,ASRモデルの訓練に限られたデータを用いると,文脈信号により性能が大幅に向上することが示唆された。
- 参考スコア(独自算出の注目度): 6.308539010172309
- License: http://creativecommons.org/licenses/by-nc-sa/4.0/
- Abstract: In this paper, we explore the benefits of incorporating context into a
Recurrent Neural Network (RNN-T) based Automatic Speech Recognition (ASR) model
to improve the speech recognition for virtual assistants. Specifically, we use
meta information extracted from the time at which the utterance is spoken and
the approximate location information to make ASR context aware. We show that
these contextual information, when used individually, improves overall
performance by as much as 3.48% relative to the baseline and when the contexts
are combined, the model learns complementary features and the recognition
improves by 4.62%. On specific domains, these contextual signals show
improvements as high as 11.5%, without any significant degradation on others.
We ran experiments with models trained on data of sizes 30K hours and 10K
hours. We show that the scale of improvement with the 10K hours dataset is much
higher than the one obtained with 30K hours dataset. Our results indicate that
with limited data to train the ASR model, contextual signals can improve the
performance significantly.
- Abstract(参考訳): 本稿では、ニューラルネットワーク(rnn-t)に基づく自動音声認識(asr)モデルにコンテキストを組み込むことによる、仮想アシスタントの音声認識改善の利点について検討する。
具体的には、発話が話される時点から抽出されたメタ情報と、近似位置情報を用いて、ASRコンテキストを認識させる。
これらの文脈情報を個別に使用すると、ベースラインに対して最大3.48%の性能が向上し、コンテキストが組み合わされた場合、相補的な特徴が学習され、認識が4.62%向上することを示す。
特定の領域では、これらの文脈信号は最大11.5%の改善を示し、他の領域では顕著な劣化はない。
私たちは30K時間と10K時間のサイズのデータに基づいてトレーニングされたモデルで実験を行いました。
10K時間データセットによる改善の規模は,30K時間データセットによる改善の規模よりもはるかに高いことを示す。
その結果,asrモデルの学習に限定されたデータを用いることで,文脈信号による性能向上が期待できることがわかった。
関連論文リスト
- Anatomy of Industrial Scale Multilingual ASR [13.491861238522421]
本稿では,アセンブリの産業規模自動音声認識(ASR)システムについて述べる。
本システムは,教師なし(12.5M時間),教師なし(188K時間),疑似ラベル付き(1.6M時間)の4言語を対象とした多様なトレーニングデータセットを活用する。
論文 参考訳(メタデータ) (2024-04-15T14:48:43Z) - Conformer-1: Robust ASR via Large-Scale Semisupervised Bootstrapping [1.7593130415737603]
本稿では,570k時間の音声データを対象としたエンドツーエンド自動音声認識(ASR)モデルを提案する。
我々は、強力なConformer RNN-Tベースラインモデルを用いて、ラベルのない公開データに対して擬似ラベルを生成する。
これらの擬似ラベル付きデータを追加することで、我々の非同期およびリアルタイムモデルでは、相対的なワードエラー率(WER)が11.5%、24.3%向上した。
論文 参考訳(メタデータ) (2024-04-10T20:40:24Z) - BRAVEn: Improving Self-Supervised Pre-training for Visual and Auditory Speech Recognition [72.51848069125822]
本稿では,RAVEn法の拡張であるBRAVEnを提案する。
RAVEnの修正により、BRAVEnは自己教師付き手法で最先端の結果を得ることができる。
以上の結果から,手軽に手軽に利用できる音声視覚データが,コストのかかる書き起こしデータに置き換わる可能性が示唆された。
論文 参考訳(メタデータ) (2024-04-02T16:48:20Z) - Auto-AVSR: Audio-Visual Speech Recognition with Automatic Labels [100.43280310123784]
トレーニングセットのサイズを増大させるために,未ラベルデータセットの自動書き起こしの使用について検討した。
近年の文献的傾向であるトレーニングセットのサイズが大きくなると、ノイズのある書き起こしを用いたにもかかわらずWERが減少することが実証された。
提案手法は,RS2 と LRS3 の AV-ASR 上での最先端性能を実現する。
論文 参考訳(メタデータ) (2023-03-25T00:37:34Z) - Analyzing And Improving Neural Speaker Embeddings for ASR [54.30093015525726]
本稿では,コンバータをベースとしたハイブリッドHMM ASRシステムに,ニューラルスピーカーの埋め込みを統合するための取り組みについて述べる。
話者埋め込みを用いたコンフォーマーベースハイブリッドASRシステムは, SWB 300hでのトレーニングにより, Hub5'00 と Hub5'01 で 9.0% WER を達成する。
論文 参考訳(メタデータ) (2023-01-11T16:56:03Z) - Data Augmentation for Low-Resource Quechua ASR Improvement [2.260916274164351]
ディープラーニングの手法により、英語のASRでは単語エラー率が5%未満のシステムをデプロイできるようになった。
いわゆる低リソース言語では,既存のリソースに基づいて新たなリソースを作成する手法が検討されている。
本稿では,低リソースおよび凝集度言語に対するASRモデルの結果を改善するためのデータ拡張手法について述べる。
論文 参考訳(メタデータ) (2022-07-14T12:49:15Z) - CI-AVSR: A Cantonese Audio-Visual Speech Dataset for In-car Command
Recognition [91.33781557979819]
新しいデータセットであるCantonese In-car Audio-Visual Speech Recognition (CI-AVSR)を導入する。
カントン語話者30人が記録した200の車載コマンドの4,984サンプル(8.3時間)で構成されている。
当社のデータセットのクリーンバージョンと拡張バージョンの両方について、詳細な統計情報を提供しています。
論文 参考訳(メタデータ) (2022-01-11T06:32:12Z) - Robust Self-Supervised Audio-Visual Speech Recognition [29.526786921769613]
本稿では,Audio-Visual HuBERT(AV-HuBERT)に基づく自己教師型音声視覚音声認識フレームワークを提案する。
利用可能な最大のAVSRベンチマークデータセットであるLSS3では、ラベル付きデータの10%未満を使用して、従来の最先端(28.0%対14.1%)よりも50%優れています。
我々のアプローチは、平均して75%以上(25.8%対5.8%)のオーディオベースモデルのWERを削減する。
論文 参考訳(メタデータ) (2022-01-05T18:50:50Z) - Advanced Long-context End-to-end Speech Recognition Using
Context-expanded Transformers [56.56220390953412]
コンフォーメータアーキテクチャを導入することで、精度をさらに向上させ、以前の作業を拡張します。
拡張トランスフォーマーは、最先端のエンドツーエンドのASR性能を提供する。
論文 参考訳(メタデータ) (2021-04-19T16:18:00Z) - Data Augmenting Contrastive Learning of Speech Representations in the
Time Domain [92.50459322938528]
時間領域データ拡張ライブラリであるWavAugmentを紹介します。
また, ピッチ修正, 付加音, 残響の組合せによってCPCの性能が著しく向上することが判明した。
また、時間領域データの増大は、下流の限られた超音素分類タスクを12~15%の確率で改善することを示した。
論文 参考訳(メタデータ) (2020-07-02T09:59:51Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。