論文の概要: Improved Robust ASR for Social Robots in Public Spaces
- arxiv url: http://arxiv.org/abs/2001.04619v1
- Date: Tue, 14 Jan 2020 04:21:18 GMT
- ステータス: 処理完了
- システム内更新日: 2023-01-11 13:18:53.320012
- Title: Improved Robust ASR for Social Robots in Public Spaces
- Title(参考訳): 公共空間における社会ロボットのためのロバストASRの改良
- Authors: Charles Jankowski, Vishwas Mruthyunjaya, Ruixi Lin
- Abstract要約: 既存のASRモデルは、この範囲では高いSNRに対して良好に機能するが、より多くのノイズを伴って大幅に劣化する。
AiShell-1中国語音声コーパスとKaldi ASRツールキットを用いて評価を行う。
SNRは20dB以下で最先端のASR性能を超えることができた。
- 参考スコア(独自算出の注目度): 2.0303656145222857
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Social robots deployed in public spaces present a challenging task for ASR
because of a variety of factors, including noise SNR of 20 to 5 dB. Existing
ASR models perform well for higher SNRs in this range, but degrade considerably
with more noise. This work explores methods for providing improved ASR
performance in such conditions. We use the AiShell-1 Chinese speech corpus and
the Kaldi ASR toolkit for evaluations. We were able to exceed state-of-the-art
ASR performance with SNR lower than 20 dB, demonstrating the feasibility of
achieving relatively high performing ASR with open-source toolkits and hundreds
of hours of training data, which is commonly available.
- Abstract(参考訳): 公共空間に展開する社会ロボットは,20~5dBのノイズSNRを含む様々な要因により,ASRにとって困難な課題となる。
既存のASRモデルは、この範囲では高いSNRに対して良好に機能するが、より多くのノイズで大幅に劣化する。
本研究は,asrの性能向上のための手法について検討する。
AiShell-1中国語音声コーパスとKaldi ASRツールキットを用いて評価を行う。
SNRは20dB未満で最先端のASR性能を超えることができ、オープンソースツールキットと何百時間ものトレーニングデータを用いて比較的高性能なASRを実現することが可能であった。
関連論文リスト
- ICF-SRSR: Invertible scale-Conditional Function for Self-Supervised
Real-world Single Image Super-Resolution [60.90817228730133]
単一画像超解像(SISR)は、与えられた低解像度(LR)画像を高解像度(HR)にアップサンプリングすることを目的とした課題である。
近年のアプローチは、単純化されたダウンサンプリング演算子によって劣化したシミュレーションLR画像に基づいて訓練されている。
Invertible Scale-Conditional Function (ICF) を提案する。これは入力画像をスケールし、異なるスケール条件で元の入力を復元する。
論文 参考訳(メタデータ) (2023-07-24T12:42:45Z) - On the Efficacy and Noise-Robustness of Jointly Learned Speech Emotion
and Automatic Speech Recognition [6.006652562747009]
低リソース環境下でのASR-SER共同学習手法について検討する。
共同学習は、ASRワードエラー率(WER)とSER分類の精度をそれぞれ10.7%と2.3%改善することができる。
全体として、共同ASR-SERアプローチは独立したASRとSERアプローチよりも耐雑音性のあるモデルとなった。
論文 参考訳(メタデータ) (2023-05-21T18:52:21Z) - End-to-End Speech Recognition: A Survey [68.35707678386949]
本調査の目的は、E2E ASRモデルの分類とそれに対応する改善を提供することである。
E2E ASRのすべての関連する側面は、パフォーマンスとデプロイメントの機会に関する議論を伴う、この作業でカバーされている。
論文 参考訳(メタデータ) (2023-03-03T01:46:41Z) - Analyzing And Improving Neural Speaker Embeddings for ASR [54.30093015525726]
本稿では,コンバータをベースとしたハイブリッドHMM ASRシステムに,ニューラルスピーカーの埋め込みを統合するための取り組みについて述べる。
話者埋め込みを用いたコンフォーマーベースハイブリッドASRシステムは, SWB 300hでのトレーニングにより, Hub5'00 と Hub5'01 で 9.0% WER を達成する。
論文 参考訳(メタデータ) (2023-01-11T16:56:03Z) - Towards Improved Room Impulse Response Estimation for Speech Recognition [53.04440557465013]
遠距離場自動音声認識(ASR)におけるブラインドルームインパルス応答(RIR)推定システムを提案する。
まず、改良されたRIR推定と改善されたASR性能の関連性について、ニューラルネットワークを用いたRIR推定器の評価を行った。
次に、残響音声からRIR特徴を符号化し、符号化された特徴からRIRを構成するGANベースのアーキテクチャを提案する。
論文 参考訳(メタデータ) (2022-11-08T00:40:27Z) - Data Augmentation for Low-Resource Quechua ASR Improvement [2.260916274164351]
ディープラーニングの手法により、英語のASRでは単語エラー率が5%未満のシステムをデプロイできるようになった。
いわゆる低リソース言語では,既存のリソースに基づいて新たなリソースを作成する手法が検討されている。
本稿では,低リソースおよび凝集度言語に対するASRモデルの結果を改善するためのデータ拡張手法について述べる。
論文 参考訳(メタデータ) (2022-07-14T12:49:15Z) - SynthASR: Unlocking Synthetic Data for Speech Recognition [15.292920497489925]
そこで本研究では,ASRモデルトレーニングのためのデータが少ない,あるいは取得が困難なアプリケーションにおいて,合成音声をASRトレーニング(SynthASR)に活用することを提案する。
薬物名認識のための新しい応用のための社内データセットを用いて実験を行ったところ、合成音声を用いたASR RNN-Tモデルのトレーニングにより、新しいアプリケーションの認識性能が65%以上向上した。
論文 参考訳(メタデータ) (2021-06-14T23:26:44Z) - Fine-tuning of Pre-trained End-to-end Speech Recognition with Generative
Adversarial Networks [10.723935272906461]
近年, GAN (Generative Adversarial Network) を用いたエンド・ツー・エンド(E2E) ASRシステムの対戦訓練について検討している。
GAN目標を用いた事前学習型ASRモデルの微調整のための新しいフレームワークを提案する。
提案手法は,ベースラインと従来のGANベースの対戦モデルより優れている。
論文 参考訳(メタデータ) (2021-03-10T17:40:48Z) - Dual-mode ASR: Unify and Improve Streaming ASR with Full-context
Modeling [76.43479696760996]
本稿では,ストリーミングとフルコンテキスト音声認識の両方に共通重みを持つ単一エンドツーエンドのASRモデルをトレーニングするための統合フレームワークであるDual-mode ASRを提案する。
そこで本研究では,ストリーミングASRのレイテンシと精度が,重み共有とフルコンテキストASRの連成訓練のメリットを顕著に示す。
論文 参考訳(メタデータ) (2020-10-12T21:12:56Z) - Improving noise robust automatic speech recognition with single-channel
time-domain enhancement network [100.1041336974175]
単一チャネルの時間領域分割手法により,ASRの性能が大幅に向上することを示す。
単一チャネル雑音の低減はASR性能を向上できることを示す。
論文 参考訳(メタデータ) (2020-03-09T09:36:31Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。