論文の概要: Improved Robust ASR for Social Robots in Public Spaces
- arxiv url: http://arxiv.org/abs/2001.04619v1
- Date: Tue, 14 Jan 2020 04:21:18 GMT
- ステータス: 処理完了
- システム内更新日: 2023-01-11 13:18:53.320012
- Title: Improved Robust ASR for Social Robots in Public Spaces
- Title(参考訳): 公共空間における社会ロボットのためのロバストASRの改良
- Authors: Charles Jankowski, Vishwas Mruthyunjaya, Ruixi Lin
- Abstract要約: 既存のASRモデルは、この範囲では高いSNRに対して良好に機能するが、より多くのノイズを伴って大幅に劣化する。
AiShell-1中国語音声コーパスとKaldi ASRツールキットを用いて評価を行う。
SNRは20dB以下で最先端のASR性能を超えることができた。
- 参考スコア(独自算出の注目度): 2.0303656145222857
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Social robots deployed in public spaces present a challenging task for ASR
because of a variety of factors, including noise SNR of 20 to 5 dB. Existing
ASR models perform well for higher SNRs in this range, but degrade considerably
with more noise. This work explores methods for providing improved ASR
performance in such conditions. We use the AiShell-1 Chinese speech corpus and
the Kaldi ASR toolkit for evaluations. We were able to exceed state-of-the-art
ASR performance with SNR lower than 20 dB, demonstrating the feasibility of
achieving relatively high performing ASR with open-source toolkits and hundreds
of hours of training data, which is commonly available.
- Abstract(参考訳): 公共空間に展開する社会ロボットは,20~5dBのノイズSNRを含む様々な要因により,ASRにとって困難な課題となる。
既存のASRモデルは、この範囲では高いSNRに対して良好に機能するが、より多くのノイズで大幅に劣化する。
本研究は,asrの性能向上のための手法について検討する。
AiShell-1中国語音声コーパスとKaldi ASRツールキットを用いて評価を行う。
SNRは20dB未満で最先端のASR性能を超えることができ、オープンソースツールキットと何百時間ものトレーニングデータを用いて比較的高性能なASRを実現することが可能であった。
関連論文リスト
- Transferable Adversarial Attacks against ASR [43.766547483367795]
最先端自動音声認識モデルにおける実用的なブラックボックス攻撃の脆弱性について検討する。
そこで本稿では,ASRに対する音声認識勾配最適化手法(SAGO)を提案する。
総合的な実験結果から,2つのデータベース上の5つのモデルにまたがるベースラインアプローチと比較して,性能が向上したことが明らかとなった。
論文 参考訳(メタデータ) (2024-11-14T06:32:31Z) - Interventional Speech Noise Injection for ASR Generalizable Spoken Language Understanding [26.98755758066905]
我々は、SLUモデルをASRシステムでよく見られる雑音に曝すことにより、ASRエラーに耐えるように訓練する。
本稿では,任意のASRシステムに適用可能な雑音を導入するための,新しい,バイアスの少ない拡張手法を提案する。
論文 参考訳(メタデータ) (2024-10-21T03:13:22Z) - AnySR: Realizing Image Super-Resolution as Any-Scale, Any-Resource [84.74855803555677]
我々はAnySRを導入し、既存の任意のスケールのSRメソッドを任意のソース実装に再構築する。
私たちのAnySRは、1)任意のスケールタスクを任意のリソース実装として構築し、追加のパラメータなしで小さなスケールのリソース要件を減らします。
その結果,AnySR は SISR タスクをより効率的な計算方法で実装し,既存の任意のスケールの SISR メソッドに匹敵する性能を示した。
論文 参考訳(メタデータ) (2024-07-05T04:00:14Z) - Zero-Query Adversarial Attack on Black-box Automatic Speech Recognition Systems [27.281231584238824]
ブラックボックスの敵攻撃は現実世界のASRシステムに重大な脅威をもたらす。
我々は、ASRシステムに対する転送ベースの敵攻撃であるZQ-Attackを提案する。
オーバーザライン設定では、ZQ-Attackは21.91dBの平均信号対雑音比(SNR)で100%の成功率(SRoA)を達成する。
論文 参考訳(メタデータ) (2024-06-27T16:39:36Z) - Exploiting Self-Supervised Constraints in Image Super-Resolution [72.35265021054471]
本稿では,SSC-SRと呼ばれる単一画像超解像のための新しい自己監督制約を提案する。
SSC-SRは、安定性を高めるために指数移動平均によって更新された二重非対称パラダイムとターゲットモデルを用いることで、画像の複雑さのばらつきに一意に対処する。
SSC-SRフレームワークはさまざまなベンチマークデータセットに対して,EDSR平均0.1dB,SwinIR平均0.06dBの大幅な拡張を実現している。
論文 参考訳(メタデータ) (2024-03-30T06:18:50Z) - On the Efficacy and Noise-Robustness of Jointly Learned Speech Emotion
and Automatic Speech Recognition [6.006652562747009]
低リソース環境下でのASR-SER共同学習手法について検討する。
共同学習は、ASRワードエラー率(WER)とSER分類の精度をそれぞれ10.7%と2.3%改善することができる。
全体として、共同ASR-SERアプローチは独立したASRとSERアプローチよりも耐雑音性のあるモデルとなった。
論文 参考訳(メタデータ) (2023-05-21T18:52:21Z) - Analyzing And Improving Neural Speaker Embeddings for ASR [54.30093015525726]
本稿では,コンバータをベースとしたハイブリッドHMM ASRシステムに,ニューラルスピーカーの埋め込みを統合するための取り組みについて述べる。
話者埋め込みを用いたコンフォーマーベースハイブリッドASRシステムは, SWB 300hでのトレーニングにより, Hub5'00 と Hub5'01 で 9.0% WER を達成する。
論文 参考訳(メタデータ) (2023-01-11T16:56:03Z) - Fine-tuning of Pre-trained End-to-end Speech Recognition with Generative
Adversarial Networks [10.723935272906461]
近年, GAN (Generative Adversarial Network) を用いたエンド・ツー・エンド(E2E) ASRシステムの対戦訓練について検討している。
GAN目標を用いた事前学習型ASRモデルの微調整のための新しいフレームワークを提案する。
提案手法は,ベースラインと従来のGANベースの対戦モデルより優れている。
論文 参考訳(メタデータ) (2021-03-10T17:40:48Z) - Dual-mode ASR: Unify and Improve Streaming ASR with Full-context
Modeling [76.43479696760996]
本稿では,ストリーミングとフルコンテキスト音声認識の両方に共通重みを持つ単一エンドツーエンドのASRモデルをトレーニングするための統合フレームワークであるDual-mode ASRを提案する。
そこで本研究では,ストリーミングASRのレイテンシと精度が,重み共有とフルコンテキストASRの連成訓練のメリットを顕著に示す。
論文 参考訳(メタデータ) (2020-10-12T21:12:56Z) - Improving noise robust automatic speech recognition with single-channel
time-domain enhancement network [100.1041336974175]
単一チャネルの時間領域分割手法により,ASRの性能が大幅に向上することを示す。
単一チャネル雑音の低減はASR性能を向上できることを示す。
論文 参考訳(メタデータ) (2020-03-09T09:36:31Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。