論文の概要: Improving noise robust automatic speech recognition with single-channel
time-domain enhancement network
- arxiv url: http://arxiv.org/abs/2003.03998v1
- Date: Mon, 9 Mar 2020 09:36:31 GMT
- ステータス: 処理完了
- システム内更新日: 2022-12-25 09:36:43.335580
- Title: Improving noise robust automatic speech recognition with single-channel
time-domain enhancement network
- Title(参考訳): 単チャネル時間領域拡張ネットワークによる雑音ロバスト自動音声認識の改善
- Authors: Keisuke Kinoshita, Tsubasa Ochiai, Marc Delcroix, Tomohiro Nakatani
- Abstract要約: 単一チャネルの時間領域分割手法により,ASRの性能が大幅に向上することを示す。
単一チャネル雑音の低減はASR性能を向上できることを示す。
- 参考スコア(独自算出の注目度): 100.1041336974175
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: With the advent of deep learning, research on noise-robust automatic speech
recognition (ASR) has progressed rapidly. However, ASR performance in noisy
conditions of single-channel systems remains unsatisfactory. Indeed, most
single-channel speech enhancement (SE) methods (denoising) have brought only
limited performance gains over state-of-the-art ASR back-end trained on
multi-condition training data. Recently, there has been much research on neural
network-based SE methods working in the time-domain showing levels of
performance never attained before. However, it has not been established whether
the high enhancement performance achieved by such time-domain approaches could
be translated into ASR. In this paper, we show that a single-channel
time-domain denoising approach can significantly improve ASR performance,
providing more than 30 % relative word error reduction over a strong ASR
back-end on the real evaluation data of the single-channel track of the CHiME-4
dataset. These positive results demonstrate that single-channel noise reduction
can still improve ASR performance, which should open the door to more research
in that direction.
- Abstract(参考訳): ディープラーニングの出現に伴い,ノイズロスト音声認識(ASR)の研究が急速に進んでいる。
しかし,単一チャネルシステムの雑音条件下でのASR性能は相容れない。
実際、ほとんどのシングルチャネル音声強調法(SE)は、マルチコンディショントレーニングデータに基づいてトレーニングされた最先端のASRバックエンドよりも、限られた性能向上しか得られていない。
近年、ニューラルネットワークベースのseメソッドは、これまで達成されたことのないパフォーマンスレベルを示す時間領域で動作するという多くの研究がなされている。
しかし、そのような時間領域アプローチによって達成された高い向上性能がASRに変換できるかどうかは定かではない。
本稿では,CHiME-4データセットの単一チャネルトラックの実際の評価データに基づいて,強力なASRバックエンド上での単語誤り率を30%以上削減し,単一チャネル時間領域デノベート手法によりASR性能を著しく向上させることができることを示す。
これらの肯定的な結果は、シングルチャネルノイズ低減がasr性能を改善できることを示している。
関連論文リスト
- On the Effectiveness of ASR Representations in Real-world Noisy Speech
Emotion Recognition [26.013815255299342]
音声の感情認識(NSER)を効果的に行う試みを提案する。
ノイズキャンバス特徴抽出器として自動音声認識(ASR)モデルを採用し,雑音の多い音声の非音声情報を除去する。
実験の結果,提案手法は従来のノイズ低減法に比べてNSER性能が向上し,2)自己教師あり学習手法よりも優れ,3)ASR文字起こしや音声音声の真理書き起こしによるテキストベースアプローチよりも優れていた。
論文 参考訳(メタデータ) (2023-11-13T05:45:55Z) - Speech enhancement with frequency domain auto-regressive modeling [34.55703785405481]
遠距離実環境における音声アプリケーションは、残響によって破損した信号を扱うことが多い。
本稿では,音声品質と自動音声認識(ASR)性能を向上させるために,音声認識の統一的枠組みを提案する。
論文 参考訳(メタデータ) (2023-09-24T03:25:51Z) - On the Efficacy and Noise-Robustness of Jointly Learned Speech Emotion
and Automatic Speech Recognition [6.006652562747009]
低リソース環境下でのASR-SER共同学習手法について検討する。
共同学習は、ASRワードエラー率(WER)とSER分類の精度をそれぞれ10.7%と2.3%改善することができる。
全体として、共同ASR-SERアプローチは独立したASRとSERアプローチよりも耐雑音性のあるモデルとなった。
論文 参考訳(メタデータ) (2023-05-21T18:52:21Z) - Fine-tuning Strategies for Faster Inference using Speech Self-Supervised
Models: A Comparative Study [25.58608455210458]
自己教師付き学習(SSL)は、低リソース環境での音声認識(ASR)の性能を大幅に向上させた。
この記事では、SSLエンコーダに必要な計算量を削減するために、微調整中にデプロイされる可能性のあるさまざまなアプローチについて検討する。
論文 参考訳(メタデータ) (2023-03-12T19:52:34Z) - Audio-Visual Efficient Conformer for Robust Speech Recognition [91.3755431537592]
本稿では,近年提案されている高能率コンバータ接続性時間分類アーキテクチャの雑音を,音声と視覚の両方を処理して改善することを提案する。
実験の結果,音声と視覚のモダリティを用いることで,環境騒音の存在下での音声の認識が向上し,トレーニングが大幅に加速し,WERが4倍のトレーニングステップで低下することが確認された。
論文 参考訳(メタデータ) (2023-01-04T05:36:56Z) - Towards Improved Room Impulse Response Estimation for Speech Recognition [53.04440557465013]
遠距離場自動音声認識(ASR)におけるブラインドルームインパルス応答(RIR)推定システムを提案する。
まず、改良されたRIR推定と改善されたASR性能の関連性について、ニューラルネットワークを用いたRIR推定器の評価を行った。
次に、残響音声からRIR特徴を符号化し、符号化された特徴からRIRを構成するGANベースのアーキテクチャを提案する。
論文 参考訳(メタデータ) (2022-11-08T00:40:27Z) - Improving Noise Robustness of Contrastive Speech Representation Learning
with Speech Reconstruction [109.44933866397123]
実環境における音声認識システムの実現には,雑音の堅牢性が不可欠である。
雑音認識のための自己教師型フレームワークにより学習したノイズロスト表現を用いる。
ラベル付きデータのわずか16%で報告された最高の教師付きアプローチに匹敵するパフォーマンスを実現した。
論文 参考訳(メタデータ) (2021-10-28T20:39:02Z) - Time-domain Speech Enhancement with Generative Adversarial Learning [53.74228907273269]
本稿では,TSEGAN(Time-domain Speech Enhancement Generative Adversarial Network)という新しいフレームワークを提案する。
TSEGANは、スケーリング問題を軽減するためのメトリクス評価を備えた時間領域におけるジェネレーション・アドバーサリ・ネットワーク(GAN)の拡張である。
さらに,計量ganの性能を理論的に解析するために,客観的関数マッピングに基づく新しい手法を提案する。
論文 参考訳(メタデータ) (2021-03-30T08:09:49Z) - Deep Speaker Embeddings for Far-Field Speaker Recognition on Short
Utterances [53.063441357826484]
深層話者埋め込みに基づく話者認識システムは,制御条件下での大幅な性能向上を実現している。
制御されていない雑音環境下での短い発話に対する話者検証は、最も困難で要求の高いタスクの1つである。
本稿では,a)環境騒音の有無による遠距離話者検証システムの品質向上,b)短時間発話におけるシステム品質劣化の低減という2つの目標を達成するためのアプローチを提案する。
論文 参考訳(メタデータ) (2020-02-14T13:34:33Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。