論文の概要: Noise-robust Speech Recognition with 10 Minutes Unparalleled In-domain
Data
- arxiv url: http://arxiv.org/abs/2203.15321v1
- Date: Tue, 29 Mar 2022 08:06:01 GMT
- ステータス: 処理完了
- システム内更新日: 2022-03-31 03:21:20.393397
- Title: Noise-robust Speech Recognition with 10 Minutes Unparalleled In-domain
Data
- Title(参考訳): 10分間のドメイン内データによるノイズロスト音声認識
- Authors: Chen Chen, Nana Hou, Yuchen Hu, Shashank Shirol, Eng Siong Chng
- Abstract要約: クリーンスペクトル(Simu-GAN)からノイズスペクトルをシミュレートする生成逆ネットワークを提案する。
また、雑音条件下でのシステムの堅牢性を改善するために、デュアルパス音声認識システムを提案する。
- 参考スコア(独自算出の注目度): 24.512424190830828
- License: http://creativecommons.org/publicdomain/zero/1.0/
- Abstract: Noise-robust speech recognition systems require large amounts of training
data including noisy speech data and corresponding transcripts to achieve
state-of-the-art performances in face of various practical environments.
However, such plenty of in-domain data is not always available in the real-life
world. In this paper, we propose a generative adversarial network to simulate
noisy spectrum from the clean spectrum (Simu-GAN), where only 10 minutes of
unparalleled in-domain noisy speech data is required as labels. Furthermore, we
also propose a dual-path speech recognition system to improve the robustness of
the system under noisy conditions. Experimental results show that the proposed
speech recognition system achieves 7.3% absolute improvement with simulated
noisy data by Simu-GAN over the best baseline in terms of word error rate
(WER).
- Abstract(参考訳): 騒音障害音声認識システムでは,様々な実践環境下での最先端の性能を達成するために,雑音の多い音声データや対応する文字起こしを含む大量の訓練データを必要とする。
しかし、そのようなドメイン内のデータは現実の世界では必ずしも利用できない。
そこで,本稿では,クリーンスペクトル(simu-gan)からのノイズスペクトルをシミュレートする生成型逆ネットワークを提案する。
さらに,雑音条件下でのシステムの堅牢性を改善するために,デュアルパス音声認識システムを提案する。
実験結果から,Simu-GANによる雑音データを用いて,単語誤り率(WER)の基準値に対して7.3%の絶対的な改善が得られた。
関連論文リスト
- Multilingual Audio-Visual Speech Recognition with Hybrid CTC/RNN-T Fast Conformer [59.57249127943914]
本稿では,複数の改良を加えた多言語音声認識モデルを提案する。
我々は、6つの異なる言語に対する音声視覚訓練データの量を増やし、重複しない多言語データセットの自動書き起こしを生成する。
提案モデルでは, LRS3データセット上での新たな最先端性能を実現し, WERは0.8%に達した。
論文 参考訳(メタデータ) (2024-03-14T01:16:32Z) - Audio-visual End-to-end Multi-channel Speech Separation, Dereverberation
and Recognition [52.11964238935099]
本稿では,音声-視覚的多チャンネル音声分離,デバーベレーション,認識手法を提案する。
ビデオ入力は、マスクベースのMVDR音声分離、DNN-WPEまたはスペクトルマッピング(SpecM)ベースの音声残響フロントエンドで一貫して実証される。
オックスフォードLSS2データセットのシミュレーションや再生を用いて合成した重畳および残響音声データについて実験を行った。
論文 参考訳(メタデータ) (2023-07-06T10:50:46Z) - Direction-Aware Joint Adaptation of Neural Speech Enhancement and
Recognition in Real Multiparty Conversational Environments [21.493664174262737]
本稿では,現実の多人数会話環境における音声コミュニケーションを支援する拡張現実ヘッドセットの雑音音声認識について述べる。
本研究では,高信頼な推定文字を用いたクリーン音声信号とノイズ音声信号を用いて,マスク推定器とASRモデルを実行時に共同で更新する半教師付き適応手法を提案する。
論文 参考訳(メタデータ) (2022-07-15T03:43:35Z) - On monoaural speech enhancement for automatic recognition of real noisy
speech using mixture invariant training [33.79711018198589]
既存の混合不変訓練基準を拡張して、未ペア音声と実雑音データの両方を利用する。
実雑音音声から分離した音声の品質を向上させるためには, 未ペアクリーン音声が不可欠であることがわかった。
提案手法は、処理成果物を軽減するために、処理された信号と処理されていない信号のリミックスも行う。
論文 参考訳(メタデータ) (2022-05-03T19:37:58Z) - Audio-visual multi-channel speech separation, dereverberation and
recognition [70.34433820322323]
本稿では,音声-視覚的多チャンネル音声分離,デバーベレーション,認識手法を提案する。
音声を用いた場合の視覚的モダリティの利点は、2つのニューラルデバーベレーションアプローチでのみ示される。
LRS2データセットを用いて行った実験から,提案手法がベースラインよりも優れていたことが示唆された。
論文 参考訳(メタデータ) (2022-04-05T04:16:03Z) - Improving Speech Recognition on Noisy Speech via Speech Enhancement with
Multi-Discriminators CycleGAN [41.88097793717185]
本稿では,入力音声の雑音を低減するために,複数識別器CycleGANという新しい手法を提案する。
トレーニングデータの均質な部分集合上で複数のジェネレータを訓練することは、訓練データに対して1つのジェネレータを訓練するよりも優れていることを示す。
論文 参考訳(メタデータ) (2021-12-12T19:56:34Z) - Improving Noise Robustness of Contrastive Speech Representation Learning
with Speech Reconstruction [109.44933866397123]
実環境における音声認識システムの実現には,雑音の堅牢性が不可欠である。
雑音認識のための自己教師型フレームワークにより学習したノイズロスト表現を用いる。
ラベル付きデータのわずか16%で報告された最高の教師付きアプローチに匹敵するパフォーマンスを実現した。
論文 参考訳(メタデータ) (2021-10-28T20:39:02Z) - Data Fusion for Audiovisual Speaker Localization: Extending Dynamic
Stream Weights to the Spatial Domain [103.3388198420822]
複数の話者の位置を推定することは、自動音声認識や話者ダイアリゼーションなどのタスクに役立ちます。
本稿では,個別の動的ストリーム重みを特定領域に割り当てることにより,話者定位のための新しい音声視覚データ融合フレームワークを提案する。
オーディオ・ヴィジュアル・レコードを用いた性能評価は,全てのベースラインモデルより優れた融合手法により,有望な結果をもたらす。
論文 参考訳(メタデータ) (2021-02-23T09:59:31Z) - Speech Enhancement for Wake-Up-Word detection in Voice Assistants [60.103753056973815]
キースポッティング、特にWake-Up-Word(WUW)検出は音声アシスタントにとって非常に重要なタスクである。
本稿では,WUW検出に適応した音声強調モデルを提案する。
これらのノイズの存在下で、認識率を高め、誤報を減らすことを目的としている。
論文 参考訳(メタデータ) (2021-01-29T18:44:05Z) - Incorporating Broad Phonetic Information for Speech Enhancement [23.12902068334228]
ノイズの多い環境では、音声の内容を知ることで、聞き手は背景雑音成分をより効果的に抑制することができる。
従来の研究では、音声強調システムに音声情報を組み込むことの利点が確認されている。
本研究は,SEプロセスに広帯域音声クラス(BPC)情報を統合することを提案する。
論文 参考訳(メタデータ) (2020-08-13T09:38:08Z) - Adversarial Feature Learning and Unsupervised Clustering based Speech
Synthesis for Found Data with Acoustic and Textual Noise [18.135965605011105]
注意に基づくシーケンス・ツー・シーケンス(seq2seq)音声合成は、異常な性能を達成している。
このようなSeq2seqシステムをトレーニングするには、手書きによるスタジオ品質のコーパスが必要である。
本稿では,高品質で安定したSeq2seqに基づく音声合成システムの構築手法を提案する。
論文 参考訳(メタデータ) (2020-04-28T15:32:45Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。