論文の概要: Improving Speech Recognition on Noisy Speech via Speech Enhancement with
Multi-Discriminators CycleGAN
- arxiv url: http://arxiv.org/abs/2112.06309v1
- Date: Sun, 12 Dec 2021 19:56:34 GMT
- ステータス: 処理完了
- システム内更新日: 2021-12-15 07:27:30.555657
- Title: Improving Speech Recognition on Noisy Speech via Speech Enhancement with
Multi-Discriminators CycleGAN
- Title(参考訳): マルチディスクリミネータサイクルGANによる音声強調による雑音音声の音声認識の改善
- Authors: Chia-Yu Li and Ngoc Thang Vu
- Abstract要約: 本稿では,入力音声の雑音を低減するために,複数識別器CycleGANという新しい手法を提案する。
トレーニングデータの均質な部分集合上で複数のジェネレータを訓練することは、訓練データに対して1つのジェネレータを訓練するよりも優れていることを示す。
- 参考スコア(独自算出の注目度): 41.88097793717185
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: This paper presents our latest investigations on improving automatic speech
recognition for noisy speech via speech enhancement. We propose a novel method
named Multi-discriminators CycleGAN to reduce noise of input speech and
therefore improve the automatic speech recognition performance. Our proposed
method leverages the CycleGAN framework for speech enhancement without any
parallel data and improve it by introducing multiple discriminators that check
different frequency areas. Furthermore, we show that training multiple
generators on homogeneous subset of the training data is better than training
one generator on all the training data. We evaluate our method on CHiME-3 data
set and observe up to 10.03% relatively WER improvement on the development set
and up to 14.09% on the evaluation set.
- Abstract(参考訳): 本稿では,音声強調による雑音音声の自動音声認識に関する最近の研究について述べる。
本稿では,入力音声の雑音を低減し,音声認識性能を向上させるために,マルチ識別器CycleGANという新しい手法を提案する。
提案手法は、並列データを持たない音声強調のためのCycleGANフレームワークを活用し、異なる周波数領域をチェックする複数の識別器を導入して改善する。
さらに、トレーニングデータの同種部分集合上で複数のジェネレータを訓練することは、トレーニングデータ全体において1つのジェネレータを訓練するよりも優れていることを示す。
提案手法をCHiME-3データセット上で評価し, 開発環境でのWER改善率を最大10.03%, 評価セットで最大14.09%向上した。
関連論文リスト
- Multilingual Audio-Visual Speech Recognition with Hybrid CTC/RNN-T Fast Conformer [59.57249127943914]
本稿では,複数の改良を加えた多言語音声認識モデルを提案する。
我々は、6つの異なる言語に対する音声視覚訓練データの量を増やし、重複しない多言語データセットの自動書き起こしを生成する。
提案モデルでは, LRS3データセット上での新たな最先端性能を実現し, WERは0.8%に達した。
論文 参考訳(メタデータ) (2024-03-14T01:16:32Z) - Direction-Aware Joint Adaptation of Neural Speech Enhancement and
Recognition in Real Multiparty Conversational Environments [21.493664174262737]
本稿では,現実の多人数会話環境における音声コミュニケーションを支援する拡張現実ヘッドセットの雑音音声認識について述べる。
本研究では,高信頼な推定文字を用いたクリーン音声信号とノイズ音声信号を用いて,マスク推定器とASRモデルを実行時に共同で更新する半教師付き適応手法を提案する。
論文 参考訳(メタデータ) (2022-07-15T03:43:35Z) - On monoaural speech enhancement for automatic recognition of real noisy
speech using mixture invariant training [33.79711018198589]
既存の混合不変訓練基準を拡張して、未ペア音声と実雑音データの両方を利用する。
実雑音音声から分離した音声の品質を向上させるためには, 未ペアクリーン音声が不可欠であることがわかった。
提案手法は、処理成果物を軽減するために、処理された信号と処理されていない信号のリミックスも行う。
論文 参考訳(メタデータ) (2022-05-03T19:37:58Z) - Noise-robust Speech Recognition with 10 Minutes Unparalleled In-domain
Data [24.512424190830828]
クリーンスペクトル(Simu-GAN)からノイズスペクトルをシミュレートする生成逆ネットワークを提案する。
また、雑音条件下でのシステムの堅牢性を改善するために、デュアルパス音声認識システムを提案する。
論文 参考訳(メタデータ) (2022-03-29T08:06:01Z) - Curriculum optimization for low-resource speech recognition [4.803994937990389]
本稿では,学習事例の順序を最適化する自動カリキュラム学習手法を提案する。
様々な雑音条件下で生音声のスコアリング機能として使用できる圧縮比と呼ばれる新しい難易度尺度を導入する。
論文 参考訳(メタデータ) (2022-02-17T19:47:50Z) - Improving Noise Robustness of Contrastive Speech Representation Learning
with Speech Reconstruction [109.44933866397123]
実環境における音声認識システムの実現には,雑音の堅牢性が不可欠である。
雑音認識のための自己教師型フレームワークにより学習したノイズロスト表現を用いる。
ラベル付きデータのわずか16%で報告された最高の教師付きアプローチに匹敵するパフォーマンスを実現した。
論文 参考訳(メタデータ) (2021-10-28T20:39:02Z) - WavLM: Large-Scale Self-Supervised Pre-Training for Full Stack Speech
Processing [102.45426364965887]
そこで本研究では,フルスタックダウンストリーム音声タスクを解決するための,事前学習型モデルWavLMを提案する。
WavLMはHuBERTフレームワークに基づいて構築されており、音声コンテンツモデリングと話者アイデンティティ保存の両方に重点を置いている。
トレーニングデータセットを60k時間から94k時間までの公開オーディオデータにスケールアップし、そのトレーニング手順を最適化して表現抽出を改善する。
論文 参考訳(メタデータ) (2021-10-26T17:55:19Z) - High Fidelity Speech Regeneration with Application to Speech Enhancement [96.34618212590301]
本稿では,24khz音声をリアルタイムに生成できる音声のwav-to-wav生成モデルを提案する。
音声変換法に着想を得て,音源の同一性を保ちながら音声特性を増強する訓練を行った。
論文 参考訳(メタデータ) (2021-01-31T10:54:27Z) - You Do Not Need More Data: Improving End-To-End Speech Recognition by
Text-To-Speech Data Augmentation [59.31769998728787]
我々は、ASRトレーニングデータベース上にTSシステムを構築し、合成音声でデータを拡張し、認識モデルを訓練する。
テストクリーンはWER 4.3%,他のテストクリーンは13.5%で、このシステムはLibriSpeechトレインクリーン100で訓練されたエンドツーエンドASRの競争結果を確立している。
論文 参考訳(メタデータ) (2020-05-14T17:24:57Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。