論文の概要: Improving Noise Robustness of Contrastive Speech Representation Learning
with Speech Reconstruction
- arxiv url: http://arxiv.org/abs/2110.15430v1
- Date: Thu, 28 Oct 2021 20:39:02 GMT
- ステータス: 処理完了
- システム内更新日: 2021-11-02 00:47:23.806392
- Title: Improving Noise Robustness of Contrastive Speech Representation Learning
with Speech Reconstruction
- Title(参考訳): 音声再構成によるコントラスト表現学習の雑音ロバスト性向上
- Authors: Heming Wang, Yao Qian, Xiaofei Wang, Yiming Wang, Chengyi Wang, Shujie
Liu, Takuya Yoshioka, Jinyu Li and DeLiang Wang
- Abstract要約: 実環境における音声認識システムの実現には,雑音の堅牢性が不可欠である。
雑音認識のための自己教師型フレームワークにより学習したノイズロスト表現を用いる。
ラベル付きデータのわずか16%で報告された最高の教師付きアプローチに匹敵するパフォーマンスを実現した。
- 参考スコア(独自算出の注目度): 109.44933866397123
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Noise robustness is essential for deploying automatic speech recognition
(ASR) systems in real-world environments. One way to reduce the effect of noise
interference is to employ a preprocessing module that conducts speech
enhancement, and then feed the enhanced speech to an ASR backend. In this work,
instead of suppressing background noise with a conventional cascaded pipeline,
we employ a noise-robust representation learned by a refined self-supervised
framework for noisy speech recognition. We propose to combine a reconstruction
module with contrastive learning and perform multi-task continual pre-training
on noisy data. The reconstruction module is used for auxiliary learning to
improve the noise robustness of the learned representation and thus is not
required during inference. Experiments demonstrate the effectiveness of our
proposed method. Our model substantially reduces the word error rate (WER) for
the synthesized noisy LibriSpeech test sets, and yields around 4.1/7.5% WER
reduction on noisy clean/other test sets compared to data augmentation. For the
real-world noisy speech from the CHiME-4 challenge (1-channel track), we have
obtained the state of the art ASR performance without any denoising front-end.
Moreover, we achieve comparable performance to the best supervised approach
reported with only 16% of labeled data.
- Abstract(参考訳): 自動音声認識(asr)システムを実環境に展開するには,ノイズロバスト性が不可欠である。
雑音干渉の影響を低減する1つの方法は、音声強調を行う前処理モジュールを使用して、拡張された音声をasrバックエンドに供給することである。
本研究では,従来のカスケードパイプラインでは背景雑音を抑圧する代わりに,ノイズロバスト表現を雑音音声認識のための改良された自己教師付きフレームワークで学習する。
コントラスト学習と再構成モジュールを組み合わせることで,雑音データに対するマルチタスク連続事前学習を実現する。
レコンストラクションモジュールは、学習表現の雑音ロバスト性を改善するために補助学習に使用され、推論の間は不要である。
提案手法の有効性を示す実験を行った。
本モデルは,合成雑音リブリスピーチテストセットの単語誤り率(wer)を実質的に低減し,データ拡張に比べてノイズクリーン/その他テストセットの約4.1/7.5%低減する。
また,CHiME-4チャレンジ(1チャンネルトラック)による実環境雑音音声に対して,最先端の雑音を伴わずに,アートASR演奏の状態を把握した。
さらに,ラベル付きデータのわずか16%で報告された最善の教師付きアプローチと同等の性能を達成できた。
関連論文リスト
- TRNet: Two-level Refinement Network leveraging Speech Enhancement for Noise Robust Speech Emotion Recognition [29.756961194844717]
提案したTRNetは,一致した雑音環境と一致しない雑音環境の両方において,提案方式の堅牢性を大幅に向上させる。
その結果,提案方式は,一致した環境と一致しない環境の両方において,提案方式のロバスト性を大幅に向上させることがわかった。
論文 参考訳(メタデータ) (2024-04-19T16:09:17Z) - On the Effectiveness of ASR Representations in Real-world Noisy Speech
Emotion Recognition [26.013815255299342]
音声の感情認識(NSER)を効果的に行う試みを提案する。
ノイズキャンバス特徴抽出器として自動音声認識(ASR)モデルを採用し,雑音の多い音声の非音声情報を除去する。
実験の結果,提案手法は従来のノイズ低減法に比べてNSER性能が向上し,2)自己教師あり学習手法よりも優れ,3)ASR文字起こしや音声音声の真理書き起こしによるテキストベースアプローチよりも優れていた。
論文 参考訳(メタデータ) (2023-11-13T05:45:55Z) - Continuous Modeling of the Denoising Process for Speech Enhancement
Based on Deep Learning [61.787485727134424]
状態変数をデノナイジングプロセスを示すために使用します。
UNetのようなニューラルネットワークは、連続的復調プロセスからサンプリングされたすべての状態変数を推定することを学ぶ。
実験結果から, クリーンターゲットに少量の雑音を保存することは, 音声強調に有効であることが示唆された。
論文 参考訳(メタデータ) (2023-09-17T13:27:11Z) - Unifying Speech Enhancement and Separation with Gradient Modulation for
End-to-End Noise-Robust Speech Separation [23.758202121043805]
本稿では,音声の強調と分離を勾配変調で統一し,ノイズ・ロバスト性を改善する新しいネットワークを提案する。
実験結果から,大規模Libri2Mix-およびLibri3Mix-noisyデータセットの最先端化が得られた。
論文 参考訳(メタデータ) (2023-02-22T03:54:50Z) - NLIP: Noise-robust Language-Image Pre-training [95.13287735264937]
雑音調和と雑音補完という2つの手法を用いて事前学習の安定化を図るため,NLIPの原理的手法を提案する。
我々のNLIPは、画像テキスト事前学習における一般的なノイズ効果をより効率的に軽減することができる。
論文 参考訳(メタデータ) (2022-12-14T08:19:30Z) - Inference and Denoise: Causal Inference-based Neural Speech Enhancement [83.4641575757706]
本研究では、雑音の存在を介入としてモデル化することにより、因果推論パラダイムにおける音声強調(SE)課題に対処する。
提案した因果推論に基づく音声強調(CISE)は,ノイズ検出器を用いて間欠雑音音声中のクリーンフレームとノイズフレームを分離し,両フレームセットを2つのマスクベース拡張モジュール(EM)に割り当て,ノイズ条件SEを実行する。
論文 参考訳(メタデータ) (2022-11-02T15:03:50Z) - On monoaural speech enhancement for automatic recognition of real noisy
speech using mixture invariant training [33.79711018198589]
既存の混合不変訓練基準を拡張して、未ペア音声と実雑音データの両方を利用する。
実雑音音声から分離した音声の品質を向上させるためには, 未ペアクリーン音声が不可欠であることがわかった。
提案手法は、処理成果物を軽減するために、処理された信号と処理されていない信号のリミックスも行う。
論文 参考訳(メタデータ) (2022-05-03T19:37:58Z) - Wav2vec-Switch: Contrastive Learning from Original-noisy Speech Pairs
for Robust Speech Recognition [52.71604809100364]
音声の文脈化表現に雑音のロバスト性をエンコードするwav2vec-Switchを提案する。
具体的には、オリジナルノイズの多い音声ペアを同時にwav2vec 2.0ネットワークに供給する。
既存のコントラスト学習タスクに加えて、原音声と雑音音声の量子化表現を追加の予測対象に切り替える。
論文 参考訳(メタデータ) (2021-10-11T00:08:48Z) - PL-EESR: Perceptual Loss Based END-TO-END Robust Speaker Representation
Extraction [90.55375210094995]
音声強調は、背景雑音の抑制による音声信号の知覚品質の向上を目的としている。
本稿では,頑健な話者表現抽出のためのエンドツーエンドディープラーニングフレームワークPL-EESRを提案する。
論文 参考訳(メタデータ) (2021-10-03T07:05:29Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。