論文の概要: Wav2code: Restore Clean Speech Representations via Codebook Lookup for Noise-Robust ASR
- arxiv url: http://arxiv.org/abs/2304.04974v3
- Date: Thu, 18 Apr 2024 06:39:57 GMT
- ステータス: 処理完了
- システム内更新日: 2024-04-19 14:38:58.505505
- Title: Wav2code: Restore Clean Speech Representations via Codebook Lookup for Noise-Robust ASR
- Title(参考訳): Wav2code: ノイズキャンバスASRのためのコードブック検索によるクリーンな音声表現の復元
- Authors: Yuchen Hu, Chen Chen, Qiushi Zhu, Eng Siong Chng,
- Abstract要約: ノイズロスASRの歪みを低減した特徴レベルSEを実装するために,Wav2codeという自己教師型フレームワークを提案する。
そこで本研究では,入力ノイズ表現のグローバル依存性をモデル化し,クリーンなコードを正確に予測するトランスフォーマーベースのコード予測器を提案する。
合成および実雑音データセットによる実験により、Wav2codeは音声歪みを解消し、様々な雑音条件下でのASR性能を向上させることができることが示された。
- 参考スコア(独自算出の注目度): 35.710735895190844
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Automatic speech recognition (ASR) has gained remarkable successes thanks to recent advances of deep learning, but it usually degrades significantly under real-world noisy conditions. Recent works introduce speech enhancement (SE) as front-end to improve speech quality, which is proved effective but may not be optimal for downstream ASR due to speech distortion problem. Based on that, latest works combine SE and currently popular self-supervised learning (SSL) to alleviate distortion and improve noise robustness. Despite the effectiveness, the speech distortion caused by conventional SE still cannot be cleared out. In this paper, we propose a self-supervised framework named Wav2code to implement a feature-level SE with reduced distortions for noise-robust ASR. First, in pre-training stage the clean speech representations from SSL model are sent to lookup a discrete codebook via nearest-neighbor feature matching, the resulted code sequence are then exploited to reconstruct the original clean representations, in order to store them in codebook as prior. Second, during finetuning we propose a Transformer-based code predictor to accurately predict clean codes by modeling the global dependency of input noisy representations, which enables discovery and restoration of high-quality clean representations with reduced distortions. Furthermore, we propose an interactive feature fusion network to combine original noisy and the restored clean representations to consider both fidelity and quality, resulting in more informative features for downstream ASR. Finally, experiments on both synthetic and real noisy datasets demonstrate that Wav2code can solve the speech distortion and improve ASR performance under various noisy conditions, resulting in stronger robustness.
- Abstract(参考訳): 音声認識(ASR)は近年の深層学習の進歩により顕著な成功を収めているが、現実の雑音下では著しく劣化することが多い。
最近の研究は、音声品質向上のためのフロントエンドとして、音声強調(SE)を導入している。
最新の研究はSEと、現在人気の高い自己教師付き学習(SSL)を組み合わせて、歪みを緩和し、ノイズの堅牢性を改善する。
この効果にもかかわらず、従来のSEによる音声歪みを除去することはできない。
本稿では,ノイズロスASRの歪みを低減した特徴レベルSEを実装するために,Wav2codeという自己教師型フレームワークを提案する。
まず、訓練前の段階でSSLモデルからクリーンな音声表現を送信し、隣り合う特徴マッチングを通じて個別のコードブックを検索し、結果のコードシーケンスを使用して元のクリーンな表現を再構築し、コードブックに予め保存する。
次に, 入力ノイズ表現のグローバル依存性をモデル化し, 歪みを低減した高品質なクリーン表現の発見と復元を可能にするトランスフォーマーベースのコード予測器を提案する。
さらに、元の雑音と復元されたクリーン表現を組み合わせ、忠実度と品質を両立させるインタラクティブな特徴融合ネットワークを提案する。
最後に、合成および実雑音データセットによる実験により、Wav2codeは音声歪みを解消し、様々な雑音条件下でのASR性能を向上させることができ、強い強靭性をもたらすことを示した。
関連論文リスト
- TRNet: Two-level Refinement Network leveraging Speech Enhancement for Noise Robust Speech Emotion Recognition [29.756961194844717]
提案したTRNetは,一致した雑音環境と一致しない雑音環境の両方において,提案方式の堅牢性を大幅に向上させる。
その結果,提案方式は,一致した環境と一致しない環境の両方において,提案方式のロバスト性を大幅に向上させることがわかった。
論文 参考訳(メタデータ) (2024-04-19T16:09:17Z) - Bring the Noise: Introducing Noise Robustness to Pretrained Automatic
Speech Recognition [13.53738829631595]
本稿では,任意のエンコーダ・デコーダアーキテクチャに適用可能なデノナイズ機能を抽出する新しい手法を提案する。
我々はノイズ音声データベース(NSD)で事前プロセッサを訓練し、ノイズ入力から雑音化されたスペクトルを再構成する。
クリーンコーダは音声からノイズをフィルタリングすることができ、雑音条件下で下流モデルのワード誤り率(WER)を改善できることを示す。
論文 参考訳(メタデータ) (2023-09-05T11:34:21Z) - NLIP: Noise-robust Language-Image Pre-training [95.13287735264937]
雑音調和と雑音補完という2つの手法を用いて事前学習の安定化を図るため,NLIPの原理的手法を提案する。
我々のNLIPは、画像テキスト事前学習における一般的なノイズ効果をより効率的に軽減することができる。
論文 参考訳(メタデータ) (2022-12-14T08:19:30Z) - Self-Supervised Learning for Speech Enhancement through Synthesis [5.924928860260821]
そこで本研究では,ボコーダが雑音表現を受け入れ,クリーンな音声を直接合成する方法を学習する,デノナイズドボコーダ(DeVo)アプローチを提案する。
10msのレイテンシとパフォーマンスの低下を最小限に抑えながら,ストリーミングオーディオ上で動作可能な因果バージョンを実証した。
論文 参考訳(メタデータ) (2022-11-04T16:06:56Z) - Discretization and Re-synthesis: an alternative method to solve the
Cocktail Party Problem [65.25725367771075]
この研究は、初めて合成に基づくアプローチがこの問題にうまく対応できることを示した。
具体的には,離散シンボルの認識に基づく音声分離/強調モデルを提案する。
離散シンボルの入力による合成モデルを利用することで、離散シンボル列の予測後、各ターゲット音声を再合成することができる。
論文 参考訳(メタデータ) (2021-12-17T08:35:40Z) - Improving Noise Robustness of Contrastive Speech Representation Learning
with Speech Reconstruction [109.44933866397123]
実環境における音声認識システムの実現には,雑音の堅牢性が不可欠である。
雑音認識のための自己教師型フレームワークにより学習したノイズロスト表現を用いる。
ラベル付きデータのわずか16%で報告された最高の教師付きアプローチに匹敵するパフォーマンスを実現した。
論文 参考訳(メタデータ) (2021-10-28T20:39:02Z) - Wav2vec-Switch: Contrastive Learning from Original-noisy Speech Pairs
for Robust Speech Recognition [52.71604809100364]
音声の文脈化表現に雑音のロバスト性をエンコードするwav2vec-Switchを提案する。
具体的には、オリジナルノイズの多い音声ペアを同時にwav2vec 2.0ネットワークに供給する。
既存のコントラスト学習タスクに加えて、原音声と雑音音声の量子化表現を追加の予測対象に切り替える。
論文 参考訳(メタデータ) (2021-10-11T00:08:48Z) - Variational Autoencoder for Speech Enhancement with a Noise-Aware
Encoder [30.318947721658862]
本稿では,ノイズ対応エンコーダを用いて,学習段階での雑音情報を含むことを提案する。
提案するノイズ認識vaeは,モデルパラメータ数を増加させることなく,全体的な歪みの観点から標準vaeを上回っている。
論文 参考訳(メタデータ) (2021-02-17T11:40:42Z) - Dual Adversarial Network: Toward Real-world Noise Removal and Noise
Generation [52.75909685172843]
実世界の画像ノイズ除去は、コンピュータビジョンにおける長年の課題である。
本稿では,ノイズ除去およびノイズ発生タスクに対処する新しい統合フレームワークを提案する。
本手法はクリーンノイズ画像対の連成分布を学習する。
論文 参考訳(メタデータ) (2020-07-12T09:16:06Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。