論文の概要: Dual-Path Style Learning for End-to-End Noise-Robust Speech Recognition
- arxiv url: http://arxiv.org/abs/2203.14838v1
- Date: Mon, 28 Mar 2022 15:21:57 GMT
- ステータス: 処理完了
- システム内更新日: 2022-03-29 17:44:22.486837
- Title: Dual-Path Style Learning for End-to-End Noise-Robust Speech Recognition
- Title(参考訳): 終端雑音-ロバスト音声認識のためのデュアルパス型学習
- Authors: Yuchen Hu, Nana Hou, Chen Chen, Eng Siong Chng
- Abstract要約: エンドツーエンドノイズロスト自動音声認識(DPSL-ASR)のための新しいデュアルパス型学習法を提案する。
提案するDPSL-ASRアプローチでは,過度に抑圧された情報を回復するために,IFF-Net がデュアルパス入力として,クリーンな機能を導入している。
実験の結果,提案手法は,RATS Channel-AデータセットとCHiME-4 1-Channel Trackデータセットを用いて,相対単語誤り率(WER)を10.6%,8.6%削減できることがわかった。
- 参考スコア(独自算出の注目度): 26.77806246793544
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Noise-robust automatic speech recognition degrades significantly in face of
over-suppression problem, which usually exists in the front-end speech
enhancement module. To alleviate such issue, we propose novel dual-path style
learning for end-to-end noise-robust automatic speech recognition (DPSL-ASR).
Specifically, the proposed DPSL-ASR approach introduces clean feature along
with fused feature by the IFF-Net as dual-path inputs to recover the
over-suppressed information. Furthermore, we propose style learning to learn
abundant details and latent information by mapping fused feature to clean
feature. Besides, we also utilize the consistency loss to minimize the distance
of decoded embeddings between two paths. Experimental results show that the
proposed DPSL-ASR approach achieves relative word error rate (WER) reductions
of 10.6% and 8.6%, on RATS Channel-A dataset and CHiME-4 1-Channel Track
dataset, respectively. The visualizations of intermediate embeddings also
indicate that the proposed DPSL-ASR can learn more details than the best
baseline. Our code implementation is available at Github:
https://github.com/YUCHEN005/DPSL-ASR.
- Abstract(参考訳): ノイズロスト自動音声認識は、通常フロントエンド音声強調モジュールに存在する過剰抑圧問題に直面して大幅に劣化する。
このような問題を緩和するために, エンドツーエンドノイズロスト自動音声認識(DPSL-ASR)のための新しいデュアルパス学習を提案する。
具体的には, DPSL-ASR方式では, IFF-Net をデュアルパス入力として融合したクリーンな特徴を導入し, 過度に抑圧された情報を復元する。
さらに,融通した特徴をクリーンな特徴にマッピングすることで,詳細な情報や潜伏情報を学ぶためのスタイル学習を提案する。
さらに,2経路間のデコード埋め込み距離を最小化するために,一貫性損失を利用する。
実験の結果,提案手法は,RATS Channel-AデータセットとCHiME-4 1-Channel Trackデータセットを用いて,相対単語誤り率(WER)を10.6%,8.6%削減できることがわかった。
中間埋め込みの可視化は、提案したDPSL-ASRが最良のベースラインよりも詳細を学習できることを示唆している。
私たちのコード実装はgithubで利用可能です。
関連論文リスト
- Audio-visual End-to-end Multi-channel Speech Separation, Dereverberation
and Recognition [52.11964238935099]
本稿では,音声-視覚的多チャンネル音声分離,デバーベレーション,認識手法を提案する。
ビデオ入力は、マスクベースのMVDR音声分離、DNN-WPEまたはスペクトルマッピング(SpecM)ベースの音声残響フロントエンドで一貫して実証される。
オックスフォードLSS2データセットのシミュレーションや再生を用いて合成した重畳および残響音声データについて実験を行った。
論文 参考訳(メタデータ) (2023-07-06T10:50:46Z) - Wav2code: Restore Clean Speech Representations via Codebook Lookup for Noise-Robust ASR [35.710735895190844]
ノイズロスASRの歪みを低減した特徴レベルSEを実装するために,Wav2codeという自己教師型フレームワークを提案する。
そこで本研究では,入力ノイズ表現のグローバル依存性をモデル化し,クリーンなコードを正確に予測するトランスフォーマーベースのコード予測器を提案する。
合成および実雑音データセットによる実験により、Wav2codeは音声歪みを解消し、様々な雑音条件下でのASR性能を向上させることができることが示された。
論文 参考訳(メタデータ) (2023-04-11T04:46:12Z) - Audio-visual multi-channel speech separation, dereverberation and
recognition [70.34433820322323]
本稿では,音声-視覚的多チャンネル音声分離,デバーベレーション,認識手法を提案する。
音声を用いた場合の視覚的モダリティの利点は、2つのニューラルデバーベレーションアプローチでのみ示される。
LRS2データセットを用いて行った実験から,提案手法がベースラインよりも優れていたことが示唆された。
論文 参考訳(メタデータ) (2022-04-05T04:16:03Z) - Improving Noise Robustness of Contrastive Speech Representation Learning
with Speech Reconstruction [109.44933866397123]
実環境における音声認識システムの実現には,雑音の堅牢性が不可欠である。
雑音認識のための自己教師型フレームワークにより学習したノイズロスト表現を用いる。
ラベル付きデータのわずか16%で報告された最高の教師付きアプローチに匹敵するパフォーマンスを実現した。
論文 参考訳(メタデータ) (2021-10-28T20:39:02Z) - Interactive Feature Fusion for End-to-End Noise-Robust Speech
Recognition [25.84784710031567]
本稿では,ノイズロバスト音声認識のための対話型特徴融合ネットワーク(IFF-Net)を提案する。
実験の結果,提案手法は最良基準値に対して絶対単語誤り率(WER)を4.1%削減できることがわかった。
さらに分析した結果,提案したIFF-Netは,過度に抑圧された拡張機能において欠落した情報を補うことができることがわかった。
論文 参考訳(メタデータ) (2021-10-11T13:40:07Z) - Wav2vec-Switch: Contrastive Learning from Original-noisy Speech Pairs
for Robust Speech Recognition [52.71604809100364]
音声の文脈化表現に雑音のロバスト性をエンコードするwav2vec-Switchを提案する。
具体的には、オリジナルノイズの多い音声ペアを同時にwav2vec 2.0ネットワークに供給する。
既存のコントラスト学習タスクに加えて、原音声と雑音音声の量子化表現を追加の予測対象に切り替える。
論文 参考訳(メタデータ) (2021-10-11T00:08:48Z) - Gated Recurrent Fusion with Joint Training Framework for Robust
End-to-End Speech Recognition [64.9317368575585]
本稿では,ロバスト・エンド・ツー・エンドASRのためのジョイント・トレーニング・フレームワークを用いたゲート・リカレント・フュージョン(GRF)法を提案する。
GRFアルゴリズムはノイズと拡張された特徴を動的に組み合わせるために使用される。
提案手法は従来の関節強化・変圧器法に比べて10.04%の相対的文字誤り率(CER)低減を実現する。
論文 参考訳(メタデータ) (2020-11-09T08:52:05Z) - Audio-visual Multi-channel Recognition of Overlapped Speech [79.21950701506732]
本稿では,音声とマルチチャンネルの重なり合う音声認識システムについて述べる。
実験により,提案したマルチチャネルAVSRシステムは,音声のみのASRシステムを最大6.81% (26.83%) ,22.22% (56.87%) の絶対単語誤り率 (WER) で比較した。
論文 参考訳(メタデータ) (2020-05-18T10:31:19Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。