論文の概要: Interactive Feature Fusion for End-to-End Noise-Robust Speech
Recognition
- arxiv url: http://arxiv.org/abs/2110.05267v1
- Date: Mon, 11 Oct 2021 13:40:07 GMT
- ステータス: 処理完了
- システム内更新日: 2021-10-12 20:50:23.312331
- Title: Interactive Feature Fusion for End-to-End Noise-Robust Speech
Recognition
- Title(参考訳): 終端雑音-ロバスト音声認識のための対話型特徴融合
- Authors: Yuchen Hu, Nana Hou, Chen Chen, Eng Siong Chng
- Abstract要約: 本稿では,ノイズロバスト音声認識のための対話型特徴融合ネットワーク(IFF-Net)を提案する。
実験の結果,提案手法は最良基準値に対して絶対単語誤り率(WER)を4.1%削減できることがわかった。
さらに分析した結果,提案したIFF-Netは,過度に抑圧された拡張機能において欠落した情報を補うことができることがわかった。
- 参考スコア(独自算出の注目度): 25.84784710031567
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Speech enhancement (SE) aims to suppress the additive noise from a noisy
speech signal to improve the speech's perceptual quality and intelligibility.
However, the over-suppression phenomenon in the enhanced speech might degrade
the performance of downstream automatic speech recognition (ASR) task due to
the missing latent information. To alleviate such problem, we propose an
interactive feature fusion network (IFF-Net) for noise-robust speech
recognition to learn complementary information from the enhanced feature and
original noisy feature. Experimental results show that the proposed method
achieves absolute word error rate (WER) reduction of 4.1% over the best
baseline on RATS Channel-A corpus. Our further analysis indicates that the
proposed IFF-Net can complement some missing information in the over-suppressed
enhanced feature.
- Abstract(参考訳): 音声強調(SE)は、雑音の多い音声信号から付加的な雑音を抑え、音声の知覚的品質と知性を改善することを目的としている。
しかし, 拡張音声における過剰抑圧現象は, 潜在情報の欠如により, 下流自動音声認識(asr)タスクの性能を低下させる可能性がある。
このような問題を緩和するために,ノイズロスト音声認識のための対話型特徴融合ネットワーク(IFF-Net)を提案し,拡張特徴と元の雑音特徴から補間情報を学習する。
実験の結果,本手法はラットチャネルaコーパスにおいて,最良ベースラインよりも4.1%の絶対単語誤り率 (wer) を低減できることがわかった。
さらに分析した結果,提案したIFF-Netは,過度に抑圧された拡張機能における不足情報を補うことができることがわかった。
関連論文リスト
- TRNet: Two-level Refinement Network leveraging Speech Enhancement for Noise Robust Speech Emotion Recognition [29.756961194844717]
提案したTRNetは,一致した雑音環境と一致しない雑音環境の両方において,提案方式の堅牢性を大幅に向上させる。
その結果,提案方式は,一致した環境と一致しない環境の両方において,提案方式のロバスト性を大幅に向上させることがわかった。
論文 参考訳(メタデータ) (2024-04-19T16:09:17Z) - On the Effectiveness of ASR Representations in Real-world Noisy Speech
Emotion Recognition [26.013815255299342]
音声の感情認識(NSER)を効果的に行う試みを提案する。
ノイズキャンバス特徴抽出器として自動音声認識(ASR)モデルを採用し,雑音の多い音声の非音声情報を除去する。
実験の結果,提案手法は従来のノイズ低減法に比べてNSER性能が向上し,2)自己教師あり学習手法よりも優れ,3)ASR文字起こしや音声音声の真理書き起こしによるテキストベースアプローチよりも優れていた。
論文 参考訳(メタデータ) (2023-11-13T05:45:55Z) - Audio-visual End-to-end Multi-channel Speech Separation, Dereverberation
and Recognition [52.11964238935099]
本稿では,音声-視覚的多チャンネル音声分離,デバーベレーション,認識手法を提案する。
ビデオ入力は、マスクベースのMVDR音声分離、DNN-WPEまたはスペクトルマッピング(SpecM)ベースの音声残響フロントエンドで一貫して実証される。
オックスフォードLSS2データセットのシミュレーションや再生を用いて合成した重畳および残響音声データについて実験を行った。
論文 参考訳(メタデータ) (2023-07-06T10:50:46Z) - Audio-visual multi-channel speech separation, dereverberation and
recognition [70.34433820322323]
本稿では,音声-視覚的多チャンネル音声分離,デバーベレーション,認識手法を提案する。
音声を用いた場合の視覚的モダリティの利点は、2つのニューラルデバーベレーションアプローチでのみ示される。
LRS2データセットを用いて行った実験から,提案手法がベースラインよりも優れていたことが示唆された。
論文 参考訳(メタデータ) (2022-04-05T04:16:03Z) - Dual-Path Style Learning for End-to-End Noise-Robust Speech Recognition [26.77806246793544]
音声強調(SE)は、ASRの雑音を低減するためにフロントエンドとして導入されるが、重要な音声情報も抑制する。
エンドツーエンドノイズロスト音声認識(DPSL-ASR)のためのデュアルパス型学習手法を提案する。
実験の結果,提案手法はIFF-Netベースラインよりも10.6%,8.6%の相対単語誤り率(WER)の低減を実現している。
論文 参考訳(メタデータ) (2022-03-28T15:21:57Z) - Improving Noise Robustness of Contrastive Speech Representation Learning
with Speech Reconstruction [109.44933866397123]
実環境における音声認識システムの実現には,雑音の堅牢性が不可欠である。
雑音認識のための自己教師型フレームワークにより学習したノイズロスト表現を用いる。
ラベル付きデータのわずか16%で報告された最高の教師付きアプローチに匹敵するパフォーマンスを実現した。
論文 参考訳(メタデータ) (2021-10-28T20:39:02Z) - PL-EESR: Perceptual Loss Based END-TO-END Robust Speaker Representation
Extraction [90.55375210094995]
音声強調は、背景雑音の抑制による音声信号の知覚品質の向上を目的としている。
本稿では,頑健な話者表現抽出のためのエンドツーエンドディープラーニングフレームワークPL-EESRを提案する。
論文 参考訳(メタデータ) (2021-10-03T07:05:29Z) - High Fidelity Speech Regeneration with Application to Speech Enhancement [96.34618212590301]
本稿では,24khz音声をリアルタイムに生成できる音声のwav-to-wav生成モデルを提案する。
音声変換法に着想を得て,音源の同一性を保ちながら音声特性を増強する訓練を行った。
論文 参考訳(メタデータ) (2021-01-31T10:54:27Z) - Gated Recurrent Fusion with Joint Training Framework for Robust
End-to-End Speech Recognition [64.9317368575585]
本稿では,ロバスト・エンド・ツー・エンドASRのためのジョイント・トレーニング・フレームワークを用いたゲート・リカレント・フュージョン(GRF)法を提案する。
GRFアルゴリズムはノイズと拡張された特徴を動的に組み合わせるために使用される。
提案手法は従来の関節強化・変圧器法に比べて10.04%の相対的文字誤り率(CER)低減を実現する。
論文 参考訳(メタデータ) (2020-11-09T08:52:05Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。