論文の概要: Gated Recurrent Fusion with Joint Training Framework for Robust
End-to-End Speech Recognition
- arxiv url: http://arxiv.org/abs/2011.04249v1
- Date: Mon, 9 Nov 2020 08:52:05 GMT
- ステータス: 処理完了
- システム内更新日: 2022-09-28 02:03:28.017502
- Title: Gated Recurrent Fusion with Joint Training Framework for Robust
End-to-End Speech Recognition
- Title(参考訳): ロバスト終端音声認識のための統合学習フレームワークを用いたGated Recurrent Fusion
- Authors: Cunhang Fan, Jiangyan Yi, Jianhua Tao, Zhengkun Tian, Bin Liu, Zhengqi
Wen
- Abstract要約: 本稿では,ロバスト・エンド・ツー・エンドASRのためのジョイント・トレーニング・フレームワークを用いたゲート・リカレント・フュージョン(GRF)法を提案する。
GRFアルゴリズムはノイズと拡張された特徴を動的に組み合わせるために使用される。
提案手法は従来の関節強化・変圧器法に比べて10.04%の相対的文字誤り率(CER)低減を実現する。
- 参考スコア(独自算出の注目度): 64.9317368575585
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: The joint training framework for speech enhancement and recognition methods
have obtained quite good performances for robust end-to-end automatic speech
recognition (ASR). However, these methods only utilize the enhanced feature as
the input of the speech recognition component, which are affected by the speech
distortion problem. In order to address this problem, this paper proposes a
gated recurrent fusion (GRF) method with joint training framework for robust
end-to-end ASR. The GRF algorithm is used to dynamically combine the noisy and
enhanced features. Therefore, the GRF can not only remove the noise signals
from the enhanced features, but also learn the raw fine structures from the
noisy features so that it can alleviate the speech distortion. The proposed
method consists of speech enhancement, GRF and speech recognition. Firstly, the
mask based speech enhancement network is applied to enhance the input speech.
Secondly, the GRF is applied to address the speech distortion problem. Thirdly,
to improve the performance of ASR, the state-of-the-art speech transformer
algorithm is used as the speech recognition component. Finally, the joint
training framework is utilized to optimize these three components,
simultaneously. Our experiments are conducted on an open-source Mandarin speech
corpus called AISHELL-1. Experimental results show that the proposed method
achieves the relative character error rate (CER) reduction of 10.04\% over the
conventional joint enhancement and transformer method only using the enhanced
features. Especially for the low signal-to-noise ratio (0 dB), our proposed
method can achieves better performances with 12.67\% CER reduction, which
suggests the potential of our proposed method.
- Abstract(参考訳): 音声強調・認識のための合同学習フレームワークは,頑健なエンドツーエンド自動音声認識 (asr) のための優れた性能を得た。
しかし,これらの手法は,音声歪み問題の影響を受けやすい音声認識成分の入力としてのみ,拡張機能を利用する。
この問題に対処するために,ロバストなエンドツーエンドASRのための共同トレーニングフレームワークを備えたゲートリカレント融合(GRF)手法を提案する。
GRFアルゴリズムはノイズと拡張された特徴を動的に組み合わせるために使用される。
したがって、grfは、拡張特徴からノイズ信号を除去するだけでなく、ノイズ特徴から生の微細構造を学習することにより、音声歪みを緩和することができる。
提案手法は, 音声強調, GRF, 音声認識からなる。
まず、マスクベースの音声強調ネットワークを適用して、入力音声を強化する。
次に、GRFを適用して、音声歪み問題に対処する。
第3に,ASRの性能向上のために,音声認識コンポーネントとして最先端の音声トランスフォーマーアルゴリズムを用いる。
最後に、これら3つのコンポーネントを同時に最適化するために、ジョイントトレーニングフレームワークを利用する。
実験はAISHELL-1と呼ばれるオープンソースのマンダリン音声コーパスを用いて行った。
実験結果から,提案手法は従来の関節拡張・変圧器法よりも10.04\%の相対的文字誤り率(CER)の低減を実現していることがわかった。
特に低信号対雑音比 (0 db) の場合, 提案手法は 12.67 % cer 削減による性能向上を達成できるため, 提案手法の可能性を示唆する。
関連論文リスト
- Mixture Encoder Supporting Continuous Speech Separation for Meeting
Recognition [15.610658840718607]
音声分離によって導入された人工物の効果を緩和する混合エンコーダを提案する。
このアプローチを、任意の数の話者と動的重複を含む、より自然なミーティングコンテキストに拡張する。
実験では、LibriCSSデータセット上での最先端のパフォーマンスを示し、混合エンコーダの利点を強調した。
論文 参考訳(メタデータ) (2023-09-15T14:57:28Z) - Improving Audio-Visual Speech Recognition by Lip-Subword Correlation
Based Visual Pre-training and Cross-Modal Fusion Encoder [58.523884148942166]
本稿では,事前学習および微調整訓練の枠組みの下で,音声視覚音声認識(AVSR)を改善するための2つの新しい手法を提案する。
まず, マンダリンにおける口唇形状と音節レベルサブワード単位の相関について検討し, 口唇形状から良好なフレームレベル音節境界を確立する。
次に,音声誘導型クロスモーダルフュージョンエンコーダ(CMFE)ニューラルネットワークを提案する。
論文 参考訳(メタデータ) (2023-08-14T08:19:24Z) - Audio-visual End-to-end Multi-channel Speech Separation, Dereverberation
and Recognition [52.11964238935099]
本稿では,音声-視覚的多チャンネル音声分離,デバーベレーション,認識手法を提案する。
ビデオ入力は、マスクベースのMVDR音声分離、DNN-WPEまたはスペクトルマッピング(SpecM)ベースの音声残響フロントエンドで一貫して実証される。
オックスフォードLSS2データセットのシミュレーションや再生を用いて合成した重畳および残響音声データについて実験を行った。
論文 参考訳(メタデータ) (2023-07-06T10:50:46Z) - Audio-visual multi-channel speech separation, dereverberation and
recognition [70.34433820322323]
本稿では,音声-視覚的多チャンネル音声分離,デバーベレーション,認識手法を提案する。
音声を用いた場合の視覚的モダリティの利点は、2つのニューラルデバーベレーションアプローチでのみ示される。
LRS2データセットを用いて行った実験から,提案手法がベースラインよりも優れていたことが示唆された。
論文 参考訳(メタデータ) (2022-04-05T04:16:03Z) - Dual-Path Style Learning for End-to-End Noise-Robust Speech Recognition [26.77806246793544]
音声強調(SE)は、ASRの雑音を低減するためにフロントエンドとして導入されるが、重要な音声情報も抑制する。
エンドツーエンドノイズロスト音声認識(DPSL-ASR)のためのデュアルパス型学習手法を提案する。
実験の結果,提案手法はIFF-Netベースラインよりも10.6%,8.6%の相対単語誤り率(WER)の低減を実現している。
論文 参考訳(メタデータ) (2022-03-28T15:21:57Z) - Discretization and Re-synthesis: an alternative method to solve the
Cocktail Party Problem [65.25725367771075]
この研究は、初めて合成に基づくアプローチがこの問題にうまく対応できることを示した。
具体的には,離散シンボルの認識に基づく音声分離/強調モデルを提案する。
離散シンボルの入力による合成モデルを利用することで、離散シンボル列の予測後、各ターゲット音声を再合成することができる。
論文 参考訳(メタデータ) (2021-12-17T08:35:40Z) - Improving Noise Robustness of Contrastive Speech Representation Learning
with Speech Reconstruction [109.44933866397123]
実環境における音声認識システムの実現には,雑音の堅牢性が不可欠である。
雑音認識のための自己教師型フレームワークにより学習したノイズロスト表現を用いる。
ラベル付きデータのわずか16%で報告された最高の教師付きアプローチに匹敵するパフォーマンスを実現した。
論文 参考訳(メタデータ) (2021-10-28T20:39:02Z) - Interactive Feature Fusion for End-to-End Noise-Robust Speech
Recognition [25.84784710031567]
本稿では,ノイズロバスト音声認識のための対話型特徴融合ネットワーク(IFF-Net)を提案する。
実験の結果,提案手法は最良基準値に対して絶対単語誤り率(WER)を4.1%削減できることがわかった。
さらに分析した結果,提案したIFF-Netは,過度に抑圧された拡張機能において欠落した情報を補うことができることがわかった。
論文 参考訳(メタデータ) (2021-10-11T13:40:07Z) - An Effective Contextual Language Modeling Framework for Speech
Summarization with Augmented Features [13.97006782398121]
変換器による双方向表現(BERT)モデルが提案され,多くの自然言語処理タスクにおいて記録破りの成功を収めた。
本研究では,不完全な自動音声認識によるネガティブな影響を軽減するために,信頼度スコアを文表現に組み込むことを検討した。
提案手法の有効性をベンチマークデータセットで検証する。
論文 参考訳(メタデータ) (2020-06-01T18:27:48Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。