論文の概要: Speech-enhanced and Noise-aware Networks for Robust Speech Recognition
- arxiv url: http://arxiv.org/abs/2203.13696v1
- Date: Fri, 25 Mar 2022 15:04:51 GMT
- ステータス: 処理完了
- システム内更新日: 2022-03-28 12:13:55.775207
- Title: Speech-enhanced and Noise-aware Networks for Robust Speech Recognition
- Title(参考訳): ロバスト音声認識のための音声強調・雑音認識ネットワーク
- Authors: Hung-Shin Lee, Pin-Yuan Chen, Yu Tsao, Hsin-Min Wang
- Abstract要約: 音声強調と音声認識を協調的に最適化するために,2つのカスケードニューラルネットワーク構造に基づく雑音認識学習フレームワークを提案する。
提案した2つのシステムは,オーロラ4タスクにおいてそれぞれ3.90%と3.55%の単語誤り率(WER)を達成する。
CNN-TDNNF ベースのシステムは,Bigram と Trigram の言語モデルを用いた復号化システムと比較して,それぞれ 15.20% と 33.53% の WER 削減を実現している。
- 参考スコア(独自算出の注目度): 25.279902171523233
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Compensation for channel mismatch and noise interference is essential for
robust automatic speech recognition. Enhanced speech has been introduced into
the multi-condition training of acoustic models to improve their generalization
ability. In this paper, a noise-aware training framework based on two cascaded
neural structures is proposed to jointly optimize speech enhancement and speech
recognition. The feature enhancement module is composed of a multi-task
autoencoder, where noisy speech is decomposed into clean speech and noise. By
concatenating its enhanced, noise-aware, and noisy features for each frame, the
acoustic-modeling module maps each feature-augmented frame into a triphone
state by optimizing the lattice-free maximum mutual information and cross
entropy between the predicted and actual state sequences. On top of the
factorized time delay neural network (TDNN-F) and its convolutional variant
(CNN-TDNNF), both with SpecAug, the two proposed systems achieve word error
rate (WER) of 3.90% and 3.55%, respectively, on the Aurora-4 task. Compared
with the best existing systems that use bigram and trigram language models for
decoding, the proposed CNN-TDNNF-based system achieves a relative WER reduction
of 15.20% and 33.53%, respectively. In addition, the proposed CNN-TDNNF-based
system also outperforms the baseline CNN-TDNNF system on the AMI task.
- Abstract(参考訳): 頑健な自動音声認識にはチャネルミスマッチと雑音干渉の補償が不可欠である。
一般化能力を向上させるため、音響モデルのマルチ条件訓練に強化音声を導入している。
本稿では,2つのカスケードニューラルネットワーク構造に基づく雑音認識学習フレームワークを提案し,音声強調と音声認識を共同で最適化する。
特徴強調モジュールはマルチタスクオートエンコーダで構成され、ノイズの多い音声をクリーンな音声とノイズに分解する。
音響モデルモジュールは、各フレームの高機能化、雑音認識、ノイズを結合することにより、予測された状態列と実際の状態列との交叉エントロピーを最適化し、各特徴拡張されたフレームをトリホン状態にマッピングする。
因子化時間遅延ニューラルネットワーク (tdnn-f) とその畳み込み型 (cnn-tdnnf) に加えて, 2つのシステムはそれぞれ3.90%と3.55%の単語誤り率 (wer) を達成している。
CNN-TDNNF ベースのシステムは,Bigram と Trigram の言語モデルを用いた復号化システムと比較して,それぞれ 15.20% と 33.53% の WER 削減を実現している。
さらに,提案したCNN-TDNNFベースのシステムは,AMIタスクにおけるベースラインCNN-TDNNFシステムよりも優れている。
関連論文リスト
- LSTMSE-Net: Long Short Term Speech Enhancement Network for Audio-visual Speech Enhancement [4.891339883978289]
長期記憶音声強調ネットワーク(LSTMSE-Net)を提案する。
この手法は、視覚情報と音声情報の相補的な性質を活用し、音声信号の品質を高める。
システムは、視覚的および音声的特徴を拡大し強調し、それをセパレータネットワークを介して上回り、最適化された音声強調を行う。
論文 参考訳(メタデータ) (2024-09-03T19:52:49Z) - Audio-Visual Efficient Conformer for Robust Speech Recognition [91.3755431537592]
本稿では,近年提案されている高能率コンバータ接続性時間分類アーキテクチャの雑音を,音声と視覚の両方を処理して改善することを提案する。
実験の結果,音声と視覚のモダリティを用いることで,環境騒音の存在下での音声の認識が向上し,トレーニングが大幅に加速し,WERが4倍のトレーニングステップで低下することが確認された。
論文 参考訳(メタデータ) (2023-01-04T05:36:56Z) - Streaming Audio-Visual Speech Recognition with Alignment Regularization [69.30185151873707]
本稿では,ハイブリッド接続型時間分類(CTC)/アテンションニューラルネットワークアーキテクチャに基づくストリーミングAV-ASRシステムを提案する。
提案したAV-ASRモデルは、オフラインおよびオンライン設定でLip Reading Sentences 3データセット上で、WERの2.0%と2.6%を達成する。
論文 参考訳(メタデータ) (2022-11-03T20:20:47Z) - CMGAN: Conformer-based Metric GAN for Speech Enhancement [6.480967714783858]
本稿では,時間周波数領域に対する共振器を用いた距離生成逆ネットワーク(CMGAN)を提案する。
本生成装置では,2段コンバータブロックを用いて,全等級および複雑なスペクトログラム情報を集約する。
デコーダ段階では、大きさと複素スペクトルの推定を分離し、拡張された音声を再構成するために共同で組み込む。
論文 参考訳(メタデータ) (2022-03-28T23:53:34Z) - A Study of Designing Compact Audio-Visual Wake Word Spotting System
Based on Iterative Fine-Tuning in Neural Network Pruning [57.28467469709369]
視覚情報を利用した小型音声覚醒単語スポッティング(WWS)システムの設計について検討する。
繰り返し微調整方式(LTH-IF)で抽選券仮説を通したニューラルネットワークプルーニング戦略を導入する。
提案システムでは,ノイズ条件の異なる単一モード(オーディオのみ,ビデオのみ)システムに対して,大幅な性能向上を実現している。
論文 参考訳(メタデータ) (2022-02-17T08:26:25Z) - Real-time Speaker counting in a cocktail party scenario using
Attention-guided Convolutional Neural Network [60.99112031408449]
重なり合う音声におけるアクティブ話者数を推定するために,CNN(Real-time, Single-channel attention-guided Convolutional Neural Network)を提案する。
提案システムは,CNNモデルを用いて音声スペクトルから高レベル情報を抽出する。
WSJコーパスを用いた重畳音声のシミュレーション実験により,従来の時間平均プーリングに比べて,注意解がほぼ3%向上することが示されている。
論文 参考訳(メタデータ) (2021-10-30T19:24:57Z) - Three-class Overlapped Speech Detection using a Convolutional Recurrent
Neural Network [32.59704287230343]
提案手法は,非音声,単一話者発話,重複発話の3つのクラスに分類できる。
畳み込み型リカレントニューラルネットワークアーキテクチャは、畳み込み層がローカルパターンをモデル化する能力と、シーケンシャルな情報をモデル化するリカレント層の能力の両方の恩恵を受けるために研究されている。
提案した重畳重畳音声検出モデルは,DIHARD II評価セット上での精度0.6648,リコール0.3222で最先端の性能を確立する。
論文 参考訳(メタデータ) (2021-04-07T03:01:34Z) - WaDeNet: Wavelet Decomposition based CNN for Speech Processing [0.0]
WaDeNetは、モバイル音声処理のためのエンドツーエンドモデルである。
WaDeNetは、アーキテクチャ内に音声信号のウェーブレット分解を埋め込む。
論文 参考訳(メタデータ) (2020-11-11T06:43:03Z) - Neural Architecture Search For LF-MMI Trained Time Delay Neural Networks [61.76338096980383]
TDNN(State-of-the-the-art Factored Time delay Neural Network)の2種類のハイパーパラメータを自動的に学習するために、さまざまなニューラルネットワークサーチ(NAS)技術が使用されている。
DARTSメソッドはアーキテクチャ選択とLF-MMI(格子のないMMI)TDNNトレーニングを統合する。
300時間のSwitchboardコーパスで行われた実験では、自動構成システムはベースラインLF-MMI TDNNシステムより一貫して優れていることが示唆された。
論文 参考訳(メタデータ) (2020-07-17T08:32:11Z) - AutoSpeech: Neural Architecture Search for Speaker Recognition [108.69505815793028]
本稿では,AutoSpeech という名称の話者認識タスクに対して,最初のニューラルアーキテクチャ探索アプローチを提案する。
提案アルゴリズムはまず,ニューラルネットワークの最適操作の組み合わせを特定し,その後,複数回重ねてCNNモデルを導出する。
得られたCNNアーキテクチャは,モデル複雑性を低減しつつ,VGG-M,ResNet-18,ResNet-34のバックボーンに基づく現在の話者認識システムよりも大幅に優れていた。
論文 参考訳(メタデータ) (2020-05-07T02:53:47Z) - WaveCRN: An Efficient Convolutional Recurrent Neural Network for
End-to-end Speech Enhancement [31.236720440495994]
本稿では、WaveCRNと呼ばれる効率的なE2E SEモデルを提案する。
WaveCRNでは、音声の局所性特徴は畳み込みニューラルネットワーク(CNN)によって捉えられ、その局所性特徴の時間的シーケンシャル特性はスタック化された単純な繰り返し単位(SRU)によってモデル化される。
さらに、入力雑音音声の雑音成分をより効果的に抑制するために、隠れた層における特徴マップの強化を行う新しい制限された特徴マスキング(RFM)アプローチを導出する。
論文 参考訳(メタデータ) (2020-04-06T13:48:05Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。