論文の概要: WaveCRN: An Efficient Convolutional Recurrent Neural Network for
End-to-end Speech Enhancement
- arxiv url: http://arxiv.org/abs/2004.04098v3
- Date: Thu, 26 Nov 2020 07:28:32 GMT
- ステータス: 処理完了
- システム内更新日: 2022-12-16 06:19:50.789618
- Title: WaveCRN: An Efficient Convolutional Recurrent Neural Network for
End-to-end Speech Enhancement
- Title(参考訳): WaveCRN: エンドツーエンド音声強調のための効率的な畳み込みリカレントニューラルネットワーク
- Authors: Tsun-An Hsieh, Hsin-Min Wang, Xugang Lu, and Yu Tsao
- Abstract要約: 本稿では、WaveCRNと呼ばれる効率的なE2E SEモデルを提案する。
WaveCRNでは、音声の局所性特徴は畳み込みニューラルネットワーク(CNN)によって捉えられ、その局所性特徴の時間的シーケンシャル特性はスタック化された単純な繰り返し単位(SRU)によってモデル化される。
さらに、入力雑音音声の雑音成分をより効果的に抑制するために、隠れた層における特徴マップの強化を行う新しい制限された特徴マスキング(RFM)アプローチを導出する。
- 参考スコア(独自算出の注目度): 31.236720440495994
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Due to the simple design pipeline, end-to-end (E2E) neural models for speech
enhancement (SE) have attracted great interest. In order to improve the
performance of the E2E model, the locality and temporal sequential properties
of speech should be efficiently taken into account when modelling. However, in
most current E2E models for SE, these properties are either not fully
considered or are too complex to be realized. In this paper, we propose an
efficient E2E SE model, termed WaveCRN. In WaveCRN, the speech locality feature
is captured by a convolutional neural network (CNN), while the temporal
sequential property of the locality feature is modeled by stacked simple
recurrent units (SRU). Unlike a conventional temporal sequential model that
uses a long short-term memory (LSTM) network, which is difficult to
parallelize, SRU can be efficiently parallelized in calculation with even fewer
model parameters. In addition, in order to more effectively suppress the noise
components in the input noisy speech, we derive a novel restricted feature
masking (RFM) approach that performs enhancement on the feature maps in the
hidden layers; this is different from the approach that applies the estimated
ratio mask on the noisy spectral features, which is commonly used in speech
separation methods. Experimental results on speech denoising and compressed
speech restoration tasks confirm that with the lightweight architecture of SRU
and the feature-mapping-based RFM, WaveCRN performs comparably with other
state-of-the-art approaches with notably reduced model complexity and inference
time.
- Abstract(参考訳): 単純な設計パイプラインのため、音声強調(se)のためのエンドツーエンド(e2e)ニューラルモデルが注目されている。
E2Eモデルの性能を向上させるために, 音声の局所性と時間的連続特性をモデル化時に効率的に考慮する必要がある。
しかし、現在のSEのほとんどのE2Eモデルでは、これらの性質は十分に考慮されていないか、実現できないほど複雑である。
本稿では、WaveCRNと呼ばれる効率的なE2E SEモデルを提案する。
WaveCRNでは、音声の局所性特徴は畳み込みニューラルネットワーク(CNN)によって捉えられ、その局所性特徴の時間的シーケンシャル特性は積み重ねられた単純な再帰単位(SRU)によってモデル化される。
長い短期メモリ(LSTM)ネットワークを使用する従来の時間的シーケンシャルモデルとは異なり、SRUはより少ないモデルパラメータで計算において効率的に並列化することができる。
さらに、入力雑音音声の雑音成分をより効果的に抑制するために、隠れた層における特徴マップの強調を行う新しい制限された特徴マスキング(RFM)アプローチを導出する。
SRUの軽量アーキテクチャと特徴マスキングに基づくRAMにより、WaveCRNは他の最先端の手法と互換性があり、モデルの複雑さと推論時間が顕著に減少していることを確認した。
関連論文リスト
- TCCT-Net: Two-Stream Network Architecture for Fast and Efficient Engagement Estimation via Behavioral Feature Signals [58.865901821451295]
本稿では,新しい2ストリーム機能融合 "Tensor-Convolution and Convolution-Transformer Network" (TCCT-Net) アーキテクチャを提案する。
時間空間領域における意味のあるパターンをよりよく学習するために、ハイブリッド畳み込み変換器を統合する「CT」ストリームを設計する。
並行して、時間周波数領域からリッチなパターンを効率的に抽出するために、連続ウェーブレット変換(CWT)を用いて情報を2次元テンソル形式で表現する「TC」ストリームを導入する。
論文 参考訳(メタデータ) (2024-04-15T06:01:48Z) - RTFS-Net: Recurrent Time-Frequency Modelling for Efficient Audio-Visual Speech Separation [18.93255531121519]
本稿では,時間周波数領域の音声-視覚音声分離手法を提案する。
RTFS-Netはそのアルゴリズムをショートタイムフーリエ変換によって得られる複雑な時間周波数ビンに適用する。
これは、時間周波数領域の音声・視覚的音声分離法として初めて、現代の時間領域の全てを上回ります。
論文 参考訳(メタデータ) (2023-09-29T12:38:00Z) - Multi-Loss Convolutional Network with Time-Frequency Attention for
Speech Enhancement [16.701596804113553]
我々はDPCRNモジュールにおける自己注意を探求し、音声強調のためのMNTFA(Multi-Loss Convolutional Network with Time-Frequency Attention)と呼ばれるモデルの設計を行う。
DPRNNと比較して、軸方向の自己アテンションはメモリと計算の必要性を大幅に減らす。
本稿では,WavLMネットワークを用いた多分解能STFT損失とWavLM損失のジョイントトレーニング手法を提案する。
論文 参考訳(メタデータ) (2023-06-15T08:48:19Z) - Simple Pooling Front-ends For Efficient Audio Classification [56.59107110017436]
入力音声特徴量における時間的冗長性を排除することは,効率的な音声分類に有効な方法である可能性が示唆された。
本稿では、単純な非パラメトリックプーリング操作を用いて冗長な情報を削減する単純なプールフロントエンド(SimPFs)のファミリーを提案する。
SimPFは、市販オーディオニューラルネットワークの浮動小数点演算数の半数以上を削減できる。
論文 参考訳(メタデータ) (2022-10-03T14:00:41Z) - Bayesian Neural Network Language Modeling for Speech Recognition [59.681758762712754]
長期記憶リカレントニューラルネットワーク(LSTM-RNN)とトランスフォーマーで表される最先端のニューラルネットワーク言語モデル(NNLM)は非常に複雑になりつつある。
本稿では,LSTM-RNN と Transformer LM の基盤となる不確実性を考慮するために,ベイズ学習フレームワークの全体構造を提案する。
論文 参考訳(メタデータ) (2022-08-28T17:50:19Z) - TMS: A Temporal Multi-scale Backbone Design for Speaker Embedding [60.292702363839716]
話者埋め込みのための現在のSOTAバックボーンネットワークは、話者表現のためのマルチブランチネットワークアーキテクチャを用いた発話からマルチスケール特徴を集約するように設計されている。
本稿では, 話者埋め込みネットワークにおいて, 計算コストの増大を伴わずに, マルチスケール分岐を効率的に設計できる効果的な時間的マルチスケール(TMS)モデルを提案する。
論文 参考訳(メタデータ) (2022-03-17T05:49:35Z) - Time-Frequency Localization Using Deep Convolutional Maxout Neural
Network in Persian Speech Recognition [0.0]
一部の哺乳類の聴覚ニューロン系における時間周波数の柔軟性は、認識性能を向上させる。
本稿では,ASR音響モデルにおける音声信号情報の時間的局所化のためのCNNに基づく構造を提案する。
TFCMNNモデルの平均認識スコアは、従来のモデルの平均よりも約1.6%高い。
論文 参考訳(メタデータ) (2021-08-09T05:46:58Z) - Multi-Tones' Phase Coding (MTPC) of Interaural Time Difference by
Spiking Neural Network [68.43026108936029]
雑音の多い実環境下での正確な音像定位のための純粋スパイクニューラルネットワーク(SNN)に基づく計算モデルを提案する。
このアルゴリズムを,マイクロホンアレイを用いたリアルタイムロボットシステムに実装する。
実験の結果, 平均誤差方位は13度であり, 音源定位に対する他の生物学的に妥当なニューロモルフィックアプローチの精度を上回っていることがわかった。
論文 参考訳(メタデータ) (2020-07-07T08:22:56Z) - Single Channel Speech Enhancement Using Temporal Convolutional Recurrent
Neural Networks [23.88788382262305]
時間畳み込みリカレントネットワーク(TCRN)は、ノイズ波形を直接クリーン波形にマッピングするエンドツーエンドモデルである。
既存の畳み込みリカレントネットワークと比較して,本モデルではモデルの性能を向上させることができることを示す。
論文 参考訳(メタデータ) (2020-02-02T04:26:50Z) - Temporal-Spatial Neural Filter: Direction Informed End-to-End
Multi-channel Target Speech Separation [66.46123655365113]
ターゲット音声分離とは、混合信号からターゲット話者の音声を抽出することを指す。
主な課題は、複雑な音響環境とリアルタイム処理の要件である。
複数話者混合から対象音声波形を直接推定する時間空間ニューラルフィルタを提案する。
論文 参考訳(メタデータ) (2020-01-02T11:12:50Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。