論文の概要: Speech Enhancement using Separable Polling Attention and Global Layer
Normalization followed with PReLU
- arxiv url: http://arxiv.org/abs/2105.02509v1
- Date: Thu, 6 May 2021 08:18:02 GMT
- ステータス: 処理完了
- システム内更新日: 2021-05-07 13:18:04.169074
- Title: Speech Enhancement using Separable Polling Attention and Global Layer
Normalization followed with PReLU
- Title(参考訳): 分離型ポーリング注意とグローバル層正規化とPRELUによる音声強調
- Authors: Dengfeng Ke, Jinsong Zhang, Yanlu Xie, Yanyan Xu, Binghuai Lin
- Abstract要約: PHASENモデルの縮小と性能向上のための3種類の手法を提案する。
これらの修正により、PHASENモデルのサイズは33Mパラメータから5Mパラメータに縮小される。
VoiceBank+DEMANDのパフォーマンスはCSIGスコア4.30、PSSQスコア3.07、COVLスコア3.73に改善されている。
- 参考スコア(独自算出の注目度): 32.62404187248142
- License: http://creativecommons.org/licenses/by-nc-sa/4.0/
- Abstract: Single channel speech enhancement is a challenging task in speech community.
Recently, various neural networks based methods have been applied to speech
enhancement. Among these models, PHASEN and T-GSA achieve state-of-the-art
performances on the publicly opened VoiceBank+DEMAND corpus. Both of the models
reach the COVL score of 3.62. PHASEN achieves the highest CSIG score of 4.21
while T-GSA gets the highest PESQ score of 3.06. However, both of these two
models are very large. The contradiction between the model performance and the
model size is hard to reconcile. In this paper, we introduce three kinds of
techniques to shrink the PHASEN model and improve the performance. Firstly,
seperable polling attention is proposed to replace the frequency transformation
blocks in PHASEN. Secondly, global layer normalization followed with PReLU is
used to replace batch normalization followed with ReLU. Finally, BLSTM in
PHASEN is replaced with Conv2d operation and the phase stream is simplified.
With all these modifications, the size of the PHASEN model is shrunk from 33M
parameters to 5M parameters, while the performance on VoiceBank+DEMAND is
improved to the CSIG score of 4.30, the PESQ score of 3.07 and the COVL score
of 3.73.
- Abstract(参考訳): 単一チャンネル音声強調は音声コミュニティにおいて難しい課題である。
近年,様々なニューラルネットワークを用いた音声強調手法が提案されている。
これらのモデルのうち、PHASENとT-GSAはVoiceBank+DEMANDコーパスで最先端のパフォーマンスを達成した。
どちらのモデルもCOVLスコアは3.62である。
PHASENはCSIGスコアが4.21で、T-GSAはPESQスコアが3.06である。
しかし、この2つのモデルは非常に大きい。
モデルのパフォーマンスとモデルサイズとの矛盾は解消しにくいです。
本稿では,PHASENモデルの縮小と性能向上のための3種類の手法を提案する。
まず、PHASENの周波数変換ブロックを置き換えるために、分離可能なポーリングアテンションを提案する。
第2に、グローバル層正規化とPRELUを併用し、バッチ正規化をReLUに置き換える。
最後に、PHASENのBLSTMをConv2d操作に置き換え、位相ストリームを簡素化する。
これらの修正によりPHASENモデルのサイズは33Mパラメータから5Mパラメータに縮小され、VoiceBank+DEMANDのパフォーマンスはCSIGスコア4.30、PESQスコア3.07、COVLスコア3.73に改善された。
関連論文リスト
- Homogeneous Speaker Features for On-the-Fly Dysarthric and Elderly Speaker Adaptation [71.31331402404662]
本稿では, 変形性関節症と高齢者の話者レベルの特徴を学習するための2つの新しいデータ効率手法を提案する。
話者規則化スペクトルベース埋め込み-SBE特徴は、特別な正規化項を利用して適応における話者特徴の均一性を強制する。
テスト時間適応において、話者レベルのデータ量に敏感であることが示されるVR-LH機能に規定されている特徴ベースの学習隠れユニットコントリビューション(f-LHUC)。
論文 参考訳(メタデータ) (2024-07-08T18:20:24Z) - Enhancing Quantised End-to-End ASR Models via Personalisation [12.971231464928806]
量子化モデル(PQM)のための新しいパーソナライズ戦略を提案する。
PQMは 4-bit NormalFloat Quantisation (NF4) アプローチをモデル量子化とSATのローランク適応(LoRA)に用いている。
LibriSpeechとTED-Lium 3コーパスで実験が行われた。
論文 参考訳(メタデータ) (2023-09-17T02:35:21Z) - PP-MobileSeg: Explore the Fast and Accurate Semantic Segmentation Model
on Mobile Devices [4.784867435788648]
PP-MobileSegは、モバイルデバイス上で最先端のパフォーマンスを実現するセマンティックセグメンテーションモデルである。
VIMは最終予測に存在するクラスのみを補間することで、モデルのレイテンシを低減する。
実験の結果,PP-MobileSegは他の手法に比べて精度,モデルサイズ,レイテンシのトレードオフが優れていることがわかった。
論文 参考訳(メタデータ) (2023-04-11T11:43:10Z) - Speech Enhancement with Perceptually-motivated Optimization and Dual
Transformations [5.4878772986187565]
本稿では、PT-FSEと呼ばれる、知覚的モチベーションのある最適化と二重変換を備えたサブバンドベース音声強調システムを提案する。
提案モデルでは背骨よりも大幅に改善されているが,SOTAよりも27%小さく,現状よりも優れていた。
ベンチマークデータセットの平均NB-PESQは3.57であり,これまでに報告された最高の音声強調結果を提供する。
論文 参考訳(メタデータ) (2022-09-24T02:33:40Z) - FAMLP: A Frequency-Aware MLP-Like Architecture For Domain Generalization [73.41395947275473]
本稿では、変換周波数領域において、ドメイン固有の特徴をフィルタリングする新しい周波数認識アーキテクチャを提案する。
3つのベンチマークの実験では、最先端の手法をそれぞれ3%、4%、9%のマージンで上回った。
論文 参考訳(メタデータ) (2022-03-24T07:26:29Z) - Speaker Representation Learning using Global Context Guided Channel and
Time-Frequency Transformations [67.18006078950337]
グローバルな文脈情報を用いて、重要なチャネルを強化し、有意義な時間周波数位置を再検討する。
提案されたモジュールは、人気のあるResNetベースのモデルとともに、VoxCeleb1データセットで評価される。
論文 参考訳(メタデータ) (2020-09-02T01:07:29Z) - Towards a Competitive End-to-End Speech Recognition for CHiME-6 Dinner
Party Transcription [73.66530509749305]
本稿では,難しい場合であっても,ハイブリッドベースラインに近い性能を示すエンドツーエンドアプローチについて論じる。
CTC-Attention と RNN-Transducer のアプローチと RNN と Transformer のアーキテクチャを比較し,解析する。
RNN-Transducerをベースとしたベストエンド・ツー・エンドモデルでは、ビームサーチの改善とともに、LF-MMI TDNN-F CHiME-6 Challengeのベースラインよりも品質が3.8%向上した。
論文 参考訳(メタデータ) (2020-04-22T19:08:33Z) - Lipreading using Temporal Convolutional Networks [57.41253104365274]
現在の単語認識モデルは,残差ネットワークと双方向Gated Recurrent Unit層で構成されている。
このモデルの限界に対処し、その性能をさらに向上させる変更を提案する。
提案モデルでは,これらのデータセットにおいてそれぞれ1.2%と3.2%の絶対的な改善が得られた。
論文 参考訳(メタデータ) (2020-01-23T17:49:35Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。