論文の概要: Parallel Gated Neural Network With Attention Mechanism For Speech
Enhancement
- arxiv url: http://arxiv.org/abs/2210.14509v2
- Date: Thu, 27 Oct 2022 04:47:45 GMT
- ステータス: 処理完了
- システム内更新日: 2022-10-28 16:09:44.370103
- Title: Parallel Gated Neural Network With Attention Mechanism For Speech
Enhancement
- Title(参考訳): 音声強調のための注意機構を有する並列ゲートニューラルネットワーク
- Authors: Jianqiao Cui, Stefan Bleeck
- Abstract要約: 本稿では,特徴抽出ブロック (FEB) と補償拡張ブロック (ComEB) とマスクブロック (MB) からなる新しい単調音声強調システムを提案する。
Librispeech データセットを用いて実験を行い,提案モデルがESTOI と PESQ のスコアから,最近のモデルよりも優れた性能が得られることを示した。
- 参考スコア(独自算出の注目度): 0.0
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Deep learning algorithm are increasingly used for speech enhancement (SE). In
supervised methods, global and local information is required for accurate
spectral mapping. A key restriction is often poor capture of key contextual
information. To leverage long-term for target speakers and compensate
distortions of cleaned speech, this paper adopts a sequence-to-sequence (S2S)
mapping structure and proposes a novel monaural speech enhancement system,
consisting of a Feature Extraction Block (FEB), a Compensation Enhancement
Block (ComEB) and a Mask Block (MB). In the FEB a U-net block is used to
extract abstract features using complex-valued spectra with one path to
suppress the background noise in the magnitude domain using masking methods and
the MB takes magnitude features from the FEBand compensates the lost
complex-domain features produced from ComEB to restore the final cleaned
speech. Experiments are conducted on the Librispeech dataset and results show
that the proposed model obtains better performance than recent models in terms
of ESTOI and PESQ scores.
- Abstract(参考訳): 深層学習アルゴリズムは、音声強調(SE)にますます使われている。
教師付き手法では、正確なスペクトルマッピングにはグローバルおよびローカル情報が必要である。
鍵となる制限は、しばしば重要な文脈情報の取り込みが貧弱である。
対象話者の長期的活用とクリーン音声の歪み補償のために,シーケンス・ツー・シーケンス(S2S)マッピング構造を採用し,特徴抽出ブロック(FEB),補償拡張ブロック(ComEB),マスクブロック(MB)からなる新しいモノラル音声強調システムを提案する。
FEBにおいて、U-netブロックを用いて複合値スペクトルを用いて抽象的特徴を抽出し、マスキング手法を用いて大域の背景雑音を抑える一方、MBはFEBから大域特徴を採り、ComEBから得られた失われた複素領域特徴を補償して最終的なクリーン化音声を復元する。
Librispeech データセットを用いて実験を行い,提案モデルがESTOI と PESQ のスコアから最近のモデルよりも優れた性能が得られることを示した。
関連論文リスト
- A Mask Free Neural Network for Monaural Speech Enhancement [5.773867150765472]
本稿では,MFNetを提案する。MFNetは,音声のマッピングだけでなく,逆雑音のマッピングも可能な,直接的かつシンプルなネットワークである。
実験の結果,マッピング手法によるネットワークのマスキング性能は,マスキング法よりも優れていた。
論文 参考訳(メタデータ) (2023-06-07T09:39:07Z) - NLIP: Noise-robust Language-Image Pre-training [95.13287735264937]
雑音調和と雑音補完という2つの手法を用いて事前学習の安定化を図るため,NLIPの原理的手法を提案する。
我々のNLIPは、画像テキスト事前学習における一般的なノイズ効果をより効率的に軽減することができる。
論文 参考訳(メタデータ) (2022-12-14T08:19:30Z) - Improved Speech Emotion Recognition using Transfer Learning and
Spectrogram Augmentation [56.264157127549446]
音声感情認識(SER)は、人間とコンピュータの相互作用において重要な役割を果たす課題である。
SERの主な課題の1つは、データの不足である。
本稿では,スペクトログラム拡張と併用した移動学習戦略を提案する。
論文 参考訳(メタデータ) (2021-08-05T10:39:39Z) - Streaming End-to-End ASR based on Blockwise Non-Autoregressive Models [57.20432226304683]
非自己回帰(NAR)モデリングは、音声処理においてますます注目を集めている。
エンドツーエンドのNAR音声認識システムを提案する。
提案手法は低レイテンシ条件下でのオンラインASR認識を改善する。
論文 参考訳(メタデータ) (2021-07-20T11:42:26Z) - Phase Aware Speech Enhancement using Realisation of Complex-valued LSTM [4.047123840446361]
本稿では、複素比マスクを推定するために、複素数値短期記憶(RTM)ネットワークの実現を提案する。
提案したRTMは複素数値列を複素算術を用いて処理するように設計されている。
実価値に基づくマスキング手法と比較して,提案手法は,音声品質の知覚的評価など,いくつかの客観的尺度で改善されている。
論文 参考訳(メタデータ) (2020-10-27T08:16:58Z) - Efficient Low-Latency Speech Enhancement with Mobile Audio Streaming
Networks [6.82469220191368]
高速低遅延音声強調のためのモバイル音声ストリーミングネットワーク(MASnet)を提案する。
MASnetは線形スケールのスペクトログラムを処理し、連続するノイズフレームを複素値比マスクに変換する。
論文 参考訳(メタデータ) (2020-08-17T12:18:34Z) - Sparse Mixture of Local Experts for Efficient Speech Enhancement [19.645016575334786]
本稿では,専門的ニューラルネットワークの効率的なアンサンブルを通して,音声を聴覚的に認識するためのディープラーニング手法について検討する。
タスクを重複しないサブプロブレムに分割することで、計算複雑性を低減しつつ、デノナイジング性能を向上させることができる。
以上の結果から,微調整されたアンサンブルネットワークは,一般のネットワークの発声能力を上回ることができることがわかった。
論文 参考訳(メタデータ) (2020-05-16T23:23:22Z) - Simultaneous Denoising and Dereverberation Using Deep Embedding Features [64.58693911070228]
ディープ埋め込み特徴を用いた同時発声・発声同時学習法を提案する。
ノイズ発生段階では、DCネットワークを利用してノイズのないディープ埋込み特性を抽出する。
残響段階では、教師なしのK平均クラスタリングアルゴリズムの代わりに、別のニューラルネットワークを用いて無響音声を推定する。
論文 参考訳(メタデータ) (2020-04-06T06:34:01Z) - ADRN: Attention-based Deep Residual Network for Hyperspectral Image
Denoising [52.01041506447195]
ノイズの多いHSIからクリーンなHSIへのマッピングを学習するために,注目に基づくディープ残差ネットワークを提案する。
実験の結果,提案手法は定量的および視覚的評価において最先端の手法よりも優れていた。
論文 参考訳(メタデータ) (2020-03-04T08:36:27Z) - Deep Speaker Embeddings for Far-Field Speaker Recognition on Short
Utterances [53.063441357826484]
深層話者埋め込みに基づく話者認識システムは,制御条件下での大幅な性能向上を実現している。
制御されていない雑音環境下での短い発話に対する話者検証は、最も困難で要求の高いタスクの1つである。
本稿では,a)環境騒音の有無による遠距離話者検証システムの品質向上,b)短時間発話におけるシステム品質劣化の低減という2つの目標を達成するためのアプローチを提案する。
論文 参考訳(メタデータ) (2020-02-14T13:34:33Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。